数据质量


我们有一系列强有力的数据质量控制措施,以确保您收到高质量的数据。



在Appen,我们理解人工智能训练数据质量的重要性。无论您是自己在我们的数据注释平台上设计工作,还是与我们管理的服务团队一起工作,我们利用行业领先的质量控制,为每个用例提供高度准确的培训数据。


图像

的动作数据注释的平台



我们的Appen数据注释平台(ADAP)提供了一些工具,帮助您监控标记数据的质量,并确保在每一步都有出色的数据质量。

工作设计

使用我们的数据注释平台,用户可以构建和测试工作,交付高质量的培训数据,使用:

图像

聪明的验证器

从机器学习驱动的众多验证器中进行选择,确保贡献者提供所需的输入。如果输入没有达到预期的阈值,贡献者将得到通知,从而通过标准化数据类型提高数据质量。
图像

工作流

将大型、复杂的项目分解为一系列简单的工作,并通过配置路由规则(如根据信心进行路由、特定答案或随机样本)来控制哪些行继续进行。




图像

测试的问题

使用ADAP,用户可以在输入作业之前和作业进行期间用测试问题测试贡献者,以确保他们能够正确地识别和标记每个任务。我们的框架利用预先回答的数据行来限定高性能贡献者,删除性能不佳的贡献者,并持续训练贡献者以提高他们对任务的理解。




图像

贡献者水平和目标



由于我们的人群都生活在同一个生态系统中,所以我们可以在整个注释管道中应用一致的数据质量控制。一些措施包括:


图像

贡献者的目标



根据人口统计、性别、地点等关键属性评估培训数据集中的数据分布情况。您可以选择确定异常分布的区域,并相应地增加数据集以平衡类并减少偏差。

自定义频道-通过创建自定义通道来提高数据质量,目标是那些已经证明自己理解工作并能够基于之前提交的工作成功执行的特定贡献者。根据贡献者在以前作业中的信任程度,或通过提供您信任的贡献者的id,手动将其分组到自定义通道中。


图像

因素水平



ADAP允许您根据贡献者的性能和技能水平来确定他们的目标。我们对每个贡献者保持审计跟踪,并根据他们在平台上的表现和经验将他们分成三个级别。级别1可用于优化吞吐量,而级别3确保只有我们最有经验和最高的执行者将工作在您的任务。





监督,审查和返工



通过密切关注数据注释管道,确保高质量的结果。通过方便地监视数据管道,您可以尽早捕获不一致,从而使项目顺利运行,并接收高质量的注释数据。


监视仪表板

积极监视运行中的作业,以发现可能降低注释速度的异常。利用作业监控工具快速发现测试问题、答案分布、吞吐量、完成率或作业成本中的异常。

审查

用户可以将作业的数据从一组贡献者发送到另一组贡献者,以执行额外的审查和修正,确保来自开放式任务的数据既相关又正确。对于那些传统上与测试问题无关的工作来说,这对于确保数据质量特别有用。

图像

审计

了解聚合注释是如何实现高质量结果的。

在平台审核

可视化并检查平台内工作的结果,以确定贡献者是否充分理解说明,识别问题领域,并改进说明和工作设计,以实现高质量的结果。

图像


Appen数据标注平台质量控制

下载

托管服务质量控制

下载


图像

管理服务质量控制



通过我们的白手套管理服务,我们将为您管理日常数据注释和/或数据收集流程,以提供高质量的培训数据。让我们的专业项目经理使用我们高质量的数据注释平台来处理您的项目。我们通过两个主要杠杆控制您的数据质量,专业知识和人群。



专业知识


我们在数据标注和收集过程的每个阶段都监控质量。我们的团队在各种数据注释和收集项目上有数十年的经验,提供定制的质量解决方案,以满足您特定的数据质量需求。他们将能够快速识别数据质量是否受到影响,并立即修复这一问题。

以下是我们在制作前、制作中和后期测量、监控和控制质量的一些方法:

图像 图像 图像


生产前支持和生产中监控
  • 资格包括新员工培训测试评估对指导方针的理解程度
  • 一系列精心策划的工作(金色)它对所有评分者进行平等的评估,通常包括双重审查以确保准确性
  • 快速评估者的反馈(REF)随机地穿插着实时数据,在提交时,评分者会收到即时反馈

后期制作分析与学习方法
  • 分歧集分析群体和个人的不一致率,以确定异常值和趋势
  • 分歧严重(Off-By Score)允许分析分歧的严重程度,即计算原始答案和正确答案之间的间隔
  • 评级分布由个人和团体进行分析,以确定属于团体分布之外的任何模式




人群:衡量和管理贡献者质量


我们的客户可以接触到来自170多个国家、使用235种语言/方言的100万以上的贡献者。

使用Appen Managed Services,您可以战略性地选择贡献者来管理偏见和数据质量。我们使用人工智能为人群工人匹配更适合他们技能的任务。人工智能还被用于帮助他们的注释,以提高质量和吞吐量,并改善他们的体验。每个贡献者都要经过一个资格认证过程,这为他们的成功做好了最好的准备,并最大化了他们的可用性和技能。这个过程包括练习考试和复习教学大纲。我们在规模上的贡献者,帮助您提高项目的生产力在任何时间。





安全的数据访问


对于使用个人身份信息(PII)、受保护的健康信息(PHI)和其他复杂的合规需求的客户,数据安全需求得到了满足。

我们有企业级安全选项,以满足您的敏感数据需求,


图像
图像
图像
图像

安全的人群


我们提供一套安全服务产品,通过安全设施、安全远程工作人员和现场服务来确保数据安全,以满足特定的业务需求。

我们有企业级安全选项,以满足您的敏感数据需求,


图像
图像
图像
图像

部署选项


私有云部署
可以托管在您的特定云环境上。

本地部署
它可以部署在你的特定网络中无论是气隙式的还是非气隙式的。

我们有企业级安全选项,以满足您的敏感数据需求,


图像
图像
图像
图像

SAML-based单点登录


SSO,允许成员通过您选择的身份提供者(IDP)访问数据合作伙伴平台。

我们有企业级安全选项,以满足您的敏感数据需求,


图像
图像
图像
图像