利用AI和机器学习内容适度

推特
鸣叫
linkedin
分享
Facebook
fb-share-icon

机器学习如何优化内容泛化

互联网拥有超过45亿用户,并生长,每天生成数十亿的图像,视频,消息,帖子和其他内容类型。此内容必须以某种方式调节,因为这些互联网用户中的大多数都希望访问他们最喜欢的社交媒体平台或在线零售商,并具有安全,积极的体验。内容审核是解决方案:它删除了任何明确,滥用,假,诈骗,有害或不合适的数据的数据。

传统上传统上依靠人们进行内容审核需求,但随着使用和内容的增长,这种方法不再具有成本效益或有效。组织是投资机器学习(ML)策略,以创建自动中等内容的算法。

由人工智能(AI)支持的内容适度使在线企业能够更快地扩展并以对用户更加一致的方式进行更快的速度和优化其内容审核。它不会消除对人类主持人的需求(循环),谁仍然可以为准确性和处理更加语境,细微的内容问题提供基础监控。但它确实减少了内容主持人的需求,这是一个积极的:有害的有害内容的暴露对心理健康产生不利影响。将这项艰巨的任务留给机器,为公司,员工和用户提供了福利。

真实世界的内容适度应用

公司使用基于ML的内容适度进行各种数字媒体用例,从视频游戏到聊天和聊天室。但是,最常见的两个应用程序是社交媒体和在线零售。

社交媒体

社交媒体有内容问题。Facebook独自拥有超过20亿用户,这些用户在平均日期观看集体100万小时的视频,上传超过3.5亿张照片。雇用足够的人手动审查这一流量创造的内容将是令人难以置信的昂贵和时间密集的。AI通过自动检查仇恨语音,网络欺凌,明确或有害内容,假新闻和垃圾邮件的文本,用户名,图像和视频来缓解这种负担。然后,该算法可以删除不遵守公司条款和条件的内容或用户。

在线零售

内容审核不仅限于社交平台。在线零售商还使用内容泛温工具仅向消费者展示质量,商业友好的内容。例如,酒店预订网站可能会利用AI扫描所有酒店房间图像并删除任何违反网站规则的所有酒店房间(例如,没有人可以在照片中可见)。零售商还利用ML技术的组合来实现他们对其业务所需的定制。

内容审核是如何工作的?

基于ML的审核系统的内容队列和升级规则将由公司因其而异,但通常将包括步骤一步,步骤二或两者的AI泛化:

  1. Pre-moderation。ai在发布之前审核用户内容。然后,用户可以看到分类为不危害的内容。被认为具有有害或有害或有害的概率不删除商业友好.如果人工智能模型对其预测缺乏信心,它将标记内容,供人类审查。
  2. 后审查。用户报告有害内容,然后人工智能或人类对其进行评论。如果AI进行审查,它将遵循第一步所描述的相同工作流程,自动删除任何被认为有害的内容。

根据介质的类型,AI使用各种ML技术来进行内容预测。

文本

  • 自然语言处理(NLP):要了解人类的语言,电脑依靠NLP..它们可以使用像关键字过滤等技术来识别不利的删除语言。
  • 情绪分析:互联网和情感分析上的上下文问题有助于计算机识别音调,例如讽刺或愤怒。
  • 知识库:计算机可以依靠已知信息的数据库来预测哪些文章可能是假新闻或识别常见的骗局。

图像和视频

  • 对象检测:图像分析可以识别目标对象,例如不符合平台标准的图像和视频中的裸露​​。
  • 场景理解:计算机正在学习了解场景中发生的情况的背景,驾驶更准确的决策。

所有数据类型

无论数据类型如何,公司都可以使用用户信誉技术来确定他们可以信任的内容。计算机对用户分类为发布垃圾邮件或明确内容的历史记录,作为“不可信任”,并对他们发布的任何未来内容进行更大的审查。声誉技术也打击假新闻:计算机更有可能将内容从不可靠的新闻来源标记为假。

幸运的是,内容审核不断产生新的培训数据.如果计算机将内容路由到人类审阅者,则人类会将内容标记为有害或不存在,然后喂食标记数据回到算法,以提高未来的准确性。

克服内容适度的挑战

克服内容适度的挑战

内容审核对AI模型带来了许多挑战。纯粹的内容量需要在不牺牲准确性的情况下创建快速模型。开发准确模型的问题是数据。数字平台的公共数据集数量有限,因为大多数数据由收集它的公司保留为属性。

还有语言问题。互联网是全球性的,这意味着您的内容审核AI必须识别几十种不同的语言,以及说出它们的文化的社会环境。语言随着时间的变化而变化,因此定期使用新数据更新模型至关重要。

定义也存在不一致。网络欺凌意味着什么?是一个裸体雕像被认为是艺术,还是明确?在您的平台内保持这些定义是非常重要的,以维护用户信任在审核过程中。用户是创造性的,不断发展他们的方法,以适度寻找漏洞。要抵消这一点,您必须持续恢复您的模型,以杂草出来的问题,如最新的骗局或假新闻。

最后,请注意内容审核中的偏见。当涉及语言或用户特征时,存在歧视。多样化您的培训数据并教导您的模型以了解背景是至关重要的减少偏见

面对所有这些挑战,我们似乎无法创造出一个有效的内容审核平台。但成功是有可能的:许多组织求助于第三方供应商,以提供足够的培训数据,以及一群全球个人(会说多种语言)来进行标注。第三方合作伙伴还在支持ml的内容审核工具方面提供了所需的专业知识,以交付可伸缩的、高效的模型。

Appen内容适度专家的洞察力,Justin Adam

在Appen,我们依靠我们的专家团队来帮助您构建尖端模型,以实现成功的内容审核,提供优质客户体验并改善业务投资回报率。贾斯汀亚当是一个监督多个内容审核相关项目的计划经理,是我们的团队领先的专家之一,确保客户成功在实施和提高机器学习时的内容审核时。贾斯汀在成功的内容审核项目上的三大见解包括:

  • 按照现实世界的要求更新策略:每个内容审核决策应遵循定义的策略;但是,这也需要策略必须在出现时迅速发展以关闭任何差距,灰色区域或边缘案例,特别是对于敏感主题。监控特定于市场的内容趋势,确定策略差距,提供建议,并部署政策变更,以确保交付的数据将根据主持人与最新和最全面的政策指导一致的决定。
  • 管理人口偏见:当主持人池代表市场的一般人口时,内容适度最有效,可靠和值得信赖。重要的是要定义所需的人口统计数据并处理多样性采购的所有方面,以便送入模型的数据不受人口统计偏见。
  • 制定质量管理策略和专家资源以支持:内容审核决策易于在当今政治气候中审查。有效地识别,纠正,最重要的是,防止错误需要全面的策略。我们经常推荐并可根据客户的特定需求帮助实施适当的策略,包括开发培训的政策主题专家的全团队,建立质量控制审查等级,以及量身定制的质量分析和报告。

Appen能为你做什么

我们在帮助企业建立和推出AI模型方面有超过20年的经验,我们很自豪地为您的内容审核需求提供全面的数据分类管道。我们专有的质量控制技术提供高准确度和精度,由我们的专业知识和平台特色帮助您实现快速交付和可扩展性。

了解更多信息专业知识以及如何帮助您的特定内容审核需求。

使用世界级的训练数据部署人工智能的网站
语言