大众智慧vs专家:是谁让IBM沃森更聪明?

推特
推特
LinkedIn
分享
脸谱网
fb-share-icon

理解自然语言是人工智能的伟大抱负之一。虽然解决这个问题可能会对社会产生令人兴奋的影响,但这需要前所未有的大量训练数据才能实现。在解释看似无穷无尽的健康数据时尤其如此,这也是为什么我们如此兴奋地看到这些数据的一个重要原因CrowdTruth.org利用CrowdFlower和Appen进行培训IBM华生

沃森代表了计算语言学和计算机视觉付诸行动的先进水平。它利用其对语言和图像前所未有的理解来梳理大量数据集,挖掘有用的信息并做出预测(比如疾病诊断).根据罗拉Aroyo作为CrowdTruth的首席调查员,沃森就像“一个认知假肢,可以扩展专家的决策能力”,比如医生,他们会把它作为一个工具建议关于如何最好地分析病人的病情。

与此同时,数据丰富平台已经成为数据科学家的宝贵资源,他们希望将清理工作自动化和规模化,数据标签,以及利用人类智能来丰富机器学习的数据。,培训数据创建。而沃森则一直在工作主动学习它从Appen等数据丰富平台上的人群贡献者那里获得的训练数据的质量,增强了它的智能。

IBM华生

沃森在几年前赢得jeopardy的时候就产生了错误。图像通过原子塔可

数据丰富和沃森的下一步是什么?

阿姆斯特丹自由大学的劳拉·阿罗约说,克里斯WeltyIBM沃森研究中心Robert-Jan口IBM荷兰分公司的CrowdTruth正引领着这股潮流。他们的工作重点是标签训练数据它结合了主题专家和群体贡献者,以加强沃森的机器学习算法。他们的发现是开创性的。

CrowdTruth团队

CrowdTruth团队

CrowdTruth发现,专家注释者(从事培训数据创建的高薪健康专业人士)只有30%的时间表示赞同。而“大众投票”覆盖95%专家协议。为什么?专家们对语言表达的粒度不太关注。人群的贡献者。这意味着,公正群体的集体智慧是一样好至少比坐在房间里的昂贵专家要好。他们注解的多样性有助于沃森理解专业培训师掩盖的细节。

我最近采访了劳拉·阿罗约(Lora Aroyo),她总结了CrowdTruth创建培训数据的方法:

“这群匿名工作者,通常对可能的领域专业知识没有偏见,正在从纯语言学的角度处理文本示例,并以这种方式捕获专家注释提供的解释的多样性。”

在过去的几年里,清洁培训数据的唯一途径是费力的拨款过程和雇佣大量承包商,而这既昂贵又耗时,而且难以规模化。但今天,研究人员可以简单地更换Appen的大规模的、按需的劳动力从大量医学文本、图像和视频中分分合合地构建和提取知识。因此,CrowdTruth正在证明,这些外行数据标签在解释语义内容方面比付费专业人士更有效。原因是,专家们用预先形成的偏见来解释数据。而群体贡献者,特别是像CrowdTruth那样,如果你在每个数据点上询问他们,他们会根据可能的解释范围来解释数据。因此,沃森在计算预测时吸收了更广泛、更可靠的矢量。

CrowdTruth的培训数据补充了医疗专家的输入,主要目的是从医疗文档中提取见解。通过在沃森的机器学习工作流程中引入人为数据丰富,该系统可以补充专家培训师的需求,更快速地提取关键知识从维基百科的文章,病人病例报告等等。

CrowdTruth研究的含义是什么?

该框架将有助于沃森执行医疗文本分析的能力,这有望以前所未有的方式推进临床研究和医疗护理的个性化。

想象一下,沃森能够解释病人当前的症状,并以惊人的速度开出正确的治疗处方。怎么做呢?通过综合医生的输入,以及自动分析病人几十年的医疗记录、该地区的季节性流感数据,以及沃森大脑中积累的其他医学知识。这是什么意思?病人得到更快更好的治疗。

在临床方面,制药公司可以加快药物的开发,研究人员可以更深入地研究疾病和遗传学。简而言之,更好的药物和更有效的临床结果。

通过将医学专家的专业知识与人工智能的力量相结合,我们很可能在我们的有生之年看到这些进步的实现。这是一个令人兴奋的前景,我们很高兴阿彭处在最前沿。

深入:

如果你想深入调查CrowdTruth,看看下面的幻灯片,看一看他们的GitHub,浏览CrowdTruth的团队论文演讲或者花点时间阅读CrowdTruth的三个方面,最近发表在《科学》杂志的创刊号上人类计算杂志

使用世界级的训练数据部署人工智能的网站
语言