数据集资源中心
为世界级人工智能应用团队创建和策划

现成的数据集集合
我们的高质量可授权数据集可以快速启动您的AI项目
我们提供“现成的”数据集的广泛目录,包括超过250个授权数据集,包括超过11,000小时的音频,超过25,000张图片和超过870万字,跨越80种语言和多种方言。我们的现成数据集旨在有效提高准确性,整体性能,并快速提供高质量的数据集,以满足特定的人工智能程序的需求。在我们的产品中,您可以找到跨多种数据类型的数据集,包括图像、视频、语音、音频和文本。我们不断地建立新的数据集,以满足我们全球客户的需求。
了解更多



开源公共资源数据集集合
我们的数据科学家对您的人工智能项目的推荐
机器学习和人工智能应用需要大量数据进行训练。您可以从我们推荐的资源中搜索要访问、修改、重用和共享的开放数据集。使用这些公开可用的数据集来影响AI和ML应用程序的开发,或者如果您想要一个简单的数据集来对解决方案进行基准测试,或者在处理真实数据集之前比较不同的算法。这些开放数据集是考虑访问位于组织范围之外的数据的一个很好的选择。
数据集发现者
计算机视觉
计算机视觉通过模拟人类视觉系统的复杂性,使计算机能够以与人类相同的方式识别和处理图像和视频中的物体。在图像应用程序中利用机器学习,如使自动驾驶汽车能够了解周围环境、面部识别应用程序、增强现实和混合现实或在医疗保健领域通过x射线和MRI扫描发现症状的自动化任务。使用丰富的计算机视觉数据集建立一个健壮的计算机视觉模型。

计算机视觉机器学习模型的开源数据集横跨广泛的领域——动物、桌面游戏、自动驾驶汽车、医学、热成像、无人机图像,甚至合成数据。您可以免费下载任何格式的图像和注释:VOC XML、COCO JSON、YOLOv3平面文本文件,甚至TFRecords。
了解更多
言语语料库
录制和转录新的语音语料库来创建声学模型和训练语音识别引擎可能是耗时和昂贵的。使用开放的语音音频文件和文本转录数据库,以快速和廉价地构建转录语音orpora,包含许多发言者在各种声学条件下的话语。
艾德雷森
该数据集共有71358个单词,13311个不同的单词,单个说话人大约10小时28分钟的语音,记录频率为48Khz,共包含3632个Wave格式的音频文件。音频文件的范围从0.67秒到50.08秒。
了解更多
siddiquelatif
乌尔都语数据集包含从乌尔都语脱口秀节目中收集的乌尔都语情感话语。它包含四种基本情绪的400句话:愤怒、快乐、中立和情绪。有38名发言者(27名男性和11名女性)。
了解更多

Common Voice dataset是一个开放源代码的语音数据集,目前由60种语言的7000多个验证小时组成,包括年龄、性别和口音等人口统计元数据,有助于训练语音识别引擎的准确性。数据集中的每个条目都由一个唯一的MP3和相应的文本文件组成。
了解更多

该数据集由音频对话及其转录本组成,包含1495个NIST sphere格式(SPH)的音频对话、1495个STM格式的转录本、带发音的词典(159848个条目)以及用于语言建模的选定单语数据。
了解更多

数据收集
如果需要更多的自定义的数据集对于特定的用例,我们提供数据收集作为一个独立的服务等多组分的可交付成果的一部分作为一个ASR语音数据库,通常包括音频数据、转录、发音词典,和一个特定于语言的文档或一个带注释的图像数据集。我们的数据收集服务涵盖各种数据类型和收集方法,以满足您独特的数据需求。
了解更多

