2019年12月,爱数智慧自然式对话测试数据集入选ldc catalog,编号为ldc2019s23。ldc catalog是经过coretrustseal数据知识库认证的数据存储平台,并获得olac(开放数据存储联盟) 五星级评定。爱数智慧此次入选的数据集由60名发音人在不同环境中录制而成,发音人来自全国多个口音区,年龄段覆盖均衡。作为测试集,该数据集可为多种对话类语音识别模型测试提供特征广泛的语音数据。
ai巨头发力多轮对话研究,对话数据集需求爆发
ai巨头在应用层的拓展推动对话类数据集需求迎来爆发期。《2019人工智能商业化报告》指出,语音交互更贴近人类的沟通行为和习惯,随着技术突破带来的用户体验的提升,将最有可能成为人机交互的主流。对话式语音交互成为ai巨头发力的重点,谷歌、亚马逊、阿里、腾讯、百度、小米等纷纷推出了支持多轮连续对话的智能音箱、智能助理、智慧客服、智能机器人等产品。ai系统连续对话能力将引发金融、教育、科技互联网、交通出行、移动通信、科技制造等行业的交互变革。
另一方面,朗读式数据的模型识别准确率已可达97%-98%,而从chime 5比赛数据来看,对话式数据的模型识别准确率基本在50%左右。这个结果表明,在语音识别领域,对话类语音识别仍然是一个挑战。语音识别技术应用需要更好、更智能的对话类语音识别模型,也需要更多的对话类数据提升模型性能。
爱数智慧自然式对话测试数据集入选ldc catalog
总有一些企业走在了行业趋势的前端,因此当市场需求兴起时,那些具有前瞻性眼光的企业便能抓住机遇的风口。2019年12月,著名的语音数据存储与发布平台ldc将爱数智慧的自然式对话测试数据集纳入数据集目录,编号为ldc2019s23。公开资料显示,该目录已经过coretrustseal数据知识库认证。这充分肯定了入选数据集的可信赖度,同时也表明这些数据在未来仍然有用且有意义。
爱数智慧自然式对话测试数据集详解
爱数智慧科技有限公司成立于2016年,是一家专业的人工智能数据服务商,为语音识别、语音合成等领域提供专业的数据采集和标注服务。人工智能从业者常说 “garbage in, garbage out”,也就是说好的数据和好的模型一样重要。因此,我们不禁有些好奇这个数据集的魅力。爱数智慧的工作人员从数据采集、标注以及应用三方面为我们讲述了这个数据集的丰富内涵。
(一)采集的多样性
该数据集采用自发式风格录制,发音人根据选择的主题自由对话,充分还原生活中自然语言对话的场景。
发音人的多样性:该数据集由60名发音人录制而成,年龄段为4-67岁,采样均衡;发音人来自全国多个口音区,如陕西、内蒙、福建等;
录制环境多样性:该数据集在三个不同混响的房间进行录制,接近真实生活场景;
录音设备多样性:录音设备包含5种不同品牌安卓手机、8种型号的苹果手机、2种型号的录音笔;
拾音距离的多样性:数据集既包含近场数据,又包含远场数据。
(二)标注的准确性
同一说话人音频截取的准确性。在对话过程中,既有设备录制单人说话声音,又有设备
同时记录对话音频。因此,为了保证说话人音频的一致性,需要将至少3份音频数据结合起来标注。这要求在不同的音频数据中,对同一说话人音频的截取要保持高度的统一。
前瞻性的标签体系和标注准则。自然语言产生的语音交叠、停顿、咳嗽、拍手等声音都
是有意义的,这些声音表明了说话人的状态、情绪,甚至会暗示说话人的心理活动。如何用机器可识别的语言说明这些声音呢?爱数智慧的标注团队制定了一套客户认可的标签体系,为出现在音频中的每一种声音找到归属。在长期的标注中,爱数智慧形成了一套完整的标注准则,让数据保持一致性。
(三)语音识别模型适配的多样性
该自然式对话测试数据集可用于多种类型的语音识别模型测试,如对话识别模型、说话人分离、模型鲁棒性测试等。
对话类语音识别模型准确率测试。例如,在一个典型的家庭应用场景中,使用语音交互的家庭成员包含老人、妻子(成年女性)、丈夫(成年男性)、孩子。这些家庭成员的发音方式、发音习惯均有差异。在语音识别模型中,该数据集发音人年龄的多样性可用于测试模型对不同年龄段的识别效果。
说话人分离任务测试。基于特定说话人的场景化识别已经成为研究热点,美国国家标准局从2002年的丰富转写评测中正式加入了说话人分离任务,即从多人对话中自动地将语音依据说话人进行划分并加以标记。该数据集在采集中,已经设置了单人录音通道和多人录音通道。因此,可以将该数据集用于测试模型对说话人分离任务的准确率。
说话人确认任务测试。标注人员按照说话人对音频进行标注,即每段音频都有对应的说话人。由于该数据集采用多种不同类型的设备录制,在模型中,可将不同设备录制的语音段用于对待测说话人的身份进行判断,从而得出模型完成说话人确认任务的准确率。
模型鲁棒性测试。该数据集采集中,既有近场数据,又包含远场数据。将不同拾音距离的数据放入模型中,可以测试出模型在不同底噪、距离等因素干扰下的准确率,从而分析模型鲁棒性。
此外,该数据集包含了多种口音的语音数据,可以帮助模型快速扩展到多个不同口音区域。
据了解,爱数智慧拥有数据量行业领先的中文自然对话数据库,并在多语种自然对话数据制作上拥有行业认可的专业度。可制作50多种语言的数据集,如中文、日语、韩语、泰语、他加禄语、马来语以及各种口音的英语等。该公司已经积累10万小时+多语种多场景的音频数据,可快速用于提高语音识别模型性能。随着ai巨头对对话数据需求的爆发式增长,我们期待爱数智慧作为对话数据制作的先行者,发挥先发优势,为提升语音识别模型性能提供有力的数据支撑。