Header Place holder
This content does not have an English version, but a Chinese version, as shown below.
Do not show this message again.

* 此案例基于在全球其他地区由微软运营的 Microsoft Azure 云平台实施,仅供由世纪互联运营的 Microsoft Azure 客户参考。

业务背景

自诞生以来,教育机器人就承载了人们对未来机器人科技的重视与期待。这其中,儿童教育机器人因为能全方位训练儿童学习能力、帮助孩子培养学习兴趣,开发潜能,以及协助父母照顾宝宝等优势,拥有非常广阔的发展前景,引起了市场的广泛关注。根据中国第 6 次人口普查,中国 0~14 岁儿童超过 2.2 亿,“二胎政策”放开后,每年新生婴儿达 2000 万以上。庞大的新生婴儿数量自然催生出巨大的早教市场。

作为领先的智能对话交互平台,零秒科技开发的 EchoCloud 回声云提供了完善的语意理解、知识图谱、云端记忆等智能对话交互所需的AI技术,为儿童教育机器人市场提供了成熟的软硬件解决方案。目前 EchoCloud 的服务主要分为两类:提供语音交互 AI 云 API 的接口服务,以及提供语音交互 AI 软硬件模组的解决方案。

但针对儿童早教,尤其是父母们非常看重的英语教育,有个难题始终没有解决:中英文混合语音的准确识别和理解。市面上成熟的语音识别技术和解决方案有很多,在纯中文或纯英文语音的理解方面都能提供不错的效果,然而面对诸如“Cat 的中文怎么说?”这样同时包含中英文内容的语音,识别效果始终差强人意。这也成为零秒科技亟需解决的技术难题。

解决方案

考虑到以后计划进军全球市场,零秒科技希望自己的解决方案能准确理解中文、英文、其他语言,甚至同时包含多种语言的混合内容。在对市面上现有的各类语音识别技术进行比较和评估后,最终选择与微软合作,借助 Azure 认知服务中提供的语音识别 API 以及文本到语音 TTS 引擎完善自己的技术能力。同时通过与微软合作,零秒科技还在营销、销售等方面获得了微软合作伙伴生态系统的鼎力支持。



零秒科技 EchoCloud 架构图

目前零秒科技对语音识别 API 和文本到语音 TTS 引擎的主要应用包括:

使用 Azure 认知服务语音识别 API 顺利识别混合语音内容

微软基于人工智能技术的语音识别 API 为零秒科技提供了最核心的语音识别能力,无论纯中文、纯英文,以及中英文混合内容的语音,该 API 均提供了极高的识别能力。

通过智能 TTS 引擎实现更逼真的语音反馈

在准确识别用户语音之后,零秒科技还在微软智能 TTS 引擎的帮助下实现了更逼真,更有感情的语音响应。针对用户的语音命令,提供更有感情、语调更自然、更为逼真拟人的语音回应,这也使得零秒科技的产品在市场中获得了更大竞争力。

在微软相关技术的帮助下,零秒科技可以更专注于产品本身,为企业客户、芯片制造商、解决方案集成商以及设备 OEM 厂商提供一体式的智能语音交互解决方案。

企业收益

北京零秒科技基于微软人工智能技术推出的儿童教育机器人产品以及行业解决方案在投放市场后,获得了广泛认可,并获得了如下收益:

大大提高企业在行业内的竞争力

零秒科技 EchoCloud 回声云解决方案使用 Azure 认知服务语音 API,成功解决了中英文混合语音识别这个难题,巩固了企业儿童教育机器人行业的地位,增强了企业在英语教育领域的竞争力,帮助零秒科技以机器人为场景切入点,在垂直领域更为专注,获得了广大最终用户以及相关硬件制造商的青睐。

中英文混合语音识别从无到有的突破

在微软基于人工智能技术的语音识别引擎帮助下,零秒科技顺利解决了中英文混合语音识别的难题,借此可以更好地理解用户意图,尤其是幼儿英语教育过程中极为常见的中英文混合语音,并在自然语言理解技术的支持下向用户给出精准的回应。弥补了之前在中英文混合语义识别技术上的不足。

更准确理解用户意图,更快速响应

通过不断的优化和完善,零秒科技将语音识别(ASR)和自然语意理解(NLU)融入到同一个技术引擎中,极大增加了语音交互的响应速度和准确率。目前已经顺利实现在不到 0.4 秒的时间里快速对用户命令提供响应的成绩,同时用户命令的识别准确率已超过 90%。

所用技术和服务