更多精彩 >

声智科技陈孝良:语音交互才是人工智能最便捷的控制手段

2017-11-15 17:10:24   来源:投资家网  作者:曹峰 

摘要:语音交互属人机交互的范畴,是一种比较前沿的交互方式。

当初,苹果SIRI的智能语音控制功能惊艳一时,语音交互带给人类巨大便捷。如今,近场(近距离)语音交互的辉煌成为过去,远场(远距离)到来。


语音交互属人机交互的范畴,是一种比较前沿的交互方式。今年7月,小米AI音箱发布,其最大亮点就是此类功能,用户只需说一声“小爱同学”就可唤醒它。所有智能设备与人的语音交互,都离不开一套可听清人声、从而做出反应的“唤醒技术方案”。

image.png

而声智科技就是小米AI音箱麦克风阵列和“唤醒技术方案”的提供者。带着对该技术的疑问,投资家网记者在近日采访到了声智科技创始人陈孝良,听他聊聊声智与语音交互技术背后的故事。


声智的唤醒技术方案


陈孝良早前在中科院声学所任职,从事工业级、国防级声学相关研究。2016年,语音交互市场持续火热。在经过多番调研、反复思量后,陈孝良与他在中科院的朋友成立了声智科技。


成立以来,声智科技专注于远场人工智能交互,提供从软硬件到云服务的远场语音交互技术方案,以及从芯片模组、PCBA到工业设计的Turnkey产品方案。


语音交互的基础建立在智能设备可以准确收集、识别人声,从而达到唤醒。在唤醒技术方案上,声智科技推出了领先行业的单麦/双麦,4+1, 6+1等麦克风阵列方案。


所谓麦克风阵列,就是收集语音数据的前端硬件,只有精准收集人声,才能谈人机交互。


传统的单麦克风系统只适用于低噪声、无混响、距离声源很近的情况,比如人和手机语音助手的交互。而在远距离语音交互场景中,距离声源远、环境中的大量噪声、多径反射和混响都会导致拾取信号的质量下降,严重影响语音识别率。基于此,多麦克风处理语音的麦克风阵列应运而生。


麦克风阵列是按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

image.png

而在市场上大卖的亚马逊Echo智能音箱,就是使用4麦以上的麦克风阵列。声智的4+1, 6+1等麦克风阵列方案可以说领先行业。


采访中,陈孝良显得很健谈。唯独谈及语音交互市场现状时,他减慢了语速冷静分析着自己投身的行业。


语音交互市场的现状


尽管语音交互市场持续火热,但整个行业还存在诸多现实的问题。


首先,远场语音交互的声音辨识度还很低。


复杂的现实环境和实验室的环境天壤之别,不同场景中有不同的噪音,智能设备如何在复杂环境中准确识别人声,一直是行业的最大痛点。


“声智的远场语音识别率,目前已达到90%,但是距离人和机器随心所欲的对话还有一个漫长的阶段”陈孝良坦言。


产品落地的迫切


远场语音交互技术不应用在实际产品上,它就只是一个实验室研究。


市场上的语音产品中,将这项技术应用在智能音箱上的居多。亚马逊的 Echo、 京东的叮咚、小米AI音箱、阿里的天猫精灵,可以看出,只有落地产品才能抢占市场份额。


巨头布局整个生态


回顾过往,整个语音交互市场从来不缺巨头的参与。


国外的微软、谷歌、苹果、亚马逊早早布局了各自的语音产品,国内百度、京东、阿里也相继进入语音交互市场。


声智的竞争优势


不久前,声智科技宣布完成近亿元的A轮融资,由百度、蓝港互动、洪泰基金、峰瑞资本联合财务投资。


资本垂青的背后,是声智在前景广阔的语音交互市场中独特的优势:


一、一体化语音交互方案


“做为整个生态链里的技术解决方案提供商,声智在技术上一定要具备优势。只有得到市场验证的技术,才可以获得合作伙伴的认可。”陈孝良对记者说到。


完整的语音产品方案除了麦克风阵列为主的硬件前端,还有云端、合作内容两部分。


硬件前端是麦克风阵列、降噪算法、芯片、硬件平台等;云端是语音识别和语义理解、语音数据;合作内容是音乐、天气、短信、通话等应用工具。


声智科技的一体化语音交互方案包括了领先的麦克风阵列方案,以及云端服务。


基于这些核心技术,百度、腾讯、小米、360、联想等著名品牌相继与声智建立合作。


二、在各个领域实现产品落地


目前,声智科技在智能家居、智能汽车、智能安防、智能金融、智能教育都有落地产品。


除了在智能音箱领域与小米的合作,声智在智能安防领域有 “奇虎360小水滴智能摄像头;智能机器人领域有“奇虎360儿童陪伴机器人”。


而在智能车载领域,声智科技对准驾驶员语音控制和全车语音控制的用户需求,提供了单麦识别优化算法和分布式麦克风阵列方案。


三、持续盈利


不止语音交互市场,纵观整个人工智能行业,可以实现持续盈利的公司也没有几家。人工智能领域,还处于投入开发阶段。


声智科技做为一家技术驱动型公司,通过卖技术、产品、服务,已达到持续盈利。


“我们的产品质量上好一点,成本上控制低一些,这些可以形成竞争优势。最早的时候,一套开发板卖几千块,也是营收。”陈孝良感慨。


语音交互市场的巨大前景


与其他行业相同,国内语音交互市场同样依赖国外核心芯片。同时,国外巨头虎视眈眈准备进军中国语音交互市场。我们国家整个语音交互市场的现状非常严峻。


不可否认的是,语音交互市场的前景是广阔的。人工智能带来的社会变革,就是让人类选择更便捷的生活方式。


在众多智能产品中,用户可以通过各种手段对其进行控制,而语音交互无疑是最便捷的操控手段。所以,人工智能的发展将与语音交互发展深度相连。


在这场智能变革的浪潮中,持续优化远场语音交互体验、打通与产业链上下游企业的合作,正是声智科技未来应做的事。


首席内容指导:投资家网蒋东文(曾用名:蒋冬文)

猜你喜欢

让 AI 学会“读心术”,见证史上最丝滑的人机交互

声智科技

在科幻电影《超能陆战队》中,“大白”(Baymax)作为一个友伴式疗愈机器人,展现了高度的适应性和情...

2024-08-01

原创

投资家网快讯|声智科技完成2亿元B轮融资,毅达资本领投

声智科技

公司核心团队大多来自中科院,拥有十多年声学和语音识别技术的研发经验,专注解决远场语音交互问题。

2018-12-29

高分红与稳健增长并行:解码民爆光电年报背后的财务韧性

上市公司民爆光电

2024年全球经济复苏不及预期,各类不确定性因素升温,整体企业经营面对复杂的宏观环境。

2025-04-16

从“走出去”到“走进去”国贸股份推动国际化提速提质

上市公司国贸股份

近日,在西班牙马德里举办的“投资福建”经贸对接会上,国贸控股集团旗下的浆纸公司、有色矿产公司以及中红...

2025-04-16

原创

蚂蚁百宝箱推出“MCP专区”,为智能体提供一站式AI服务

创新创业蚂蚁百宝箱

4月16日消息,为提升智能体(AI Agent)与外部工具的配置效率,蚂蚁智能体平台—百宝箱推出了“...

2025-04-16

中免集团深度参与第五届消博会 文旅融合引领消费新时尚

创新创业中免集团

4月13日至18日,由商务部和海南省人民政府共同主办的第五届中国国际消费品博览会(以下简称“消博会”...

2025-04-16

强脑科技与北京脑科学与类脑研究所共建脑机接口联合创新中心,打造国家脑机接口创新高地

创新创业强脑科技

在3月31日举办的中关村论坛脑机接口创新发展与应用论坛上,BrainCo强脑科技与北京脑科学与类脑研...

2025-04-16

原创

关税大棒下,最受益的中国企业出现了

特朗普关税

金价暴涨,福建老板日入8.7亿!

2025-04-16

起底“安倍信”,“二次创业”背后的利益工具

金融科技安倍信

在民族制造业的光环下,有一场持续十余年的“资本魔术”正在上演。

2025-04-15

春日经济如何升温?杉杉奥特莱斯多店启动春购活动

大消费杉杉奥特莱斯

随着气温逐渐回升,消费者焕新需求增加。为满足广大消费者焕新需求,杉杉奥特莱斯等各大商场陆续推出形式多...

2025-04-15

中粮餐饮亮相2025中国连锁餐饮峰会,分享供应链服务新论

大消费中粮餐饮

4月14日—16日,CCFA新消费论坛——2025中国连锁餐饮峰会在成都召开。

2025-04-15

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

分化浪潮中的坚守与突破 | 第19届中国投资年会,即将启幕

在时代的浩渺长河中,“分化”宛如一条隐匿的脉络,贯穿于万物的生长、发展与变迁。从生命的进化到文明的演...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...