7月9日消息,智能语音技术作为人工智能技术的一个重要分支,在国内已经有了诸多落地应用,从智能音响、智能翻译机,到智能客服,都有智能语音技术的身影。然而,也有大量国内智能语言技术企业面临着同质化竞争、看不清商业化落地方向等困扰。
近日,在搜狐科技主办的《中国创新公司100》沙龙活动第二期中,清华大学人工智能研究院听觉智能研究中心主任郑方教授、声智科技联合创始人&首席知识官常乐、科大讯飞AI研究院副院长陈志刚等技术专家和行业头部企业代表,围绕《从听懂到读懂,智能语音商业化如何破局?》主题,就智能语音技术的发展趋势、智能语音商业化落地等话题进行了深入探讨和分享。
这里,TechWeb对访谈内容做了摘编。
智能语音技术趋势
主持人:智能语音处在什么样的发展阶段?多模态技术融合是趋势吗?
郑方:语音处理技术包含了很多分支,它是非常丰富的,比如语音识别、语音合成、声纹识别技术、情感识别技术,包括信号的分类技术等等很多。这里面不同的技术处于不同的发展阶段,成熟度不一样。以声纹识别为例,长语音比较成熟,短语音不成熟;声纹确认比较成熟,声纹辨认不够成熟等等。
对于相对已经成熟的分支存在一个问题,就是同质化比较严重。从技术看,是方法同质化,从市场来看,是带来恶性竞争,这在中国的语音界是存在的,而且还在某种程度上有一定的严重性。
智能语音技术落地对市场需求的认知和理解非常关键,用单一技术解决问题有很大的难度,这个也是一些AI公司面临困境非常重要的原因。不同的问题可能需要用不同的技术综合来解决,多技术融合应该是“能解决问题的融合”,不能做成“为融合而融合”。
陈志刚:目前语音技术还有一些难啃的骨头没有解决,比如前端的声学降噪算法,前端声学信号处理算法,包括麦克风阵列算法,包括对于角色进行分离,包括后续也要做更多理解上面的算法。这些算法的突破都是解决当前比较困难的语音问题的必由之路。
AI技术要落地一定会涉及到平台,也就是说用什么样的载体,比如在什么样的操作系统上,在什么样的嵌入式硬件上面承载AI的能力,这些AI的能力在各种条件下跑得起来,服务更多的场景,这些是非常系统化的事情。很多落地的过程需要各个环节的密切配合,才可以把它的价值最大程度挖掘出来。人工智能企业研发智能硬件,或者跟操作系统更深入的融合,这样会促进产业之间加速发展,特别在当前国际形势下面,加大AI能力和操作系统这样一些自主研发的投入,避免被国外卡脖子,这也是势在必行的。
常乐:用户对场景的需求远远不止是一个交互方式的改变,需要解决更多的问题,电瓶车进电梯经常引起火灾,我们的语音交互技术是不是在这里发挥更大的价值?语音技术、图象识别技术、大数据的技术都会融合到里面去,应对整体的市场需求,技术一定会是融合的。而且是广阔市场前景下进行有效融合,只有这些技术融合到一起,才真正解决用户的问题,对我们做技术的人来说绝对不是说研发技术来实现自嗨,这个技术有多么领先,而是希望这个技术可以切实解决所有用户真实的痛点需求。
“技术、产品、服务、整体解决方案” 选择那种商业化模式才算正确?
主持人:谈到智能语音商业化的问题,涉及到商业模式的问题。对于智能语音企业来讲怎么选择适合自身的商业模式,从已有的四种模式来看,哪种才是智能语音企业未来跑得通,让自己发展更好的模式?
郑方:不好说哪种模式更好,模式的好坏我觉得有三方面的决定因素。
一个取决于市场的需求:市场的需求其实可以说用两个点来表示,一个痛点,一个痒点。它决定了供求关系,痛点当然是解决基本的最受关注的问题,痒点就是它想要做一些突破创新的东西。这时候你比较容易做成你希望的模式。
第二,由技术来决定:你的技术是否成熟,技术是否具有一定的领先性,能够真正解决问题,技术能不能解决实际问题,因此技术也是一个决定因素。
第三,由竞争关系决定:提供相关的不管是技术、产品、解决方案或者服务的厂商,看它们的竞争关系是什么样的程度,有时候说得直白一点,如果竞争比较激烈的话,可能带来相互的压价或者恶性竞争,这时候可能有些你想做的模式做不到。
陈志刚:商业模式没有绝对的好坏高低之分,适合公司发展的就是好的模式。每个公司不一定会一直沿用某一种商业模式,在不同的发展阶段一定会有一个适合自己的商业模式或者商业模式的组合。
目前看来,国内很多优质的AI产品或者解决方案或者技术提供商更容易打动客户的更多是真正懂行业懂用户的企业,他们能够研发出来一些技术或者产品。这样一些企业最终跑出来,赢得市场的认可,这样才是一个好的商业模式。对于讯飞来说,我们当前阶段也有提供技术,用我们的开放平台提供技术的能力,也提供服务的能力,包括我们也自己做一些解决方案,在医疗、教育行业做解决方案,同时我们做C端的智能硬件产品。
toC 还是 toB ?
主持人:智能语音商业化落地路径无非两个,一个to C,一个to B,两者分别如何去做好技术和需求的选择和融合?
陈志刚:我觉得智能语音技术目前还只是一种技术,在to C领域一定要有和海量用户的常态性需求要紧密关联起来,才能够把这个技术应用到用户的需求当中去才能发挥它真正的价值。我们有很多智能硬件的产品,比如市面上的智能音箱其实就是为了让用户更快地获取歌曲的服务,操控家居设备,让用户有一种便捷的入口方式。
目前各种各样的互联网服务,包括音视频服务、信息流服务、智能家居生态等,基本被我们所知的很多巨头所垄断。其它的硬件厂商想要活下来,我觉得就两种可能的模式,一种选择加入巨头的生态,利用这些服务以及生态环境去打磨我们的产品,极致打磨,真正挖掘用户刚需的需求,能够取得一些先发优势,积累大量的用户。这是一种模式。
第二种模式,利用核心技术,做自己的技术以及产品的创新。这种创新相对来说有一定的难度,一般情况下如果简单的创新其实非常容易被复制,它有一定的颠覆性和开创性,同时要有一定的技术壁垒。比如开创新的硬件品类,通过这个过程深入挖掘用户的需求,利用AI技术解决用户实际的需求,讯飞也做过一系列目前还是受到好评的智能硬件产品,比如录音笔、智能翻译设备等。这些需求都是在实际过程当中真实海量用户的刚需需求,只有通过这些需求的不断挖掘和真正的极致打磨,把核心技术效果以及这款产品在实际应用过程当中的易用性各方面提升上去,这样才能够打造出来一些真正有开创性的新的硬件品类,这种方式下也是比较好的在这种背景下面新的商业化模式。
常乐:在to B领域,语音技术的应用前景非常广阔。比如声智科技目前在做的to B领域健康医疗大的领域,其实这也是一个大的语音赛道。我们现在在做的一些应对银发经济慢病和医疗管理的场景当中,其实语音都在其中发挥重要的价值。对于to B领域来说,C端领域大家每天和它交互,可能感受更深一点,其实在to B领域当中相信声学和人工智能和语音可能走得会比C端更超前。
另外,B端是很巨大的市场,无论是工业互联网还是新基建,很多基础设施项目中语音都起到非常重要的作用 。智慧医疗的方向,大家可以看到现在医院里面的挂号预约这些信息平台,到后来我们家里面的数字化医院,整个数字化经济构建其实除了我们说的计算机学科在其中起了巨大的价值,语音在背后也有着巨大的贡献值。在工厂里面自动化集成或者医院里面很多数字化应用包括流调、信息所有的工作,这些技术都是在其中起着非常重要的一环,虽然不是主角,可能是一个配角,但是是这个链条当中不可或缺的一环。
整个to B市场孕育着to C看不到的价值,在很多to B领域当中对于国民的生产总值或者对我们整个社会的变革能取得巨大的作用。
版权及免责声明:凡本网所属版权作品,转载时须获得授权并注明来源“物联之家 - 物联观察新视角,国内领先科技门户”,违者本网将保留追究其相关法律责任的权力。凡转载文章,不代表本网观点和立场。
延伸阅读
版权所有:物联之家 - 物联观察新视角,国内领先科技门户