• 主页 > 知识问答
  • 从中科院研究员到创业者:如何对标美国声学巨头科胜讯的智能音箱市场策略

    智慧西方文学|渔阳

    随着共享经济的“热情”逐渐消退,另一波浪潮正在智能音箱或语音门户上展开。

    联想创业团队故事怎么写_联想公司创业史_联想创业团队故事

    最近三四个月,国内关于智能音箱的发布会纷纷推出。 4月18日,出门问问发布虚拟个人助理“勤文”和智能音箱; 4月25日,腾讯推出语音助手腾讯叮咚; 6月8日,京东发布叮咚TOP、叮咚II; 6月18日,喜马拉雅山和猎户座天空将上线。小雅AI音箱发布; 6月22日,腾讯发布腾讯云小微智能语音平台; 7月5日,百度发布DuerOS开放平台。同一天,阿里还推出了智能音箱天猫精灵X1和AliGenie语音助手……·

    此外,更多的家电企业、运营商、解决方案提供商、技术提供商、OEM厂商等正在涌入这一领域。在BAT、京东以及产业链众多玩家的推动下,语音交互、智能音箱的趋势已经形成并正在风起云涌。

    在北京上地东路35号的一栋写字楼里,有一家提供语音解决方案的创业公司——(北京)先测互联网。智东西与其创始人付强博士就语音交互入口进行了深入对话。付强,中国科学院声学研究所研究员。在语音信号处理领域研究20余年。他和他的团队有什么故事?

    1. 20多年声学研究后创业

    2000年,付强毕业于西安电子科技大学,获博士学位。博士研究方向为信号与信息处理。后在美国、欧洲科研机构从事相关博士后研究。回忆这段经历时,他说:“从硕士开始,我的科学研究就是围绕语音进行的。”

    2004年,付强回国,在中国科学院声学研究所工作。在此期间,完成国家自然科学基金资助科研项目30余项,在IEEE Trans.等国内外权威学术期刊和会议上发表论文70余篇,学术成果众多。此外,他还积极将学术成果运用到实践中。 2006年和2008年,他分别与通用汽车和大众汽车合作,将FarVoice语音解决方案应用于车辆。

    2004年至2016年,付强在中国科学院声学研究所从事研究工作12年。从硕士学习算起,付强在声学领域拥有20多年的经验。那么为什么选择在2016年12月这样的节点创业呢?语音终端的普及、市场需求、成熟的解决方案共同推动付强从研究员走向创业者。

    付强表示,去年有一个趋势,国内各种规模的语音终端都很受欢迎。这几年虽有繁荣,但不如去年。就连深圳的小型个体解决方案提供商也找上门来,半年时间客户就多达几十家。

    市场上确实对语音有很大的需求,尤其是在汽车、家庭等几个场景。三星在2012年推出了具有远程语音功能的电视,这也带动了国内智能电视的潮流。当时,中科院付强团队与(山东)工大电子、海信集团合作,推出了国内首款支持远程语音的海信电视XT810,提供信号处理、远程语音算法、唤醒和硬件模型。团体。此后,他的团队又联合工大电子、海信推出了两代支持远程语音的电视产品,并与TCL合作在北美市场推出了TCL平板电视等。这些合作也不断打磨着付强团队的语音解决方案和技术。这些条件共同促使他创办先策互联网,以求得更大的发展。

    (先采互联客户案例)

    先声互联网的创始团队大部分是付强在中科院声学研究所的原班人马,其中一位创始人来自著名的杜比实验室。他说,这个团队包括他负责核心算法的博士后,以及跟随他七八年的声学研究所的下属。团队可以无缝协作,工作效率更高。目前先采互联网在北京有10余人的正式团队,在工达电声有10余人的协作团队。

    目前,五菱的luka阅读开发机器人、极米科技的Lightank W100、地家园的臻健H2、360的Badilon儿童陪伴机器人等产品均采用了先策互联的远程说话算法和麦克风拾音。模组。此外,先测互联网还与腾讯、联想、小米等大公司在某些智能硬件产品上进行合作。

    联想创业团队故事_联想创业团队故事怎么写_联想公司创业史

    2.标杆科胜讯提供整套语音解决方案

    如果说智能语音产品分为前端和后端,那么先采互联的核心业务就集中在前端。他们一方面提供远程说话算法和麦克风阵列,另一方面提供麦克风拾音模块,即提供一整套软硬件结合的语音解决方案。

    付强表示,先声互联网还提供语音语义技术,可以对接亚马逊AVS、百度嘟米、腾讯云小微、谷歌助手、微软Cortana等主流语音交互平台,从而协助客户进行平台接入测试和认证。和内容访问。即使基于先采互联现有的解决方案,客户也只需安装一个音箱外壳即可使用。

    (先测互联网智能音箱样品展示)

    在今年7月5日的百度AI开发者大会上,作为百度的合作伙伴,先测互联网也展示了其最新的多麦克风硬件开发套件。该方案采用全志四核R16处理器,内嵌先策互联的麦克风阵列和远程对讲算法,搭载百度DuerOS SDK,支持双唤醒词供开发者使用。

    (先策互联基于全志R16平台开发的模组套件)

    在谈到这一领域的竞争对手时,付强指出,科胜讯是一个值得尊敬的对手。科胜讯主要提供芯片、深远算法等软硬件解决方案。它的优势在于芯片和降噪算法。此外,亚马逊用了四年时间推出了Echo,三星也用了四年时间推出了全球首款远程语音电视。使用的芯片是Conexant,和Conexant一样,其技术也经历了4年的磨合,所以更加成熟。

    付强团队在国内也较早从事影响深远的语音研究。它从2006年开始与通用汽车合作,因此在技术上有着深厚的积累。与科胜讯相比,先声互联网在算法增强方面更具优势。未来还将开发语音专用芯片对标科胜讯,提供更全面的软硬件解决方案服务。

    此外,随着影响深远的语音设备对麦克风阵列的需求大幅增加,科大讯飞、速必达、云智声等语音科技公司以及近期兴起的语音解决方案提供商开始涌入这一领域,这也是时候了。这就是先采互联网的机会所在。此外,付强还提到先策互联已经通过了基于Alexa的AVS标准认证,这也间接展现了先策互联在远场算法方面的优势。

    先测互联目前更专注于语音解决方案的提供。拾音模块的生产方面,其合作伙伴工达电子负责代工。付强还指出,他们在供应链上拥有强大的人力资源,比如通力电子、超声波音响等代工厂商,都保持着密切的联系。

    3、远程语音设备的关键部分:麦克风阵列

    麦克风阵列是FarVoice语音设备的关键部分。它包含 2 个以上麦克风和 FarVoice 算法。通过声源定位、波束形成、噪声抑制、回声消除等算法,可以有效拾取声音,从而保证特定场景下的语音识别率。麦克风阵列是拾取声音并唤醒设备的第一步。 “你家里用谁的麦克风阵列?”一时间成为热门话题。

    智能音箱中,亚马逊Echo采用6+1麦克风阵列,Google Home采用双麦克风阵列,叮咚音箱A1采用7+1麦克风阵列,阿里巴巴的天猫精灵X1采用6麦克风阵列等。不同玩家使用不同的麦克风阵列解决方案。

    (先测网正在测试的家伙)

    联想创业团队故事怎么写_联想公司创业史_联想创业团队故事

    那么麦克风的数量和拾音效果之间是否有必然的关系呢?付强指出,首先,相比后端语音识别,前端信号处理主要是解决背景噪声、非平稳干扰、设备回声、房间混响四个问题。麦克风阵列只是手段之一,而且总有人在。使用麦克风进行拾音研究。

    目前,麦克风阵列语音增强大致可分为两种技术路线:一是以Amazon Echo为代表的经典波束形成路线,严重依赖麦克风数量和阵列拓扑。通过使用更多的麦克风和特定的拓扑结构,波束的空间分化更强,保证声源定位和拾音效果。另一种是以Conexant为代表的路线,更多地依赖语音增强算法,较少依赖麦克风的数量和阵列拓扑。通过自适应降噪、混响降低、语音分离等技术,可以用少量的麦克风获得良好的拾音效果。难怪科胜讯表示,其双麦克风可以实现相当于竞争对手 5-8 个麦克风的解决方案。

    先声互联网的技术路线与科胜讯类似,优势在于阵列的增强算法。具体来说,先声互联的麦克风阵列将物理建模的信号处理与机器学习的数据建模相结合,抑制背景噪声、设备回声、房间混响等因素。其提供的麦克风解决方案包括双麦解决方案、四到六解决方案小麦,以及七种小麦及以上。此外,付强还表示,其团队的前端处理技术可以支持更灵活的麦克风阵列排列,这意味着产品ID设计有更多选择。

    4、我们再聊聊语音入口和智能音箱

    当前智能音箱的普及引发了语音门户和智能音箱的讨论,支持和悲观的声音此起彼伏。付强认为,语音作为交互入口确实是一种趋势,但现实中可能会出现波折。这就要求我们找到更高要求的场景,而不仅仅局限于语音交互。例如,也可以是语音通话设备。尽管Amazon Echo是智能终端的里程碑,但它并不是革命性的。

    从市场角度来看,智能音箱仍然是科技圈和时尚达人的玩物,用户的使用习惯还有待养成。科大讯飞在2016年年报中指出,2016年叮咚音箱整体销量近10万台。玲珑科技总经理魏强也表示,叮咚音箱占据了国内智能音箱市场近80%的份额,因此国内智能音箱市场还比较疲软。

    (先测互联合作伙伴及客户)

    付强还指出,虽然做智能音箱的人确实太多了,但不能说这不是一个入口。它可能占据家里的某个场景。目前芯片成本约为3-4美元,开发套件成本也在20美元左右。成本过高也是影响市场推进的重要因素。此外,智能音箱想要获得更大发展,还需要在成本、内容资源、功能、社交元素融合、交互体验等方面共同努力。

    但同时,设备商也应该考虑更多的可能性,布局不同的细分场景。比如像先测互联网这样的客户已经在某些细分场景进行了深入的探索,比如车辆中的中控设备、移动场景中的智能耳机、家庭场景中的电视、儿童机器人等,都是很好的切入点。

    另一方面,BAT对语音门户的布局无疑将使这个市场进一步成熟。付强表示,BAT的基因决定了他们布局更多的平台和软件层,这也是他们的优势。至于是否做硬件,其实是一个选择,是先做好产品再推动生态,还是先推动生态再打造精品。从长远来看,他们的目标是生态,最终希望吸引流量。物联网也是如此。

    此外,付强还表示,考虑到Alexa的生态建设,平台的测试体系和测试标准也将是一个重要问题,而目前我国在这方面还没有取得太大进展。例如,百度、阿里巴巴、腾讯都应该建立自己的准入标准,以推动这个语音交互生态系统的发展。

    结论:学者创业的机会有多大?

    从学术界到工业界,从研究员到企业家,这就是付强走过的轨迹。而这也反映出,在智能语音门户蓬勃发展的背景下,更多的科研人员来到了第一线,成为时代的潮流引领者。

    对比科胜讯,这位在声学领域深耕20多年的学者型企业家会带来怎样的故事?

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:http://malay1688.com/html/tiyuwenda/10861.html

    加载中~

    相关推荐

    加载中~