智东西(公众号:zhidxcom)
(资料图片)
编译 | 吴菲凝
编辑 | 李水青
智东西4月17日消息,近日,康奈尔大学未来交互智能计算机接口(SciFi)实验室发布了一款声呐眼镜EchoSpeech,该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。这款看似普通的眼镜使用了声学感应和AI技术,并配备两对扬声器和麦克风,目前可以连续识别多达31条“无声语音指令”,准确率高达95%。
EchoSpeech的主要应用场景包括嘈杂环境、不方便交谈的场合以及私密对话,还能帮助语言障碍者与他人进行交流,兼具商业消费和医疗保健功能。研发团队通过AI深度学习管道,来破译面部运动的声波传输轨道,利用卷积神经网络来解码无声语言。
此外,研发团队目前正通过资助项目Ignite来实现设备技术的商业化,未来将实现一定范围内的推广使用。
这篇名为《EchoSpeech:由声学传感驱动的眼镜上的连续无声语音识别(EchoSpeech:Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing)》的论文本月将在德国汉堡举行的CHI(Conference on Human Factors in Computing Systems)计算机协会会议上发表。
论文链接为:
https://dl.acm.org/doi/10.1145/3534621
一、可识别佩戴者唇部运动,转换准确率高达95%
康奈尔大学信息科学学院博士生张瑞东,也是EchoSpeech声呐技术研究的主要参与者、论文的主要作者,在视频中演示了EchoSpeech眼镜的外形、工作原理和使用方法。
在外人看来,张瑞东像是在奇怪地自言自语,他明明在说话却没有发生任何声音。实际上,他正在向EchoSpeech念密码来解锁自己的手机,并让它播放音乐列表中的下一首歌曲。
这种像在电影中才能实现的场景不是心灵感应,而是康奈尔大学最新发布的一项新产品EchoSpeech。该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。
据康奈尔大学计算与信息科学学院助教、科学实验室主任张成说,研究团队正在通过这项技术,将声呐“转移到人们的身上”。EchoSpeech眼镜下方配备了一对麦克风和一个比铅笔头上的橡皮擦更小的扬声器,这两个工具组成了眼镜的AI声呐系统,能向面部发送和接收声波并感应佩戴者的唇部运动。
与此同时,当佩戴者试图无声交流时,研究人员开发出的深度学习算法会实时分析这些回波轮廓,目前的准确率约为95%。
在张成看来,之前的无声语音识别技术最大的障碍就在于预定命令,而且用户必须要佩戴一个不小的摄像头,这导致这项技术既不实用也难以实现。而且技术上还涉及到可穿戴摄像头的用户隐私保护问题,更需要加强安全管理。
EchoSpeech使用的声学传感技术降低了对可穿戴摄像机的要求。由于音频数据比图像或是视频数据要小得多,因此只需较小的带宽就能处理,还能通过蓝牙实时传输到智能手机上。
信息科学学院教授、论文合著者弗朗索瓦·金布雷迪尔(François Guimbretière)说:“由于数据是在用户的手机上本地处理的,没有上传到云端处理,因此可以确保所有隐私敏感信息都不会脱离用户的控制。”
EchoSpeech最普遍的使用场景是不方便交谈或是无法发言的场合,比如嘈杂的餐厅或是安静的图书馆。在公共场合当中,当人们想谈论一些较为私密的话题,或是涉及到高保密性的工作内容时,EchoSpeech可以帮用户保护好这些隐私,让外人无法听到双方的谈话。EchoSpeech还能与手写笔配对,并于CAD等设计软件一起使用,几乎不用鼠标和键盘就能完成工作任务。
谈及这项技术在未来发展中的用途时,该研究的主要参与者信息科学博士生张瑞东称,对于那些听障人士、语言表达障碍人士而言,这种无声语音技术可能是语音合成器的绝佳拍档,它可以让他们流畅自然地发出自己的声音。据悉,当前版本的眼镜声学感应电池续航时间可持续约10小时,配备摄像头版本的则是30分钟。
无论用作商业消费级智能穿戴设备,还是用作医疗保健功能,EchoSpeech将智能可穿戴技术的实用性发挥到了最大。
二、连续识别31项指令,匹配新用户仅需6分钟
EchoSpeech看上去就像一款普通的近视眼镜,但事实上并非如此。在一项12人参与的小型测试中,EchoSpeech可以连续识别出31个独立的无声命令,以及一串由被试者发出的的连续数字,它在测试中的错误率低于10%。
EchoSpeech在发布的论文中详细解释了这项技术的工作原理。
两对微型扬声器和麦克风放在镜框下方来监测面部不同侧面的运动,当扬声器发出约20000赫兹的声波时,声波会沿着一块镜片到嘴唇的特定路径传播到另一块镜片上。当来自扬声器的声波感知到唇部运动后进行反射和衍射时,麦克风会捕捉这些声波的独特模式,并为每个句子或是命令制作一个“回声配置文件”,这就像一个完整的小型声呐系统在镜片下方工作。
▲图为系统布局和回波配置文件。
在上图中,图a展示了传感器的最终位置,图b代表者信号传递路径,即从P1到P4,S1、S2为扬声器,M1、M2为麦克风。每条路径都由多个路径反射和衍射组成,它们源自源扬声器,结束于麦克风。图c是EchoSpeech对不同指令形成的声波配置文件。
通过机器学习,人们可以通过这些回声配置文件推断佩戴者的无声语言以及他们想说的单词。虽然语言模型是在选择命令上经过统一的预先训练的,但它会根据每个佩戴者来进行微调,需要约6到7分钟来为新用户进行匹配。
声波传感器通过定制的扬声器连接到微控制器上,扬声器还能通过USB电缆与电脑进行连接。
在实时演示中,团队演示了低耗能版本的EchoSpeech如何通过蓝牙和微控制器来与手机进行无线通信,设备连接到安卓手机之后,能进行面部动作预测并将转换结果传输到某个“动作键”上,发布指令来让手机播放音乐、激活语音助手或是控制手机,这就是张瑞东在演示中“自言自语”就能切换音乐播放列表的技术原理。
此外,研发团队还设计了一个定制的深度学习管道,用来破译面部运动的无声语音的声波轨道。通过回声曲线计算模型来解析面部运动模式,研究人员为EchoSpeech添加了一个基于卷积神经网络(CNN,Convolutional Neural Networks)的模型,用来解码来自回声轮廓(echo profiles)的无声语言。
研究团队还在CNN末端添加了时间递归神经网络(RNN,recurrent neural network),包括长短时记忆神经网络(LSTM)和门控递归单元层(GRU)来提高性能,在这样一个卷积循环神经网络结构(CRNN)模型上进行了实验。研究结果显示,GRU的性能明显优于LSTM,在大多数情况下,CNN与CRNN的工作方式是类似的,但在音频数量相同的时期,CNN的收敛速度比CRNN要更快一些。
三、单句、整句都可识别,静态、动态效果一样
据研究表明,隐私问题和社交尴尬是人们愿意使用无声语音助手的重要因素,他们希望不用大声说话就能交流,而且不会向外界泄露半点声音,无声语音助手在这点上很好地保护到了用户的隐私。为了满足用户对于无声语音界面(SSI)功能的更多需求,研发人员希望EchoSpeech能无限接近现实生活场景。
在实验中,团队首先设计了两组命令来检验EchoSpeech识别离散和连续语音方面的能力,并考虑到了最常见的两种情况:静态和动态。
离散研究主要关注独立命令,连续研究则关注连续无声语音识别,每位被试者都需要完整这两个测试。在数据收集过程中,电脑屏幕上出现被试者需要执行的命令,他们说出电脑上出现的词但不能发出声音,电脑摄像头将这一完整过程录制下来,清晰地检测到每位被试者的面部肌肉运动走向。
在离散研究中,每个无声指令最长的持续3秒,3秒之后就自动跳到下一个指令;在连续研究中,被试者有4秒的时间来把每句话传递给声呐眼镜,完成后按空格键或是右箭头跳到下一个指令,被试者们尽可能以自然的速度和语气“说话”。
为了测试在静态(如坐在办公桌前)和动态(如在马路上走时)两种情形下,声呐眼镜的识别性能是否能保持稳定,一部分被试者用自己习惯的方式和速度在房间里随意走动,另外一部分则是抱着电脑走,结果显示两种情况下眼镜的表现并无显著差异。
▲EchoSpeech在静态和移动状态下的语音识别性能对比
研究团队称,用户只需提供6-8分钟的静态训练数据,就可以在静态和移动环境中无差别使用声呐眼镜,而且性能良好。
随着未来潜在的大规模部署,这种性能可以进一步改进。这将成为SSI迈向日常生活应用场景当中的坚实一步。
四、技术或将商业化,成为日常消费级产品
除了EchoSpeech以外,SciFi实验室之前还开发过一款称为EarlO的系统,该系统用配备声呐的耳机来捕捉佩戴者的面部表情,佩戴者的面部皮肤会在发声时出现移动、伸展和起皱,回声配置文件据此而进行调整,再利用算法识别这些回声配置文件,并快速重建用户面部表情,显示在数字化身上。
纽约发布罗大学的一个研究团队也研发过一款类似设备EarCommand,当我们默默说出一个单词时,肌肉运动和骨骼移动会导致耳道以独特的方式发生变形,这就意味着特定的变形模式可以与特定的单词相匹配,计算机利用这些AI算法来确定耳道的变形从而确认佩戴者所说的单词。
SciFi实验室还在积极参与康乃尔大学的Ignite项目来探索EchoSpeech技术的商业化。未来,研究人员们还将研发智能玻璃应用,用来跟踪用户的面部、眼睛和上半身的活动。张成称,未来智能玻璃将成为探知人们在日常环境中活动的重要个人智能平台。
结语:智能可穿戴设备进入研发成熟期,三大瓶颈有待突破
自2012年谷歌发布Project Glass智能眼镜以来,智能可穿戴设备市场可谓是备受关注。康奈尔大学研发的EchoSpeech声呐眼镜的出现证实了可穿戴设备的功能、应用场景不断得到优化拓展,可以说可穿戴设备行业已迈入研发的成熟期。
无论是EchoSpeech还是其他智能可穿戴设备也好,目前在关键技术上仍有不少瓶颈需要一一突破,包括产品形态、AI算力等。首要问题是功耗大、续航时间短导致无法用户无法长时间使用,这一弊端在配备摄像头版本的EchoSpeech上暴露得尤为明显。其次是产品功能集成度还不够完善,三是产品设计上不够日常,这就需要研发更微型的硬件来配备产品形态。
在用户实际需求和技术更新迭代的推动下,未来的EchoSpeech无论在可穿戴性、移动性、交互性以及持续性上将会有更大的改进。
关键词:
最新推荐
晨报讯(索里宋慧半岛晨报、39度视频记者齐媛媛)6月12日,随着“地中
这九人评选最强中单和TOP3,为此观众们进行了一系列的讨论,不同人有不
我们看到EDG俱乐部对此事不做任何解释,任由其发酵,然后转头就联系uzi
6月13日,据BWF世界羽联:2023年印尼羽毛球公开赛首轮赛况:石宇奇2-1
这个动作如果力量大一点戈登就废了,结果这个回合挑战回来之后,裁判竟
凝心聚力,携手前行——邮储银行临澧县支行开展员工户外拓展活动,彭山,
6月13日,岚图汽车宣布,获得包括中国工商银行、中国银行、中国农业银
5月份,福建全省居民消费价格(CPI)同比上涨0 2%,环比下降0 1%;全
扬子晚报网6月13日讯(记者郭一鹏通讯员王雷)因为买棉花糖的问题与家
一年一度的京东618即将落下帷幕,你都下单了哪些产品?为给用户带来全
我们看到EDG俱乐部对此事不做任何解释,任由其发酵,然后转头就联系uzi
直播吧6月13日讯此前哈维曾公开称赞基米希,对此球员进行了回应。在被
对于皇马而言,一直都希望求购姆巴佩,而今年确实不是最好的时机,如果
目前莱万在巴萨的年薪是税后900万欧,此前西班牙媒体报道,沙特联赛希
关于工伤认定的时间,我国法律是有一定的规定的,尤其是职业病。根据《
工伤解除劳动关系时职业病患者工伤待遇的认定与处理申请工伤认定的有效
6月12日,恒而达(300946)融资买入171 88万元,融资偿还72 5万元,融
美联储仍是股市当面面临的最大风险。大摩指出,目前股市上涨并不意味着
1、是一个和尚或者尼姑写的说的意思是,对你给的爱情,只能还给你一钵
高考结束,志愿填报即将开始,如何查询准确的高校与专业信息?高考填志
“一顿火锅刚开宴,好戏连台惊四方!”丁晟导演的悬疑喜剧《没有一顿火
今日凌晨,据《队报》、天空体育、《电讯报》等多家媒体的消息,姆巴佩
这九人评选最强中单和TOP3,为此观众们进行了一系列的讨论,不同人有不
今天凌晨,来自队报的消息,姆巴佩团队已经通过书面的形式正式通知大巴
德班世乒赛结束后,乒乓球世界排名迎来了新的变化,中国队重新夺回五大
本报讯为切实加强缉枪治爆工作,近日,铁岭市公安局工人分局组织民警在
本报讯为切实维护营口市伏季休渔秩序,确保增殖放流取得实效,保障广大
统计数据显示,海南旅游市场旅游收入高于疫情前2019年同期水平,游客消
端午文案1)粽子飘香,佳人安康。(粽子 祝福)2)粽子是端午限定,你我是命中注定。(爱情 结婚)3)粽子之...
冬至佳句七绝·冬至一,枫叶红时信已传,梅心雪意亦如前。阳生莫问春何处,夜永应知又一年。二,夜阑风...
课文匆匆原文燕子去了,有再来的时候;杨柳枯了,有再青的时候;桃花谢了,有再开的时候。但是,聪明的,...
本网讯近日,经宁夏回族自治区固原市农业系列职称评审委员会评审、市人
lucky的反义词是什么lucky的反义词是unlucky。lucky的意思以及用法:一、作为形容词1、幸运的,好运的一...
祝福考生考入理想大学,学上喜欢的专业!
在夏季,气温过高、湿度大、风速小等条件下,非常容易引发中暑。“热死
“迎接学青会健康新广西”广西新时代文明实践活动暨全民健身志愿服务活
日前,教育部公布第二批国家级一流本科课程名单,共有5750门课程获认定
近日,广西海洋环境监测中心站对平陆运河入海口(位于钦州茅尾海一带)
1、具体要看什么种类的车,不同种类的车报废年限不同。2、各类机动车使
近年来,随着人们健康意识的提高,各种膏药产品市场需求不断增长。在这样的市场背景下,仙佑医药膏药代...
时至今日,我觉得中国可以考虑对日本和韩国提出签订互不侵犯条约。其主
直播吧6月13日讯贝卢斯科尼因病离世,小罗社媒晒合照缅怀。小罗写道:
在《法兰克福汇报》的采访中,埃姆雷-詹对于错失冠军表示:“我依然还
直播吧6月13日讯此前哈维曾公开称赞基米希,对此球员进行了回应。在被
只是双打的大满贯冠军,但王欣瑜能够夺冠,同样是非常了不起的,这个小
今后的努力方向和改进措施1、针对员工提出的推荐,我采取的措施是:①合理安排工作,要放得下一些追求,...
依依惜别的诗句1、黄鹤楼送孟浩然之广陵 唐 李白故人西辞黄鹤楼,烟花三月下扬州。孤帆远影碧空尽,唯...
兰波的诗句1、唯一无法忍受即事事可忍受。——兰波2、你隐没在梦中,宛如雪化在火中。——兰波3、天才就...
岑参的边塞诗1、最动人的想家诗:《逢入京使》《逢入京使》故园东望路漫漫,双袖龙钟泪不干。马上相逢无...
近日,商务部发布《中国电子商务报告(2022)》,多彩贵州网旗下贵州电子
全民tv怎么直播 全民tv申请认证主播教程 全民怎么开通直播_全球独家
环球今头条!疯狂24小时!皇马计中计欺骗全欧,姆巴佩摊牌,1.2亿巨星恐被打压
全球新动态:曼城挖角国米中场全能神将,瓜帅情有独钟,两大障碍能否克服?
疯狂24小时!皇马计中计欺骗全欧,姆巴佩摊牌,1.2亿巨星恐被打压-最资讯
当前动态:GOAT德约斩获生涯第23座大满贯&3圈大满贯第一人
中网总奖金公布:1175万美元 ,同级别赛事奖金第一,其中WTA赛事803.97万美元 世界今热点
世界观点:中国金花夺冠+豪夺335万,德约科维奇收获1768万巨奖,23冠超纳达尔
短讯!孙颖莎惹争议!参加低级赛事,球迷质疑国乒吃相难看,帮忙抢积分
【新视野】多家上市公司进军新能源产业 跨界“奔赴”合理性引监管层关注
国内单机容量最大的冲击式水电机组完成国产化改造 成功并网发电 环球即时看
环球热消息:奥运积分排名更新!梁王暂居男双榜首,何冰娇高居女单第3
德约科维奇与穆雷同一日双双夺冠,球迷梦回四巨头时代,不见费纳!-全球最资讯
世界速读:沙特能源大臣:沙特想与中国合作,不会理会西方的“担忧”
海南发展(002163):6月12日北向资金增持25.24万股|环球要闻
热点聚焦:演员张龄心:不结婚不生子,老了就去养老院,如今她打了自己的脸_天天动态
中超之光!巴萨4000万清洗曼城天才,1600万签大连神锋,1年10球
世界时讯:皇马拒绝哈弗茨,迪巴拉拒绝沙特亿元高薪,穆里尼奥再收顶薪报价
皇马新7号确认!亿元先生接班阿扎尔挑战C罗,10号留给姆巴佩?|环球即时看
马琳难再指导陈梦,刘国梁布局,主教练放权,主管教练负责场边-世界速讯
联系我们:55 16 53 8@qq.com
关于我们| 联系方式| 版权声明| 供稿服务| 友情链接
塞北网 版权所有,未经书面授权禁止使用
Copyright©2008-2020 By www.saibeinews.com All Rights Reserved