当前位置: 首页 >  科技  > 正文

AI声呐眼镜来了!读懂唇语、隔空操控手机,准确率达95%

  • 2023-04-18 08:10:09 来源:腾讯网

智东西(公众号:zhidxcom)


(资料图片)

编译 | 吴菲凝

编辑 | 李水青

智东西4月17日消息,近日,康奈尔大学未来交互智能计算机接口(SciFi)实验室发布了一款声呐眼镜EchoSpeech,该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。这款看似普通的眼镜使用了声学感应和AI技术,并配备两对扬声器和麦克风,目前可以连续识别多达31条“无声语音指令”,准确率高达95%。

EchoSpeech的主要应用场景包括嘈杂环境、不方便交谈的场合以及私密对话,还能帮助语言障碍者与他人进行交流,兼具商业消费和医疗保健功能。研发团队通过AI深度学习管道,来破译面部运动的声波传输轨道,利用卷积神经网络来解码无声语言。

此外,研发团队目前正通过资助项目Ignite来实现设备技术的商业化,未来将实现一定范围内的推广使用。

这篇名为《EchoSpeech:由声学传感驱动的眼镜上的连续无声语音识别(EchoSpeech:Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing)》的论文本月将在德国汉堡举行的CHI(Conference on Human Factors in Computing Systems)计算机协会会议上发表。

论文链接为:

https://dl.acm.org/doi/10.1145/3534621

一、可识别佩戴者唇部运动,转换准确率高达95%

康奈尔大学信息科学学院博士生张瑞东,也是EchoSpeech声呐技术研究的主要参与者、论文的主要作者,在视频中演示了EchoSpeech眼镜的外形、工作原理和使用方法。

在外人看来,张瑞东像是在奇怪地自言自语,他明明在说话却没有发生任何声音。实际上,他正在向EchoSpeech念密码来解锁自己的手机,并让它播放音乐列表中的下一首歌曲。

这种像在电影中才能实现的场景不是心灵感应,而是康奈尔大学最新发布的一项新产品EchoSpeech。该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。

据康奈尔大学计算与信息科学学院助教、科学实验室主任张成说,研究团队正在通过这项技术,将声呐“转移到人们的身上”。EchoSpeech眼镜下方配备了一对麦克风和一个比铅笔头上的橡皮擦更小的扬声器,这两个工具组成了眼镜的AI声呐系统,能向面部发送和接收声波并感应佩戴者的唇部运动。

与此同时,当佩戴者试图无声交流时,研究人员开发出的深度学习算法会实时分析这些回波轮廓,目前的准确率约为95%。

在张成看来,之前的无声语音识别技术最大的障碍就在于预定命令,而且用户必须要佩戴一个不小的摄像头,这导致这项技术既不实用也难以实现。而且技术上还涉及到可穿戴摄像头的用户隐私保护问题,更需要加强安全管理。

EchoSpeech使用的声学传感技术降低了对可穿戴摄像机的要求。由于音频数据比图像或是视频数据要小得多,因此只需较小的带宽就能处理,还能通过蓝牙实时传输到智能手机上。

信息科学学院教授、论文合著者弗朗索瓦·金布雷迪尔(François Guimbretière)说:“由于数据是在用户的手机上本地处理的,没有上传到云端处理,因此可以确保所有隐私敏感信息都不会脱离用户的控制。”

EchoSpeech最普遍的使用场景是不方便交谈或是无法发言的场合,比如嘈杂的餐厅或是安静的图书馆。在公共场合当中,当人们想谈论一些较为私密的话题,或是涉及到高保密性的工作内容时,EchoSpeech可以帮用户保护好这些隐私,让外人无法听到双方的谈话。EchoSpeech还能与手写笔配对,并于CAD等设计软件一起使用,几乎不用鼠标和键盘就能完成工作任务。

谈及这项技术在未来发展中的用途时,该研究的主要参与者信息科学博士生张瑞东称,对于那些听障人士、语言表达障碍人士而言,这种无声语音技术可能是语音合成器的绝佳拍档,它可以让他们流畅自然地发出自己的声音。据悉,当前版本的眼镜声学感应电池续航时间可持续约10小时,配备摄像头版本的则是30分钟。

无论用作商业消费级智能穿戴设备,还是用作医疗保健功能,EchoSpeech将智能可穿戴技术的实用性发挥到了最大。

二、连续识别31项指令,匹配新用户仅需6分钟

EchoSpeech看上去就像一款普通的近视眼镜,但事实上并非如此。在一项12人参与的小型测试中,EchoSpeech可以连续识别出31个独立的无声命令,以及一串由被试者发出的的连续数字,它在测试中的错误率低于10%。

EchoSpeech在发布的论文中详细解释了这项技术的工作原理。

两对微型扬声器和麦克风放在镜框下方来监测面部不同侧面的运动,当扬声器发出约20000赫兹的声波时,声波会沿着一块镜片到嘴唇的特定路径传播到另一块镜片上。当来自扬声器的声波感知到唇部运动后进行反射和衍射时,麦克风会捕捉这些声波的独特模式,并为每个句子或是命令制作一个“回声配置文件”,这就像一个完整的小型声呐系统在镜片下方工作。

▲图为系统布局和回波配置文件。

在上图中,图a展示了传感器的最终位置,图b代表者信号传递路径,即从P1到P4,S1、S2为扬声器,M1、M2为麦克风。每条路径都由多个路径反射和衍射组成,它们源自源扬声器,结束于麦克风。图c是EchoSpeech对不同指令形成的声波配置文件。

通过机器学习,人们可以通过这些回声配置文件推断佩戴者的无声语言以及他们想说的单词。虽然语言模型是在选择命令上经过统一的预先训练的,但它会根据每个佩戴者来进行微调,需要约6到7分钟来为新用户进行匹配。

声波传感器通过定制的扬声器连接到微控制器上,扬声器还能通过USB电缆与电脑进行连接。

在实时演示中,团队演示了低耗能版本的EchoSpeech如何通过蓝牙和微控制器来与手机进行无线通信,设备连接到安卓手机之后,能进行面部动作预测并将转换结果传输到某个“动作键”上,发布指令来让手机播放音乐、激活语音助手或是控制手机,这就是张瑞东在演示中“自言自语”就能切换音乐播放列表的技术原理。

此外,研发团队还设计了一个定制的深度学习管道,用来破译面部运动的无声语音的声波轨道。通过回声曲线计算模型来解析面部运动模式,研究人员为EchoSpeech添加了一个基于卷积神经网络(CNN,Convolutional Neural Networks)的模型,用来解码来自回声轮廓(echo profiles)的无声语言。

研究团队还在CNN末端添加了时间递归神经网络(RNN,recurrent neural network),包括长短时记忆神经网络(LSTM)和门控递归单元层(GRU)来提高性能,在这样一个卷积循环神经网络结构(CRNN)模型上进行了实验。研究结果显示,GRU的性能明显优于LSTM,在大多数情况下,CNN与CRNN的工作方式是类似的,但在音频数量相同的时期,CNN的收敛速度比CRNN要更快一些。

三、单句、整句都可识别,静态、动态效果一样

据研究表明,隐私问题和社交尴尬是人们愿意使用无声语音助手的重要因素,他们希望不用大声说话就能交流,而且不会向外界泄露半点声音,无声语音助手在这点上很好地保护到了用户的隐私。为了满足用户对于无声语音界面(SSI)功能的更多需求,研发人员希望EchoSpeech能无限接近现实生活场景。

在实验中,团队首先设计了两组命令来检验EchoSpeech识别离散和连续语音方面的能力,并考虑到了最常见的两种情况:静态和动态。

离散研究主要关注独立命令,连续研究则关注连续无声语音识别,每位被试者都需要完整这两个测试。在数据收集过程中,电脑屏幕上出现被试者需要执行的命令,他们说出电脑上出现的词但不能发出声音,电脑摄像头将这一完整过程录制下来,清晰地检测到每位被试者的面部肌肉运动走向。

在离散研究中,每个无声指令最长的持续3秒,3秒之后就自动跳到下一个指令;在连续研究中,被试者有4秒的时间来把每句话传递给声呐眼镜,完成后按空格键或是右箭头跳到下一个指令,被试者们尽可能以自然的速度和语气“说话”。

为了测试在静态(如坐在办公桌前)和动态(如在马路上走时)两种情形下,声呐眼镜的识别性能是否能保持稳定,一部分被试者用自己习惯的方式和速度在房间里随意走动,另外一部分则是抱着电脑走,结果显示两种情况下眼镜的表现并无显著差异。

▲EchoSpeech在静态和移动状态下的语音识别性能对比

研究团队称,用户只需提供6-8分钟的静态训练数据,就可以在静态和移动环境中无差别使用声呐眼镜,而且性能良好。

随着未来潜在的大规模部署,这种性能可以进一步改进。这将成为SSI迈向日常生活应用场景当中的坚实一步。

四、技术或将商业化,成为日常消费级产品

除了EchoSpeech以外,SciFi实验室之前还开发过一款称为EarlO的系统,该系统用配备声呐的耳机来捕捉佩戴者的面部表情,佩戴者的面部皮肤会在发声时出现移动、伸展和起皱,回声配置文件据此而进行调整,再利用算法识别这些回声配置文件,并快速重建用户面部表情,显示在数字化身上。

纽约发布罗大学的一个研究团队也研发过一款类似设备EarCommand,当我们默默说出一个单词时,肌肉运动和骨骼移动会导致耳道以独特的方式发生变形,这就意味着特定的变形模式可以与特定的单词相匹配,计算机利用这些AI算法来确定耳道的变形从而确认佩戴者所说的单词。

SciFi实验室还在积极参与康乃尔大学的Ignite项目来探索EchoSpeech技术的商业化。未来,研究人员们还将研发智能玻璃应用,用来跟踪用户的面部、眼睛和上半身的活动。张成称,未来智能玻璃将成为探知人们在日常环境中活动的重要个人智能平台。

结语:智能可穿戴设备进入研发成熟期,三大瓶颈有待突破

自2012年谷歌发布Project Glass智能眼镜以来,智能可穿戴设备市场可谓是备受关注。康奈尔大学研发的EchoSpeech声呐眼镜的出现证实了可穿戴设备的功能、应用场景不断得到优化拓展,可以说可穿戴设备行业已迈入研发的成熟期。

无论是EchoSpeech还是其他智能可穿戴设备也好,目前在关键技术上仍有不少瓶颈需要一一突破,包括产品形态、AI算力等。首要问题是功耗大、续航时间短导致无法用户无法长时间使用,这一弊端在配备摄像头版本的EchoSpeech上暴露得尤为明显。其次是产品功能集成度还不够完善,三是产品设计上不够日常,这就需要研发更微型的硬件来配备产品形态。

在用户实际需求和技术更新迭代的推动下,未来的EchoSpeech无论在可穿戴性、移动性、交互性以及持续性上将会有更大的改进。

关键词:

最新推荐

辽港集团外贸集装箱航线“上新”

晨报讯(索里宋慧半岛晨报、39度视频记者齐媛媛)6月12日,随着“地中

LPL饭堂灵魂提问,近五年最强中单,Faker难进前十,JDG有望绝杀_世界聚焦

这九人评选最强中单和TOP3,为此观众们进行了一系列的讨论,不同人有不

当前速看:EDG内讧的4条证据,众人心疼leave家境不好,结果反被嘲讽

我们看到EDG俱乐部对此事不做任何解释,任由其发酵,然后转头就联系uzi

2023年印尼羽毛球公开赛首轮赛况:石宇奇打满三局击败黄智勇,挺进次轮 环球热讯

6月13日,据BWF世界羽联:2023年印尼羽毛球公开赛首轮赛况:石宇奇2-1

总决赛最耻辱判罚!巴特勒踢人3罚,马龙挑战失败,还好掘金夺冠了 今日聚焦

这个动作如果力量大一点戈登就废了,结果这个回合挑战回来之后,裁判竟

凝心聚力,携手前行 ——邮储银行临澧县支行开展员工户外拓展活动 环球通讯

凝心聚力,携手前行——邮储银行临澧县支行开展员工户外拓展活动,彭山,

岚图汽车获六大行150亿元授信-世界最资讯

6月13日,岚图汽车宣布,获得包括中国工商银行、中国银行、中国农业银

福建5月份CPI同比上涨0.2% PPI则同比下降2.7%|世界今头条

5月份,福建全省居民消费价格(CPI)同比上涨0 2%,环比下降0 1%;全

与家人闹矛盾,孩子站在高速应急车道拒绝上车

扬子晚报网6月13日讯(记者郭一鹏通讯员王雷)因为买棉花糖的问题与家

父亲节送礼就选飞利浦电动剃须刀 京东618家电家居超级新品日购买更优惠

一年一度的京东618即将落下帷幕,你都下单了哪些产品?为给用户带来全

EDG内讧的4条证据,众人心疼leave家境不好,结果反被嘲讽

我们看到EDG俱乐部对此事不做任何解释,任由其发酵,然后转头就联系uzi

环球热门:基米希回应哈维称赞:我和拜仁还有两年合同,我们有很伟大的计划

直播吧6月13日讯此前哈维曾公开称赞基米希,对此球员进行了回应。在被

姆巴佩这次太精明了,巴黎处于被动,皇马迫不及待

对于皇马而言,一直都希望求购姆巴佩,而今年确实不是最好的时机,如果

莱万:我知道沙特足球正在发生什么 但我和巴萨还有合同-世界今亮点

目前莱万在巴萨的年薪是税后900万欧,此前西班牙媒体报道,沙特联赛希

职业病申请工伤认定有时间限制吗

关于工伤认定的时间,我国法律是有一定的规定的,尤其是职业病。根据《

工伤解除劳动关系时职业病患者工伤待遇的认定与处理_世界播资讯

工伤解除劳动关系时职业病患者工伤待遇的认定与处理申请工伤认定的有效

恒而达:6月12日融资买入171.88万元,融资融券余额5652.59万元_每日速递

6月12日,恒而达(300946)融资买入171 88万元,融资偿还72 5万元,融

AI热潮催生美股牛市,反弹全面扩散?一悬念尚待揭晓,上周已有“意外”!大摩浇冷水:FED刹车恐唤醒熊市

美联储仍是股市当面面临的最大风险。大摩指出,目前股市上涨并不意味着

热门:恨不相逢未剃时白落梅_恨不相逢未剃时

1、是一个和尚或者尼姑写的说的意思是,对你给的爱情,只能还给你一钵

@考生和家长,2023高考志愿填报十问十答

高考结束,志愿填报即将开始,如何查询准确的高校与专业信息?高考填志

《没有一顿火锅解决不了的事》预告 杨幂惊艳于谦_全球热点评

“一顿火锅刚开宴,好戏连台惊四方!”丁晟导演的悬疑喜剧《没有一顿火

环球讯息:15亿收入不要了,再见巴黎!3大线索指向加盟曼联,英超争冠变天

今日凌晨,据《队报》、天空体育、《电讯报》等多家媒体的消息,姆巴佩

LPL饭堂灵魂提问,近五年最强中单,Faker难进前十,JDG有望绝杀_焦点热文

这九人评选最强中单和TOP3,为此观众们进行了一系列的讨论,不同人有不

世界要闻:坐不住了!催化剂正式发挥作用,姆巴佩被迫决定,皇马或成大赢家

今天凌晨,来自队报的消息,姆巴佩团队已经通过书面的形式正式通知大巴

天天热头条丨最新世界排名公布!国乒蝉联5项第一,樊振东、孙颖莎面临挑战

德班世乒赛结束后,乒乓球世界排名迎来了新的变化,中国队重新夺回五大

宣传缉枪治爆_天天新消息

本报讯为切实加强缉枪治爆工作,近日,铁岭市公安局工人分局组织民警在

全球时讯:专项行动清理违规渔具

本报讯为切实维护营口市伏季休渔秩序,确保增殖放流取得实效,保障广大

统计:海南旅游收入高于疫前2019 年同期水平

统计数据显示,海南旅游市场旅游收入高于疫情前2019年同期水平,游客消

端午节发朋友圈文案怎么写吸引人?以端午节为主题的文案看这里

端午文案1)粽子飘香,佳人安康。(粽子 祝福)2)粽子是端午限定,你我是命中注定。(爱情 结婚)3)粽子之...

冬至名言有哪些?冬至的古诗10首看这里

冬至佳句七绝·冬至一,枫叶红时信已传,梅心雪意亦如前。阳生莫问春何处,夜永应知又一年。二,夜阑风...

课文匆匆的体裁是什么?课文匆匆教材分析怎么写?

课文匆匆原文燕子去了,有再来的时候;杨柳枯了,有再青的时候;桃花谢了,有再开的时候。但是,聪明的,...

【宁夏】隆德县七名农民晋升高素质农民职称资格

本网讯近日,经宁夏回族自治区固原市农业系列职称评审委员会评审、市人

usual反义词是什么?active的反义词有哪些?

lucky的反义词是什么lucky的反义词是unlucky。lucky的意思以及用法:一、作为形容词1、幸运的,好运的一...

世界动态:@高考生,成绩即将揭晓,志愿如何填报?指南来了!

祝福考生考入理想大学,学上喜欢的专业!

最近的天气也太热了吧!快趁“热”收下这份防中暑指南

在夏季,气温过高、湿度大、风速小等条件下,非常容易引发中暑。“热死

营造学青会氛围!广西体育明星团走进多所小学校园 快看点

“迎接学青会健康新广西”广西新时代文明实践活动暨全民健身志愿服务活

天天微速讯:最新国家级一流本科课程名单公布!广西有这些

日前,教育部公布第二批国家级一流本科课程名单,共有5750门课程获认定

广西科学守护“海上森林” 努力实现“双碳”目标

近日,广西海洋环境监测中心站对平陆运河入海口(位于钦州茅尾海一带)

国四柴油车报废新规定_柴油车报废新规定

1、具体要看什么种类的车,不同种类的车报废年限不同。2、各类机动车使

OEM厂家共同成长黄金搭档 仙佑集团贴心服务共创美好未来

近年来,随着人们健康意识的提高,各种膏药产品市场需求不断增长。在这样的市场背景下,仙佑医药膏药代...

东亚的互不侵犯条约-聚看点

时至今日,我觉得中国可以考虑对日本和韩国提出签订互不侵犯条约。其主

小罗缅怀贝卢斯科尼:你的名字将永远镌刻在AC米兰|世界实时

直播吧6月13日讯贝卢斯科尼因病离世,小罗社媒晒合照缅怀。小罗写道:

埃姆雷-詹:整座城市为多特夺冠做好准备,不知如何消化这种辜负

在《法兰克福汇报》的采访中,埃姆雷-詹对于错失冠军表示:“我依然还

世界报道:基米希回应哈维称赞:我和拜仁还有两年合同,我们有很伟大的计划

直播吧6月13日讯此前哈维曾公开称赞基米希,对此球员进行了回应。在被

挺硬气!21岁女网新星父亲放出豪言:我女儿要拿单打大满贯冠军_环球热点评

只是双打的大满贯冠军,但王欣瑜能够夺冠,同样是非常了不起的,这个小

谈谈你今后的努力方向怎么写?孩子努力的方向和改进措施看这里

今后的努力方向和改进措施1、针对员工提出的推荐,我采取的措施是:①合理安排工作,要放得下一些追求,...

等待下一次重逢的诗句有哪些?形容迟早会见面的文案看这里

依依惜别的诗句1、黄鹤楼送孟浩然之广陵 唐 李白故人西辞黄鹤楼,烟花三月下扬州。孤帆远影碧空尽,唯...

兰波诗集经典句子集锦来了!兰波写得最好的诗看这里

兰波的诗句1、唯一无法忍受即事事可忍受。——兰波2、你隐没在梦中,宛如雪化在火中。——兰波3、天才就...

王昌龄最出名的三首诗你知道吗?最著名的十首边塞诗都在这儿

岑参的边塞诗1、最动人的想家诗:《逢入京使》《逢入京使》故园东望路漫漫,双袖龙钟泪不干。马上相逢无...

当前要闻:贵州电商云公司“一码贵州”平台入选2022年《中国电子商务报告》商业科技创新应用优秀案例

近日,商务部发布《中国电子商务报告(2022)》,多彩贵州网旗下贵州电子

精彩放送

古代经商谚语大全来了!生意高手十句口诀在这儿

小学生关于成长的诗歌有哪些?关于成长的诗歌朗诵稿在这儿

哈姆雷特摘抄及感悟怎么写?哈姆雷特读书心得看这里

观天下!兰州举办新就业群体心理健康辅导讲座

全民tv怎么直播 全民tv申请认证主播教程 全民怎么开通直播_全球独家

【全球速看料】微信app天天领红包在哪 天天领红包小程序

火山直播怎么开通直播间 火山直播怎么开通呢

京东上面怎么查看自己的年度账单 京东怎么看年度账单2020

在ps软件中怎么绘制直线 ps软件里怎么画直线

6月13日生意社糠醛基准价为11425.00元/吨

简讯:有黑的意思的字_黝黑的意思

环球今头条!疯狂24小时!皇马计中计欺骗全欧,姆巴佩摊牌,1.2亿巨星恐被打压

全球新动态:曼城挖角国米中场全能神将,瓜帅情有独钟,两大障碍能否克服?

疯狂24小时!皇马计中计欺骗全欧,姆巴佩摊牌,1.2亿巨星恐被打压-最资讯

谜一样的巴蒂!世界排名第一突然退役,巨大悬念留给万千球迷

全球简讯:是否存在有注册资本的分公司

logo著作权登记费用是多少?

奥海科技:接受兴证全球基金等机构调研_报资讯

【机构调研记录】北信瑞丰调研鹭燕医药

赛博朋克2077发售日期介绍 赛博朋克2077具体发售时间

当前动态:GOAT德约斩获生涯第23座大满贯&3圈大满贯第一人

中网总奖金公布:1175万美元 ,同级别赛事奖金第一,其中WTA赛事803.97万美元 世界今热点

世界观点:中国金花夺冠+豪夺335万,德约科维奇收获1768万巨奖,23冠超纳达尔

短讯!孙颖莎惹争议!参加低级赛事,球迷质疑国乒吃相难看,帮忙抢积分

【新视野】多家上市公司进军新能源产业 跨界“奔赴”合理性引监管层关注

国内单机容量最大的冲击式水电机组完成国产化改造 成功并网发电 环球即时看

环球热消息:奥运积分排名更新!梁王暂居男双榜首,何冰娇高居女单第3

得加钱?记者:除皇马外,巴黎愿今夏将姆巴佩出售给任何球队

德约科维奇与穆雷同一日双双夺冠,球迷梦回四巨头时代,不见费纳!-全球最资讯

【环球热闻】海峡组合法网逆袭夺冠 小将王欣瑜未来可期

美元指数12日上涨

世界速读:沙特能源大臣:沙特想与中国合作,不会理会西方的“担忧”

海南发展(002163):6月12日北向资金增持25.24万股|环球要闻

天天热资讯!牛白_牛白藤别名

天府烤卤官网 天府烤卤总部地址-短讯

专班保障

张志丹:特斯拉FSD渐行渐近!新能源车能否迎来第二春?

热点聚焦:演员张龄心:不结婚不生子,老了就去养老院,如今她打了自己的脸_天天动态

中超之光!巴萨4000万清洗曼城天才,1600万签大连神锋,1年10球

【环球时快讯】记者:迪亚斯新赛季将身穿皇马21号球衣

即时:纳乔:如果我能决定,我会在今夏把姆巴佩带到皇马

世界时讯:皇马拒绝哈弗茨,迪巴拉拒绝沙特亿元高薪,穆里尼奥再收顶薪报价

天天热点评!对话|续写茶香传奇,90后非遗新人有一套

皇马新7号确认!亿元先生接班阿扎尔挑战C罗,10号留给姆巴佩?|环球即时看

饶明受伤,德约鲁德再战法网火枪手杯!

马琳难再指导陈梦,刘国梁布局,主教练放权,主管教练负责场边-世界速讯

【世界时快讯】陈梦丢大满贯有原因!官方杂志透露世乒赛前情况,一姐身体出问题

全球连线|红酒为媒推动中外交流_环球百事通

每日消息!事关买菜! 2023年7月1日,柳州这一新规实施

每日报道:降雨范围更大!13日起,广西将进入“龙舟水”集中期

联系我们:55 16 53 8@qq.com
关于我们| 联系方式| 版权声明| 供稿服务| 友情链接

塞北网 版权所有,未经书面授权禁止使用

京ICP备2021034106号-10 营业执照公示信息

Copyright©2008-2020 By www.saibeinews.com All Rights Reserved