1993年,《宋飞正传》(Seinfeld)以唇读的危险为基础,以乔治将“一起扫地”误解为“一起睡觉”为高潮。在流行文化之外,唇读的艺术也吸引了心理学家、计算机科学家和法医专家。在大多数情况下,实验涉及到一个人读别人的嘴唇,或者在LipNet或Liopa等唇读程序的情况下,人工智能通过手机应用程序读人的嘴唇。但康奈尔大学未来交互智能计算机接口(SciFi)实验室目前正在进行一种不同的实验。
在那里,一组科学家设计了一种语音识别系统,可以识别多达31个英语单词。但是,这个被称为“EchoSpeech”的系统并不是一个应用程序,它看起来像是一副标准的眼镜。正如一份新白皮书所概述的那样,这种眼镜(现货购买)可以读懂用户自己的唇语,帮助那些不会说话的人执行基本任务,比如解锁手机,或者让Siri在不发出任何声音的情况下调大电视音量。这一切看起来都像心灵遥感,但这种眼镜——配备了两个麦克风、两个扬声器和一个小得几乎可以融合在一起的微控制器——实际上依赖于声纳。
超过一千种物种利用声纳来捕猎和生存。也许其中最受欢迎的是鲸鱼,它可以发出声音脉冲,这些脉冲在水中的物体上反弹,然后反弹回来,所以哺乳动物可以处理这些回声,并在脑海中建立一个环境的图像,包括周围物体的大小和距离。
EchoSpeech的工作原理与此类似,只不过该系统不关注距离。相反,它会跟踪声波(人耳听不到)如何穿过你的脸,以及它们如何击中你脸上的各个活动部位。这个过程可以概括为四个关键步骤。首先,小扬声器(位于眼镜一侧)发出声波。当佩戴者说出不同的单词时,声波穿过他们的脸,击中嘴唇、下巴和脸颊等不同的“发音器官”。麦克风(位于眼镜的另一侧)然后收集这些声波,微控制器将它们与眼镜配对的任何设备一起处理。
但是系统是如何知道将一个特定的单词分配给一个特定的面部动作的呢?在这里,研究人员使用了一种被称为深度学习算法的人工智能形式,该算法教会计算机以人脑的方式处理数据。“人类很聪明。如果你训练得足够好,你可以只看别人的嘴,而不听任何声音,你可以从他们的讲话中推断出内容,”该研究的主要作者张瑞东说。
该团队使用了类似的方法,只不过不是另一个人从你的演讲中推断内容,而是使用了一个之前训练过的人工智能模型来识别某些单词,并将它们与人脸的相应“回声剖面”相匹配。为了训练人工智能,该团队要求24人戴着眼镜重复一组单词。他们必须重复几次这些单词,但不是连续的。
目前,EchoSpeech的词汇量和蹒跚学步的孩子差不多。它可以识别所有10个数字。它可以捕捉“上”、“下”、“左”和“右”等方向,张说这些方向可以用来在计算机辅助软件上绘制线条。它还可以激活Alexa、b谷歌或Siri等语音助手,或者连接到其他支持蓝牙的设备。
广告在最近的一次测试中,该团队将该系统与iPad配对,准确率达到95%,但在提高可用性方面仍有很多工作要做。目前,每次有新用户戴上这款眼镜,都需要对EchoSpeech进行训练,这可能会严重阻碍系统的发展,但该团队相信,随着用户基础的扩大,计算机模型最终可以收集更多的数据,学习更多的语音模式,并将其应用于每个人。
张说,将系统的词汇量增加到100或200个单词对当前的人工智能来说不应该构成任何特别的挑战,但如果超过这个数字,就需要更先进的人工智能模型,这将依赖于现有的语音识别研究。考虑到该团队希望最终将该系统与语音合成器配对,以帮助不会说话的人更自然、更有效地发出声音,这是重要的一步。
目前,EchoSpeech是一个有趣的概念验证,对残疾人来说具有巨大的潜力,但该团队并不期望它在未来五年内可用。这还只是针对英语语言。“困难在于每种语言都有不同的发音,”该研究的合著者、法国人弗朗索瓦·吉姆布雷蒂