npj Flexible Electronics:一种基于机器学习的柔性可穿戴无声语音识别系统可实现全天候、自然、实时交互


近日,华中科技大学柔性电子制造团队与苏州大学机器人与微系统研究中心团队合作,在《Nature》合作期刊《npj Flexible Electronics》上发表题为“All-weather,natural silent speech recognition via machine-learning-assisted tattoo-like electronics”的研究论文。

无声语音可作为失语患者的交流渠道,使人-机/人-人交互在各种干扰下都能保持正常。本文开发了一种新颖的无声语音识别交互策略,以实现全天候、柔性可穿戴的自然互动。该策略无需像手语一样学习使用专门技能,但能在复杂多变的全天候交互环境中准确地传递高容量的无声语音信息。在该无声语音识别系统中,贴附在面部的电子纹身可以记录各种无声语音的高质量生物数据,通过耳挂式可穿戴数据处理与蓝牙模块实时无线传输信号,而部署在云端服务器通过机器学习算法准确识别无声语音信息,并通过手机终端实现意图显示和语音交互。

一系列的实验表明,无声语音识别系统(SSRS)可以凭借电学偏向性设计的电子纹身,顺应人脸的大变形(~45%),并且仅仅通过使用小样本机器学习就能识别涵盖日常词汇的110个单词,平均准确率高达92.64%。我们成功地将SSRS应用于全天候的日常生活中,包括日常问候、跑步、用餐、在嘈杂噪音中操纵工业机器人、在黑暗中进行表达等,在未来应用中显示出极大的适用性,有望实现失语症患者的自然交流以及各种特殊场景下的无声人机交互等。

柔性电子制造团队的王攸华和苏州大学机器人微系统研究团队汤添益、徐印为本文的共同第一作者,华中科技大学黄永安教授、苏州大学刘会聪教授和张虹淼副教授为本文的共同通讯作者。参与该论文的还有浙江大学李光教授、华中科技大学博士生白云昭、硕士生尹浪。

图文导读

图1 (a) 全天候、自然的SSRS示意图,包括四通道的纹身电子、无线DAQ模块、基于云端的机器学习算法和终端显示,具有各种场景下的适应性,(b) 无声语音识别系统的佩戴照片

(c) 系统流程图,(d) 110个日常单词混淆矩阵。

图2 电子纹身的表征。(a) 电子纹身和凝胶式电极贴在受试者脸上时的可佩戴性对比,(b)电极贴附不同尺度的皮肤纹理,(c) 被拉长30%后的皮肤-电极界面,(d)(e) 纹身状电极在水平和垂直方向上的应变分布,(f) 电极的电阻率随应变的变化,(g)(h) 电子纹身的长时间性能测量。

图3 无声语音识别算法的流程图与评估。(a) 训练阶段(左)在现识别(右),(b) 110个单词识别结果的混淆矩阵,(c) 不同分类器的预测性能,(d) 多通道的识别准确率。

图4 全天候的SSRS演示。(a) 日常生活中的五个典型场景;(b) 可穿戴的自然交流;(c) 动态条件下的全天候使用;(d) 大变形条件下的全天候使用;(e) 噪声环境下的适应性;(f) 黑暗环境下的适应性

问候场景模拟 

本文由作者投稿。

分享到