當(dāng)前位置:紡織服裝機(jī)械網(wǎng)>新聞首頁>科技快訊
讀排名更多
業(yè)直播更多
薦展會更多

東華大學(xué)信息與智能科學(xué)學(xué)院研究團(tuán)隊在智能可穿戴與人機(jī)交互領(lǐng)域取得重要進(jìn)展

2025-12-29 11:29:28東華大學(xué)信息與智能科學(xué)學(xué)院研閱讀量:14524 我要評論


  近日,信息與智能科學(xué)學(xué)院常姍課題組在智能可穿戴與人機(jī)交互(HCI)領(lǐng)域取得重要進(jìn)展,相關(guān)研究成果被 CCF A 類國際會議INFOCOM 2026 錄用。這也是該課題組在該領(lǐng)域取得的系列重要進(jìn)展之一。到目前為止,課題組已經(jīng)在相關(guān)領(lǐng)域發(fā)表了多篇 CCF A/B 類會議及期刊論文。
 
  語音是人機(jī)交互中最自然、最高效的模態(tài)之一,并日益成為移動設(shè)備、可穿戴系統(tǒng)和智能助手的主導(dǎo)輸入接口。根據(jù)最新預(yù)測,全球語音識別市場在未來幾年依然呈現(xiàn)快速增長趨勢。但是語音交互在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn),特別是在嘈雜環(huán)境、隱私敏感場合或針對語音障礙人士時。所以無聲語音接口應(yīng)運(yùn)而生,其旨在不發(fā)聲的情況下準(zhǔn)確理解內(nèi)容,這為在無法使用或不方便使用語音的場景下,通過無聲語音接口實(shí)現(xiàn)自然且魯棒的人機(jī)交互提供一種極具前景的解決方案。
 
  但現(xiàn)有的基于視覺、無線信號或慣性傳感器的無聲語音接口方案常面臨侵入性強(qiáng)、環(huán)境敏感或部署復(fù)雜等問題。本研究提出一種名為Baro2Talk的新型耳戴式無聲語音交互系統(tǒng),如圖1所示,Baro2Talk設(shè)計的核心見解是:即使在無聲狀態(tài)下進(jìn)行的言語發(fā)音,也會引起耳道壓力的微妙波動。這些壓力變化主要由以顳下頜關(guān)節(jié)(TMJ)為主的(連同下頜、舌頭及其他周圍口腔結(jié)構(gòu))發(fā)音運(yùn)動驅(qū)動,展現(xiàn)出一致且包含語義信息的模式(如圖2所示)。本研究將這些序列稱為顳下頜關(guān)節(jié)主導(dǎo)的壓力變化序列(TPVS)。這為建立耳內(nèi)壓力變化與其根本原因(TMJ運(yùn)動)以及最終語義之間的映射模型提供了契機(jī)。
 
圖1 Baro2Talk概念示意圖
 
圖2 來自兩個短語的TPVS示例
 
  為此,本研究將微型氣壓計嵌入標(biāo)準(zhǔn)耳塞中以捕獲TPVS,并利用其重建梅爾語譜圖,而非直接還原文本內(nèi)容。這是因為壓力信號的采樣率(約100 Hz)遠(yuǎn)低于音頻信號,導(dǎo)致低頻TPVS與高維文本嵌入之間存在顯著的維度失配。直接將TPVS映射到文本將需要海量的數(shù)據(jù)。相比之下,梅爾語譜圖將TPVS轉(zhuǎn)化為符合語音特征的高頻表示,在橋接模態(tài)差異的同時保留了共振峰和基頻輪廓等關(guān)鍵特征。此外,由于梅爾語譜圖是通用自然語音識別系統(tǒng)(如Whisper)的標(biāo)準(zhǔn)輸入,所以成為了理想的中間表示。然而,本研究仍然面臨三個關(guān)鍵挑戰(zhàn):1.低信噪比與易受干擾的壓力信號。本研究提出一套數(shù)據(jù)預(yù)處理流程,包括直流漂移去除、帶通濾波和信號放大,以降低噪聲并清晰化形變信號。并通過局部穩(wěn)定性檢查增強(qiáng)的短時能量檢測方法,從連續(xù)的TPVS中提取無聲語音形變事件;2.用戶間差異與節(jié)奏多樣性。如圖3所示,本研究使用領(lǐng)域?qū)箤W(xué)習(xí)訓(xùn)練了一個Baro-Encoder,以提取用戶不變的語義特征。同時,設(shè)計了一種基于節(jié)奏感知的數(shù)據(jù)增強(qiáng)策略,生成TPVS的時域扭曲變體,增強(qiáng)對說話速度變化的魯棒性;3.非聲學(xué)模態(tài)與缺乏細(xì)粒度監(jiān)督。如圖4所示,與基于聲帶或揚(yáng)聲器振動的語音信號不同,TPVS源于人類內(nèi)部發(fā)音動作,不含聲能。其頻譜圖在語音領(lǐng)域并非固有有意義,使得直接映射到音頻頻譜圖變得不可行。此外,無聲語音缺乏對齊的音素或幀級標(biāo)簽,阻礙了傳統(tǒng)監(jiān)督回歸或基于對齊模型的使用。
 
圖3 對抗預(yù)訓(xùn)練Baro-Encoder示意圖
 
圖4 不同生理機(jī)械運(yùn)動下的梅爾語譜圖差異對比
 
  為此,如圖5所示,本研究提出一個三階段梅爾譜圖重建管道,將語義理解與梅爾譜圖生成解耦。首先,名為S-Former的語義編碼器將句子的完整TPVS映射到與其文本嵌入共享的潛在語義空間,避免了對齊需求。其次,利用學(xué)習(xí)到的潛向量通過生成式網(wǎng)絡(luò)MS-GAN逐步生成粗粒度梅爾語譜圖。最后,通過自適應(yīng)殘差學(xué)習(xí)實(shí)現(xiàn)的音素增強(qiáng)(PEARL)對其進(jìn)行精細(xì)化,從而在無聲學(xué)監(jiān)督的情況下實(shí)現(xiàn)梅爾語譜圖的高保真重建。
 
圖5 三階段梅爾譜圖重建管道
 
  在無聲語音交互過程中,梅爾語譜圖的重建質(zhì)量直接決定了最終ASR文本預(yù)測的準(zhǔn)確性。由于TPVS不包含聲學(xué)諧波,重建過程極具挑戰(zhàn)。如圖6所示,本研究通過消融實(shí)驗,清晰地展示了系統(tǒng)各模塊對梅爾語譜圖重建效果的貢獻(xiàn)。
 
圖6 梅爾語譜圖重建效果對比
 
  本研究跨越六個月,收集來自25名參與者(包含無聲和有聲發(fā)音條件)的數(shù)據(jù)集對該系統(tǒng)進(jìn)行了評估。如表1所示,該系統(tǒng)在文本預(yù)測和梅爾語譜圖重建方面均由于代表性的SSI基準(zhǔn)方案。
 
表1 不同方法的文本預(yù)測精度和梅爾語譜圖重建效果
 
  
       本研究工作發(fā)表在計算機(jī)學(xué)會推薦A類會議IEEE International Conference on Computer Communications(INFOCOM 2026)上。
 
  信息員:丁寧 編輯:李盈頡
 
  原標(biāo)題:前沿探索 | 我校信息與智能科學(xué)學(xué)院研究團(tuán)隊在智能可穿戴與人機(jī)交互領(lǐng)域取得重要進(jìn)展
版權(quán)與免責(zé)聲明:1.凡本網(wǎng)注明“來源:紡織服裝機(jī)械網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-興旺寶合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:紡織服裝機(jī)械網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。 2.本網(wǎng)轉(zhuǎn)載并注明自其它來源(非紡織服裝機(jī)械網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或和對其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個人從本網(wǎng)轉(zhuǎn)載時,必須保留本網(wǎng)注明的作品第一來源,并自負(fù)版權(quán)等法律責(zé)任。 3.如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
全部評論

昵稱 驗證碼

文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)

相關(guān)新聞
  • 西湖大學(xué)周南嘉教授到訪中國皮革制鞋研究院

    12月2日,西湖大學(xué)云谷教授、西湖大學(xué)未來產(chǎn)業(yè)研究中心主任助理、西湖未來智造創(chuàng)始人兼杭州西湖未來智造研究院院長周南嘉教授到訪中國皮革制鞋研究院。
    2025-12-05 15:14:22
    18956
  • 總投資6億元!四方光電建設(shè)高端傳感器產(chǎn)業(yè)基地

    四方光電擬投資6億元建設(shè)高端傳感器產(chǎn)業(yè)基地。
    2025-10-15 13:35:40
    18291
  • 幕后英雄:探尋智能家居背后的隱形力量

    當(dāng)我們談?wù)撝悄芗揖訒r,注意力往往被炫目的終端產(chǎn)品所吸引——智能音箱應(yīng)答如流,掃地機(jī)器人穿梭自如,智能燈光營造氛圍……然而,這些看得見的“智慧”背后,隱藏著一個由芯片、模組、傳感器和云平臺構(gòu)成的隱形技術(shù)網(wǎng)絡(luò)。它們才是智能家居真正的“幕后英雄”,默默賦能每一個智能場景,驅(qū)動行業(yè)持續(xù)創(chuàng)新。
    2025-08-29 14:08:41
    18764
推薦產(chǎn)品
大连市| 松滋市| 青岛市| 固始县| 平乐县| 衡南县| 临邑县| 金华市| 凤阳县| 沙田区| 莱西市| 措勤县| 南宫市| 凌云县| 哈尔滨市| 汨罗市| 巴马| 韶关市| 昌图县| 堆龙德庆县| 体育| 广水市| 龙井市| 兴安盟| 仪陇县| 蓬莱市| 宕昌县| 宝清县| 界首市| 东至县| 佛山市| 德阳市| 铅山县| 客服| 新余市| 长乐市| 社旗县| 县级市| 宜黄县| 虹口区| 邹城市|