亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

基于SDBN和BLSTM注意力融合的端到端視聽雙模態(tài)語音識別

摘要:提出一種端到端的視聽語音識別算法。在該算法中,通過具有瓶頸結(jié)構(gòu)的深度信念網(wǎng)絡(luò)(deep belief network,DBN)中引入混合的l1/2范數(shù)和l1范數(shù)構(gòu)建一種稀疏DBN(sparse DBN,SDBN)來提取稀疏瓶頸特征,從而實現(xiàn)對數(shù)據(jù)的特征降維,然后用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BLSTM)在時序上對特征進行模態(tài)處理,之后利用一種注意力機制將經(jīng)過模態(tài)處理的唇部視覺信息和音頻聽覺信息進行自動對齊、融合,最后將融合的視聽覺信息通過一個附加了Softmax層的BLSTM進行分類識別。實驗表明,該算法能有效地識別視聽覺信息,在同類算法中有很好的識別率和頑健性。

關(guān)鍵詞:
  • 端到端  
  • 視聽語音識別  
  • 稀疏瓶頸特征  
  • 注意力機制  
作者:
王一鳴; 陳懇; 薩阿卜杜薩拉木·艾海提拉木
單位:
寧波大學(xué)信息科學(xué)與工程學(xué)院; 浙江寧波315211
刊名:
電信科學(xué)

注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

期刊名稱:電信科學(xué)

電信科學(xué)雜志緊跟學(xué)術(shù)前沿,緊貼讀者,國內(nèi)刊號為:11-2103/TN。堅持指導(dǎo)性與實用性相結(jié)合的原則,創(chuàng)辦于1956年,雜志在全國同類期刊中發(fā)行數(shù)量名列前茅。