摘要:提出一種端到端的視聽語音識別算法。在該算法中,通過具有瓶頸結(jié)構(gòu)的深度信念網(wǎng)絡(luò)(deep belief network,DBN)中引入混合的l1/2范數(shù)和l1范數(shù)構(gòu)建一種稀疏DBN(sparse DBN,SDBN)來提取稀疏瓶頸特征,從而實現(xiàn)對數(shù)據(jù)的特征降維,然后用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BLSTM)在時序上對特征進行模態(tài)處理,之后利用一種注意力機制將經(jīng)過模態(tài)處理的唇部視覺信息和音頻聽覺信息進行自動對齊、融合,最后將融合的視聽覺信息通過一個附加了Softmax層的BLSTM進行分類識別。實驗表明,該算法能有效地識別視聽覺信息,在同類算法中有很好的識別率和頑健性。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社