VIP內容

題目:Multiresolution and Multimodal Speech Recognition with Transformers

摘要:

本文提出了一種基於transformers的語音自動識別係統。我們特別關注場景上下文所提供的視覺信息,以集成ASR。我們在transformers的編碼器層提取音頻特征的表示,並使用一個額外的跨模態多頭注意層融合視頻特征。此外,我們為多分辨率ASR合並了一個多任務訓練標準,在那裏我們訓練模型來生成字符和子單詞級別的轉錄。

在How2數據集上的實驗結果表明,與子單詞預測模型相比,多分辨率訓練可以加快約50%的收斂速度,並相對提高高達18%的單詞錯誤率(WER)性能。此外,與純音頻模型相比,集成視覺信息可以提高性能,相對提高3.76%。其成果可與最先進的聆聽、聆聽和基於拚寫的體係結構相媲美。

成為VIP會員查看完整內容
0
6
0
Top