數學上,序列是被排成一列的對象(或事件);這樣每個元素不是在其他元素之前,就是在其他元素之後。這裏,元素之間的順序非常重要。

VIP內容

題目:Unsupervised pre-training for sequence to sequence speech recognition

摘要:

本文提出了一種新的編碼-解碼器序列到序列預訓練模型(seq2seq)。我們的前訓練方法分為兩個階段,分別是聲學前訓練和語言前訓練。在聲學預訓練階段,我們使用大量的語音來預訓練編碼器,通過預測掩蔽語音特征塊及其上下文。在語言前訓練階段,我們使用單說話文本到語音(TTS)係統從大量的文本中生成合成語音,並使用合成的成對數據對譯碼器進行預訓練。這種兩階段預訓練方法將豐富的聲學和語言知識整合到seq2seq模型中,有利於後續的自動語音識別(ASR)任務。在AISHELL-2數據集上完成無監督的預訓練,我們將預訓練模型應用於AISHELL-1和香港科技大學的多重配對數據比率。我們的相對錯誤率由AISHELL-1的38.24%降至7.88%,由香港科技大學的12.00%降至1.20%。此外,將我們的預訓練模型應用到帶有CALLHOME數據集的跨語言案例中。對於CALLHOME數據集中的所有六種語言,我們的預訓練方法使模型始終優於基線。

作者:

徐波,研究員,1988年畢業於浙江大學,現任中國科學院自動化所所長 ,研究領域包括:多語言語音識別與機器翻譯、多媒體網絡內容智能處理、互動沉浸式3D互聯網等。

成為VIP會員查看完整內容
0
11
0
Top