題目:Self-supervised learning for audio-visual speaker diarization
摘要:
主講人二值化是一種尋找特定主講人語音片段的技術,在視頻會議、人機交互係統等以人為中心的應用中得到了廣泛的應用。在這篇論文中,我們提出一種自監督的音視頻同步學習方法來解決說話人的二值化問題,而不需要大量的標注工作。我們通過引入兩個新的損失函數:動態三重損失和多項式損失來改進前麵的方法。我們在一個真實的人機交互係統上進行了測試,結果表明我們的最佳模型獲得了顯著的+8%的f1分數,並降低了二值化的錯誤率。最後,我們介紹了一種新的大規模的音視頻語料庫,以填補漢語音視頻數據集的空白。