與我們合作
我們專注:網站策劃設計、網絡輿論監控、網站優化及網站營銷、品牌策略與設計
主營業務:網站建設、移動端微信小程序開發、APP開發、網絡運營、云產品·運維解決方案
有一個品牌項目想和我們談談嗎?
您可以填寫右邊的表格,讓我們了解您的項目需求,這是一個良好的開始,我們將會盡快與您取得聯系。當然也歡迎您給我們寫信或是打電話,讓我們聽到您的聲音
您也可通過下列途徑與我們取得聯系:
地 址: 上海市長寧區華寧國際7L
電 話: 400-825-2717(咨詢專線)
電 話: 13054973230(售后客戶服務)
網 址: http://www.586918.cn
傳 真: 021-61488448
郵 箱: [email protected]
快速提交您的需求 ↓
Hugging Face研究人員推語音識別模型Distil-Whisper 速度提高、參數減少
發布日期:2023-11-09 瀏覽次數:37899
劃重點:
? Hugging Face研究人員利用偽標記創建了一個龐大的開源數據集,用于提煉Whisper模型的較小版本,稱為Distil-Whisper。
? Distil-Whisper在挑戰性的聲學條件下保持了Whisper模型的韌性,同時減輕了長篇音頻中的錯覺錯誤。
? 自動語音識別(ASR)系統已達到人類水平的準確度,但由于預訓練模型的不斷增大,在資源受限的環境中面臨挑戰。
站長之家(ChinaZ.com)11月9日 消息:Hugging Face研究人員最近解決了在資源受限環境中部署大型預訓練語音識別模型的問題。他們通過創建一個龐大的開源數據集,使用偽標記的方法,提煉出了Whisper模型的較小版本,稱為Distil-Whisper。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
Whisper語音識別變壓器模型是在68萬小時的嘈雜互聯網語音數據上進行了預訓練。它包括基于變壓器的編碼器和解碼器組件,在零調優的情況下取得了競爭激烈的結果。而Distil-Whisper是通過使用偽標記進行知識提煉得到的緊湊版本。
Distil-Whisper在挑戰性的聲學條件下保持了Whisper模型的韌性,同時減輕了長篇音頻中的錯覺錯誤。這項研究引入了一種針對語音數據的大規模偽標記方法,這是一個尚未充分開發但頗具前景的知識提煉途徑。
自動語音識別(ASR)系統已經達到了人類水平的準確度,但由于預訓練模型的不斷增大,在資源受限的環境中面臨挑戰。Whisper作為一個大型預訓練ASR模型,在各種數據集上表現出色,但在低延遲部署方面可能更實用。而知識提煉在壓縮自然語言處理變壓器模型方面已經得到了有效應用,但在語音識別中的運用尚未得到充分探討。
與原始 Whisper 模型相比,源自知識蒸餾的 Distil-Whisper 顯著提高了速度并減少了參數,同時在具有挑戰性的聲學條件下保持了彈性。它的加速速度提高了5.8倍,參數減少了51%,在零樣本場景下的分布外測試數據上實現了不到1% 的 WER。distil-medium.en 模型的 WER 稍高,但直接推理能力提高了6.8倍,模型壓縮率提高了75%。Whisper 模型在長格式音頻轉錄中容易出現幻覺錯誤,而 Distil-Whisper 可以減輕這些錯誤,同時保持有競爭力的 WER 性能。
Distil-Whisper 是通過知識蒸餾實現的 Whisper 模型的緊湊變體。這種創新方法在速度和參數減少方面產生了顯著的好處,與原始 Whisper 模型相比,Distil-Whisper 速度更快,參數更少。盡管 WER 稍高,但 distil-medium.en 模型提供了更直接的推理和實質性的模型壓縮。

