阿里通義開源音頻生成模型,能模仿音效師為視頻配音 | 速途網
速途網7月1日消息(報道:李楠)今日,阿里通義實驗室開源了旗下首個音頻生成模型ThinkSound,該模型首次將CoT(Chain-of-Thought,思維鏈)應用到音頻生成領域,讓AI可以像專業音效師一樣逐步思考,捕捉視覺細節,生成與畫面同步的高保真音頻。目前,ThinkSound的代碼和模型已在Github、HuggingFace、魔搭社區開源,開發者可免費下載和體驗。

阿里開源音頻生成模型ThinkSound
視頻生成音頻(V2A)技術是多媒體編輯和視頻內容創作領域最重要的技術之一,但該技術的發展速度仍存在諸多技術挑戰,例如業界現有的V2A技術仍缺乏對視覺對應聲學細節的深入理解,導致生成的音頻較為通用,甚至與關鍵視覺事件錯位,難以滿足專業創意場景中對時序和語義連貫性的嚴格要求。
為了解決現有視頻轉音頻技術難以捕捉畫面中動態細節和時序的難題,通義團隊首次將思維鏈推理引入多模態大模型,可以模仿人類音效師的多階段創作流程,實現對視覺事件與相應聲音之間深度關聯的精準建模,例如先分析視覺動態、再推斷聲學屬性,最后按照時間順序合成與環境相符的音效。不僅如此,該團隊還構建了首個帶思維鏈標注的音頻數據集AudioCoT,該數據集融合了2531.8小時的多源異構數據,讓模型在音頻生成與編輯任務時做到“知其然、知其所以然”。
在開源的VGGSound測試集上,ThinkSound的核心指標相比MMAudio、V2A-Mappe、V-AURA等現有主流方法均實現了15%以上的提升。例如,在openl3空間中Fréchet 距離(FD)上,ThinkSound 相比 MMAudio的43.26 降至34.56(越低越好),接近真實音頻分布的相似度提高了20%以上;在代表模型對聲音事件類別和特征判別精準度的KLPaSST 和 KLPaNNs兩項指標上分別取得了1.52和1.32的成績,均為同類模型最佳。

在開源的VGGSound測試集上,ThinkSound多項核心指標位居第一
在MovieGen Audio Bench測試集上,ThinkSound的表現大幅領先Meta推出的音頻生成模型Movie?Gen?Audio,展現了模型在影視音效、音頻后期、游戲與虛擬現實音效生成等領域的應用潛力。

ThinkSound大幅領先Meta旗下Movie Gen Audio
目前,通義實驗室已推出語音生成大模型 Cosyvoice、端到端音頻多模態大模型MinMo等模型,全面覆蓋語音合成、音頻生成、音頻理解等場景。