由兩名南韓青年創立的Nari Labs本周二(4/22)透過GitHub及Hugging Face,開源了具備16億參數的文字轉語音模型Dia,宣稱它不僅與Google NotebookLM播客的品質相當,甚至超越了ElevenLabs Studio與Sesame的開源模型。Dia發布48小時便在GitHub上獲得超過7,800顆星星,並成為Hugging Face上最受歡迎的模型。
Nari Labs創辦者之一的Toby Kim於X上分享了他們的心路歷程,這是一個只有1.5人的團隊,因為另一人還在當兵,而且完全沒有資金,也不是AI專家,是因為受到Google NotebookLM去年9月所發布的播客(Podcast)功能的啟發。
Kim說,他們愛上了NotebookLM的播客功能,但想要有更多的聲音控制,更自由的劇本,試過了市場上所有的文字轉語音(Text-to-Speech,TTS)API,但它們聽起來都不像是真正的人類對話,正巧遇見Google的Research Cloud免費供應TPU予研究人員,於是他們開始學習JAX、Flax、平行運算、叢集編排及Pallas核心等技術,並在3個月後得到一個經過充份訓練的1.6B模型,比預期的還難,卻非常值得。
由Nari Labs所建置的Dia模型可直接以文字生成高度逼真的對話,允許使用整調整音訊的輸出,控制情感與音調,而且還能產生各種非語言交流,像是大笑、咳嗽,或是清清嗓子。
該實驗室比較了專門發展自然語音的ElevenLabs Studio模型、Sesame的對話語音模型CSM-1B,以及Dia的表現,顯示Dia的確擁有更自然的聲調,更栩栩如生的聲音表情,也有傑出的聲音節奏感。
目前Dia只支援英文,安裝該模型的最低系統需求為Windows或Linux作業系統,Python 3.8或以上版本,以及一個Nvidia RTX 3080或以上的GPU,或是直接透過Hugging Face Space試用,該實驗室亦正在開發可直接供消費者使用的服務。