一家名為 Nari Labs 的兩人初創(chuàng)公司推出了 Dia,這是一款擁有 1.6 億參數(shù)的文本轉(zhuǎn)語音(TTS)模型,旨在直接從文本提示生成自然化對話 —— 其中一位創(chuàng)始人聲稱,其性能超越了包括 ElevenLabs、Google 熱門的 NotebookLM AI 播客生成產(chǎn)品等競爭對手的專有產(chǎn)品。
它甚至可能對 OpenAI 最近推出的 gpt-4o-mini-tts 產(chǎn)生沖擊。
“Dia 在與 NotebookLM 播客功能的競爭中不但旗鼓相當(dāng),而且在質(zhì)量上超越了 ElevenLabs Studio 和 Sesame 的開源模型,” Nari 以及 Dia 的聯(lián)合創(chuàng)始人 Toby Kim 在社交網(wǎng)絡(luò) X 上的帖子中如是說道。
在另一篇帖子中,Kim 指出該模型是在“零資金”情況下構(gòu)建的,并在一個(gè)主題帖中補(bǔ)充道: “……我們一開始并非 AI 專家。一切始于我們?nèi)ツ晖瞥龅?NotebookLM 播客功能令我們著迷。我們期待更多 —— 有更多對聲音的控制,劇本也有更多自由。我們嘗試了市面上所有的 TTS API,但沒有一款聽起來像真實(shí)的人類對話?!?
Kim 進(jìn)一步感謝 Google,通過其 Research Cloud,讓他和合作者得以使用公司的 Tensor Processing Unit 芯片 (TPU) 來訓(xùn)練 Dia。
現(xiàn)在,Dia 的代碼和權(quán)重(內(nèi)部模型連接集)已經(jīng)在 Hugging Face 以及 Github 上對所有人開放下載與本地部署。個(gè)別用戶還可以在 Hugging Face Space 上嘗試生成語音。
高級控制與更多可定制功能
Dia 支持諸如情感語調(diào)、說話人標(biāo)記及非語言音頻提示等細(xì)致特征 —— 所有這些均可由純文本實(shí)現(xiàn)。
用戶可以利用 [S1] 和 [S2] 等標(biāo)簽標(biāo)記說話人轉(zhuǎn)換,并添加 (laughs) 、 (coughs) 或 (clears throat) 等提示,使生成的對話在非語言行為上更加豐富。
這些標(biāo)簽?zāi)茉谏蛇^程中被 Dia 正確解析 —— 根據(jù)公司示例頁面,其他現(xiàn)有模型對此支持并不穩(wěn)定。
該模型目前僅支持英語,并且不關(guān)聯(lián)于某個(gè)特定說話人的聲音,每次生成時(shí)的音色均可能不同,除非用戶固定生成種子或提供音頻提示。通過音頻條件約束(或語音克隆),用戶可通過上傳樣本片段來引導(dǎo)語音的語調(diào)和音色。
Nari Labs 提供了示例代碼以便簡化這一流程,并推出了基于 Gradio 的演示,用戶無需進(jìn)行復(fù)雜設(shè)置即可體驗(yàn)。
與 ElevenLabs 和 Sesame 的對比
Nari 在其 Notion 網(wǎng)站上展示了大量由 Dia 生成的示例音頻,并將其與其他領(lǐng)先的語音轉(zhuǎn)文本競爭對手進(jìn)行了對比,特別是 ElevenLabs Studio 以及 Sesame CSM-1B —— 后者是 Oculus VR 頭顯聯(lián)合創(chuàng)始人 Brendan Iribe 推出的一款新文本轉(zhuǎn)語音模型,曾在今年早些時(shí)候于 X 平臺引起熱議。
Nari Labs 通過并排示例展示了 Dia 在多個(gè)方面優(yōu)于競爭對手:
在標(biāo)準(zhǔn)對話場景中,Dia 無論在自然時(shí)序還是在非語言表達(dá)上都表現(xiàn)更佳。例如,在劇本以 (laughs) 結(jié)束時(shí),Dia 能真正理解并生成笑聲,而 ElevenLabs 和 Sesame 則只輸出諸如 “haha” 之類的文本替代表達(dá)。
例如,下面展示的是 Dia 的效果……
……
而下面則是由 ElevenLabs Studio 朗讀同一句話時(shí)的效果。
在多輪情感豐富的對話中,Dia 展現(xiàn)出更加平滑的過渡和語調(diào)變化。一項(xiàng)測試包括一個(gè)充滿戲劇性、情感激昂的緊急場景,Dia 有效地傳遞了緊迫感和說話者壓力,而競爭模型往往顯得表達(dá)平淡或節(jié)奏丟失。
在處理僅包含非語言內(nèi)容的劇本時(shí),例如涉及咳嗽、吸鼻子和笑聲的幽默對話,Dia 表現(xiàn)尤為出色,而其他模型則往往無法識別這些標(biāo)簽或?qū)⑵渫耆雎浴?
即使面對如說唱歌詞這類節(jié)奏復(fù)雜的內(nèi)容,Dia 也能生成流暢、富有表現(xiàn)力且保持一定節(jié)奏感的語音;這與 ElevenLabs 和 Sesame 的 1B 模型產(chǎn)生的較為單調(diào)或斷裂的輸出形成了鮮明對比。
利用音頻提示,Dia 還能延續(xù)或擴(kuò)展說話人的語音風(fēng)格,實(shí)現(xiàn)新臺詞的無縫銜接。一則使用對話片段作為種子的示例顯示,Dia 能將樣本中的語音特征貫穿于后續(xù)生成的整個(gè)對話中,而這一特性在其他模型中尚未得到穩(wěn)健支持。
在一組測試中,Nari Labs 指出,Sesame 最佳網(wǎng)站演示很可能采用了內(nèi)部 8B 版本模型,而非公開的 1B 檢查點(diǎn),導(dǎo)致其廣告效果與實(shí)際性能之間存在差距。
模型訪問與技術(shù)參數(shù)
開發(fā)者可以從 Nari Labs 的 GitHub 倉庫以及 Hugging Face 模型頁面上獲取 Dia。
該模型運(yùn)行在 PyTorch 2.0+ 和 CUDA 12.6 環(huán)境下,大約需要 10GB 的顯存。
在企業(yè)級 GPU(如 NVIDIA A4000)上推理時(shí),速度約為每秒 40 個(gè) Token。
雖然當(dāng)前版本僅支持在 GPU 上運(yùn)行,Nari 計(jì)劃未來推出 CPU 版本及量化版本,以提升可訪問性。
該初創(chuàng)公司同時(shí)提供了 Python 庫和 CLI 工具,進(jìn)一步簡化了部署過程。
憑借靈活的特性,Dia 在內(nèi)容創(chuàng)作、輔助技術(shù)以及合成語音旁白等多種應(yīng)用場景中展現(xiàn)出廣闊前景。
此外,Nari Labs 正在開發(fā)一款面向休閑用戶的消費(fèi)版 Dia,旨在滿足希望混剪或分享生成對話的用戶。感興趣的用戶可以通過電子郵件注冊早期訪問候補(bǔ)名單。
完全開源
該模型采用 Apache 2.0 完全開源許可證發(fā)布,這意味著它可用于商業(yè)用途 —— 這一特性無疑會吸引企業(yè)和獨(dú)立應(yīng)用開發(fā)者。
Nari Labs 明確禁止使用該模型進(jìn)行冒充個(gè)人、傳播虛假信息或參與非法活動。團(tuán)隊(duì)倡導(dǎo)負(fù)責(zé)任的試驗(yàn),并對不道德的部署行為持明確反對態(tài)度。
Dia 的開發(fā)還得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 撥款計(jì)劃以及在 SoundStorm、Parakeet 和 Descript Audio Codec 等項(xiàng)目上的既有研究工作的支持。
盡管 Nari Labs 的團(tuán)隊(duì)僅由兩位工程師(一位全職、一位兼職)組成,他們?nèi)酝ㄟ^ Discord 服務(wù)器和 GitHub 積極邀請社區(qū)貢獻(xiàn)。
憑借對表達(dá)質(zhì)量、可復(fù)現(xiàn)性和開放獲取的堅(jiān)定追求,Dia 為生成式語音模型領(lǐng)域增添了一種獨(dú)特的新聲。