DiffSinger
啊嘞?! 這個ACG相關軟件缺少照片,需要補上…… | |
基本資料 | |
軟件名 | DiffSinger |
---|---|
開發者 | MoonInTheRiver |
作業系統 | Windows、Linux、MacOS |
語言 | 漢語普通話 |
軟件類型 | 歌聲合成 |
維護者 | OpenVPI |
編程語言 | Python |
DiffSinger是一款開源AI歌聲合成軟件,理論來源於浙江大學論文《DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism》[1]。
簡介
使用Python語言編寫,基於Diffusion算法,支持Windows、Linux以及MacOS系統
目前主要由OpenVPI團隊Fork且進行後續開發
可使用onnx作為模型運行框架,使用NSF-HiFiGan聲碼器,是開源、免費且本地合成的中文AI歌聲合成引擎。
DiffSinger目前支持普通話,後續會加入更多語言。
截止2024年03月31日,OpenUtau正式版已支持DiffSinger,並支持以下功能:
- 漢字輸入(目前只適配普通話拼音)
- 調整音素長度
- 多聲線/多音色混合
- 參數 PITD:音高偏差
- 參數 DYN:響度
- 參數 GENC:性別
- 參數 VELC:輔音速度
- 參數 BREC:呼吸
- 參數 ENE:能量(目前已不再建議支持)
- 參數 TENC:力度
- 參數 VOIC:發聲
歷史
2022年08月10日,發佈首個自動音高demo《小手拉大手》。
2022年12月04日,發佈首個調參且使用社區聲碼器demo《我多想說再見啊》。
2022年12月09日,保姆級自製教程發佈。
2022年12月24日,首個社區自製音源發佈demo《逍遙仙》。
2023年01月08日,由氧氣編譯的OpenUtau兼容了DiffSinger聲庫,也帶來了DiffSinger聲庫的可視化實時調參功能。 目前可用功能如下:
- 漢字輸入(目前只適配普通話拼音)
- 調整音素長度
- 多聲線/多音色混合
- 參數 PITD:音高偏差
- 參數 DYN:響度
- 參數 GENC:性別
- 參數 VELC:輔音速度
2023年01月26日,發佈首個多聲線/多音色融合demo《一半一半》。
2023年02月17日,發佈首個Utau聲庫轉制AI聲庫demo《飲中八仙Spirits》。
2023年03月09日,發佈首個社區自製中日雙語混合模型聲庫demo。
2023年04月25日,發佈首個社區自製多語種(漢語普通話,日語,英語,韓語,漢語廣東話)混合模型聲庫demo。
2023年05月14日,發佈首個自動音高demo《不謂俠》。教程版本進行交接。
2023年05月15日,發佈同樣基於擴散(diffusion)模型且標註方案為完全自研的唱法預測模型。
2023年05月28日,更新唱法模型(自動音高、自動音素等)所需數據集的標註示例和標註轉換/製作指南。
2023年07月16日,更新2.0.0版本,更新包含全新唱法模型與參數、半精度/多卡訓練支持、諸多優化改進與錯誤修復。
2023年08月26日,更新2.1.0版本,此次更新主要內容包括模型微調、網絡參數凍結、自動音高表現力因子控制、DS文件訓練、RMVPE音高提取器等。
2023年11月22日,更新2.2.0版本,此次更新主要內容包括聲學模型淺擴散、唱法模型旋律編碼器和滑音標記支持等。
2023年11月23日,社區B站賬號上線。
2023年12月08日,更新2.2.1版本,支持聲碼器微調並加入唱法模型訓練建議。
2024年03月11日,更新2.3.0版本,支持tension和voicing參數。
2024年04月17日,正式支持Rectified Flow,效果和速度均獲得較大提升。
公開試聽或公開使用聲庫(不完全統計)
見下方「DiffSinger」大家族模板。
|
相關連結
- ↑ DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism https://arxiv.org/abs/2105.02446