DiffSinger

猛漢百科歡迎您參與完善本條目☆Kira~
歡迎正在閱讀這個條目的您協助編輯本條目。編輯前請閱讀Wiki入門或條目編輯規範，並查找相關資料。猛漢百科祝您在本站度過愉快的時光。

DiffSinger是一款開源AI歌聲合成軟件，理論來源於浙江大學論文《DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism》^[1]。

簡介

使用Python語言編寫，基於Diffusion算法，支持Windows、Linux以及MacOS系統

目前主要由OpenVPI團隊Fork且進行後續開發

可使用onnx作為模型運行框架，使用NSF-HiFiGan聲碼器，是開源、免費且本地合成的中文AI歌聲合成引擎。

DiffSinger目前支持普通話，後續會加入更多語言。

截止2024年03月31日，OpenUtau正式版已支持DiffSinger，並支持以下功能：

2022年08月10日，發佈首個自動音高demo《小手拉大手》。

寬屏模式顯示視頻

2022年12月04日，發佈首個調參且使用社區聲碼器demo《我多想說再見啊》。

2022年12月09日，保姆級自製教程發佈。

2022年12月24日，首個社區自製音源發佈demo《逍遙仙》。

2023年01月08日，由氧氣編譯的OpenUtau兼容了DiffSinger聲庫，也帶來了DiffSinger聲庫的可視化實時調參功能。目前可用功能如下：

2023年01月26日，發佈首個多聲線/多音色融合demo《一半一半》。

2023年02月17日，發佈首個Utau聲庫轉制AI聲庫demo《飲中八仙Spirits》。

2023年03月09日，發佈首個社區自製中日雙語混合模型聲庫demo。

2023年04月25日，發佈首個社區自製多語種（漢語普通話，日語，英語，韓語，漢語廣東話）混合模型聲庫demo。

2023年05月14日，發佈首個自動音高demo《不謂俠》。教程版本進行交接。

2023年05月15日，發佈同樣基於擴散（diffusion）模型且標註方案為完全自研的唱法預測模型。

2023年05月28日，更新唱法模型（自動音高、自動音素等）所需數據集的標註示例和標註轉換/製作指南。

2023年07月16日，更新2.0.0版本，更新包含全新唱法模型與參數、半精度/多卡訓練支持、諸多優化改進與錯誤修復。

2023年08月26日，更新2.1.0版本，此次更新主要內容包括模型微調、網絡參數凍結、自動音高表現力因子控制、DS文件訓練、RMVPE音高提取器等。

2023年11月22日，更新2.2.0版本，此次更新主要內容包括聲學模型淺擴散、唱法模型旋律編碼器和滑音標記支持等。

2023年11月23日，社區B站賬號上線。

2023年12月08日，更新2.2.1版本，支持聲碼器微調並加入唱法模型訓練建議。

2024年03月11日，更新2.3.0版本，支持tension和voicing參數。

2024年04月17日，正式支持Rectified Flow，效果和速度均獲得較大提升。

見下方「DiffSinger」大家族模板。