DiffSinger
啊嘞?! 这个ACG相关软件缺少照片,需要补上…… | |
基本资料 | |
软件名 | DiffSinger |
---|---|
开发者 | MoonInTheRiver |
操作系统 | Windows、Linux、MacOS |
语言 | 汉语普通话 |
软件类型 | 歌声合成 |
维护者 | OpenVPI |
编程语言 | Python |
DiffSinger是一款开源AI歌声合成软件,理论来源于浙江大学论文《DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism》[1]。
简介
使用Python语言编写,基于Diffusion算法,支持Windows、Linux以及MacOS系统
目前主要由OpenVPI团队Fork且进行后续开发
可使用onnx作为模型运行框架,使用NSF-HiFiGan声码器,是开源、免费且本地合成的中文AI歌声合成引擎。
DiffSinger目前支持普通话,后续会加入更多语言。
截止2024年03月31日,OpenUtau正式版已支持DiffSinger,并支持以下功能:
- 汉字输入(目前只适配普通话拼音)
- 调整音素长度
- 多声线/多音色混合
- 参数 PITD:音高偏差
- 参数 DYN:响度
- 参数 GENC:性别
- 参数 VELC:辅音速度
- 参数 BREC:呼吸
- 参数 ENE:能量(目前已不再建议支持)
- 参数 TENC:力度
- 参数 VOIC:发声
历史
2022年08月10日,发布首个自动音高demo《小手拉大手》。
2022年12月04日,发布首个调参且使用社区声码器demo《我多想说再见啊》。
2022年12月09日,保姆级自制教程发布。
2022年12月24日,首个社区自制音源发布demo《逍遥仙》。
2023年01月08日,由氧气编译的OpenUtau兼容了DiffSinger声库,也带来了DiffSinger声库的可视化实时调参功能。 目前可用功能如下:
- 汉字输入(目前只适配普通话拼音)
- 调整音素长度
- 多声线/多音色混合
- 参数 PITD:音高偏差
- 参数 DYN:响度
- 参数 GENC:性别
- 参数 VELC:辅音速度
2023年01月26日,发布首个多声线/多音色融合demo《一半一半》。
2023年02月17日,发布首个Utau声库转制AI声库demo《饮中八仙Spirits》。
2023年03月09日,发布首个社区自制中日双语混合模型声库demo。
2023年04月25日,发布首个社区自制多语种(汉语普通话,日语,英语,韩语,汉语广东话)混合模型声库demo。
2023年05月14日,发布首个自动音高demo《不谓侠》。教程版本进行交接。
2023年05月15日,发布同样基于扩散(diffusion)模型且标注方案为完全自研的唱法预测模型。
2023年05月28日,更新唱法模型(自动音高、自动音素等)所需数据集的标注示例和标注转换/制作指南。
2023年07月16日,更新2.0.0版本,更新包含全新唱法模型与参数、半精度/多卡训练支持、诸多优化改进与错误修复。
2023年08月26日,更新2.1.0版本,此次更新主要内容包括模型微调、网络参数冻结、自动音高表现力因子控制、DS文件训练、RMVPE音高提取器等。
2023年11月22日,更新2.2.0版本,此次更新主要内容包括声学模型浅扩散、唱法模型旋律编码器和滑音标记支持等。
2023年11月23日,社区B站账号上线。
2023年12月08日,更新2.2.1版本,支持声码器微调并加入唱法模型训练建议。
2024年03月11日,更新2.3.0版本,支持tension和voicing参数。
2024年04月17日,正式支持Rectified Flow,效果和速度均获得较大提升。
公开试听或公开使用声库(不完全统计)
见下方“DiffSinger”大家族模板。
|
相关链接
- ↑ DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism https://arxiv.org/abs/2105.02446