AI 语音合成与AI音乐
基础概念
AI 生成的音乐正在改变流行音乐的前景并吸引数百万新听众,它正被用于创作新音乐、分析听众数据,甚至生成个性化播放列表。那么怎么制作一个 AI 音乐,甚至做一个类似 AI 孙燕姿的音乐呢,可以接着往下看——
关键技术
深度伪造技术
所谓深度伪造技术(deepfakes),是一种利用 AI 程序和深度学习算法实现音视频模拟和伪造的技术,投入深度学习的内容库越大,合成的视音频真实性越高,甚至可以达到以假乱真的程度。
AI 翻唱
粉丝们会通过 Stems 音轨分离工具将人声与原始歌曲分离,再使用人声转换模型将人声转换成另一位明星的风格,然后将新的人声轨道与原始作品重新拼接在一 起。Diff-SVC 就是一种特别流行的用于此目的的语音传输模型。
AI 孙燕姿是怎么做的?
歸臧写的教程是我看过的最通俗易懂的教程了,推荐一下:
按照此手把手的教程来操作,你也可以生成你所喜爱的歌手音乐。但请注意版权问题,请勿侵犯他人音乐版权。
- 🎵 项目主要使用 So-VITS-SVC 4.0,可以在 Github 上找到该项目。
- 📹 推荐的两个整合包视频教程分别是羽毛布団和领航员未鸟。
- 🎧 模型使用分为原始声音处理、推理过程和音轨合并三个部分。
- 🔊 使用 UVR_v5.5.0 软件处理声音,保留人物的干声。
- 🖥️ 运行整合包的 Web UI 进行声音推理,需要将模型文件和配置文件放置正确的文件夹下。
- ➗ 分割后的素材尽量不要超过显存大小,使用【slicer-gui】软件进行分割。
- 🎉 最终得到的处理好的人声素材可以用于训练模型。
主要产品和案例研究
MusicLM ( Google)
**MusicLM 是 Google 的文本转音乐生成器,**虽然你还不能使用此工具播放,但 Google 已经发布了音频样本,你可以收听此模型生成的音频样本,结果令人惊叹。
相关论文《MusicLM: Generating Music From Text》》:
Jukebox( OpenAI)
该项目使用神经网络生成音乐,包括基本的歌唱,作为各种流派和艺术家风格的原始音频。他们发布了模型权重和代码,以及用于探索生成样本的工具。
项目地址:
项目论文地址:https://cdn.openai.com/papers/jukebox.pdf
艺术家和流派分析