实战教程:使用Sadtalker让照片说话
利用目前主流的开源程序让照片说话唱歌,达到基本的唇形同步
- Sadtalker
https://github.com/OpenTalker/SadTalker
可以独立使用或者作为插件放入stablediffusion
视频教程https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=35e62d366d8173e12669705f7aedd122
但是对于编程、python、conda不熟的,强烈建议使用这个整合包:
史上最炸裂版AI工具箱来啦,SD-AI绘画、VITS文本转语音,wav2lip、sadTalker唇型同步,视频修复,支持A卡!
我用夸克网盘分享了「EZ-AI-Starter-v0.9.8.zip」,点击链接即可保存
链接:https://pan.quark.cn/s/1d5ca9f57f5c
具体步骤如下:

点我启动,在启动界面中,选择音频、图像口型同步的下载图标:

下载完毕后如下:

启动应用,等待

会弹出一个独立的窗口(而不是你的默认浏览器)

选择sadtalker同步器,分别导入图片和声音,
图片预处理方式中,crop只截取图片的头部,full就是保留整张照片,下面的勾选项已经有文字解释,自己可以试几次
点击generate
由于涉及到视频的推理和转换,输出时间要远远大于ai绘图和sovits的声音推理,做好等待的准备。
下图中,我导入了一个13秒的音频,预计需要3-5分钟(3060 12g显卡)
最终生成的视频长度与音频一致,如果想制作一个长视频,最好是剪成小段,分别推理,然后合并。

完成后,可以打开输出目录或者下载视频文件。

看看效果
带面部修复的效果: