实战教程：使用Sadtalker让照片说话

利用目前主流的开源程序让照片说话唱歌，达到基本的唇形同步

可以独立使用或者作为插件放入stablediffusion

但是对于编程、python、conda不熟的，强烈建议使用这个整合包：

史上最炸裂版AI工具箱来啦，SD-AI绘画、VITS文本转语音，wav2lip、sadTalker唇型同步，视频修复，支持A卡！

我用夸克网盘分享了「EZ-AI-Starter-v0.9.8.zip」，点击链接即可保存

具体步骤如下：

点我启动，在启动界面中，选择音频、图像口型同步的下载图标：

下载完毕后如下：

启动应用，等待

会弹出一个独立的窗口（而不是你的默认浏览器）

选择sadtalker同步器，分别导入图片和声音，

图片预处理方式中，crop只截取图片的头部，full就是保留整张照片，下面的勾选项已经有文字解释，自己可以试几次

点击generate

由于涉及到视频的推理和转换，输出时间要远远大于ai绘图和sovits的声音推理，做好等待的准备。

下图中，我导入了一个13秒的音频，预计需要3-5分钟（3060 12g显卡）

最终生成的视频长度与音频一致，如果想制作一个长视频，最好是剪成小段，分别推理，然后合并。

完成后，可以打开输出目录或者下载视频文件。

看看效果

带面部修复的效果：