Skip to main content

实战教程:使用Sadtalker让照片说话

利用目前主流的开源程序让照片说话唱歌,达到基本的唇形同步

  • Sadtalker

https://github.com/OpenTalker/SadTalker

可以独立使用或者作为插件放入stablediffusion

视频教程https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=35e62d366d8173e12669705f7aedd122

但是对于编程、python、conda不熟的,强烈建议使用这个整合包:

史上最炸裂版AI工具箱来啦,SD-AI绘画、VITS文本转语音,wav2lip、sadTalker唇型同步,视频修复,支持A卡!

我用夸克网盘分享了「EZ-AI-Starter-v0.9.8.zip」,点击链接即可保存

链接:https://pan.quark.cn/s/1d5ca9f57f5c

视频地址:https://www.bilibili.com/video/BV1ga4y1u7Ep/?spm_id_from=333.337.search-card.all.click&vd_source=35e62d366d8173e12669705f7aedd122

具体步骤如下:

x

点我启动,在启动界面中,选择音频、图像口型同步的下载图标:

x

下载完毕后如下:

x

启动应用,等待

x

会弹出一个独立的窗口(而不是你的默认浏览器)

x

选择sadtalker同步器,分别导入图片和声音,

图片预处理方式中,crop只截取图片的头部,full就是保留整张照片,下面的勾选项已经有文字解释,自己可以试几次

点击generate

由于涉及到视频的推理和转换,输出时间要远远大于ai绘图和sovits的声音推理,做好等待的准备。

下图中,我导入了一个13秒的音频,预计需要3-5分钟(3060 12g显卡)

最终生成的视频长度与音频一致,如果想制作一个长视频,最好是剪成小段,分别推理,然后合并。

x

完成后,可以打开输出目录或者下载视频文件。

x

看看效果

tmp606i48sh##小星星-0-100.mp4

tmpjl_co18w##赐我测试用-0-100.mp4

带面部修复的效果:

tmphuol9j0x##1_aj3_Vocals_5-0-100_enhanced.mp4