首页 > 资讯 > > 正文

南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

来源:博客园 2023-06-07 13:50:51

孙燕姿果然不愧是孙燕姿,不愧为南洋理工大学的高材生,近日她在个人官方媒体博客上写了一篇英文版的长文,正式回应现在满城风雨的“AI孙燕姿”现象,流行天后展示了超人一等的智识水平,行文优美,绵恒隽永,对AIGC艺术表现得极其克制,又相当宽容,充满了语言上的古典之美,表现出了“任彼如泰山压顶,我只当清风拂面”的博大胸怀。


(资料图)

本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文,让流行天后念给你听。

Sadtalker配置

之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步,但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近,事实上,音频和不同面部动作之间的连接是不同的,也就是说,虽然嘴唇运动与音频的联系最强,但可以通过不同的头部姿势和眨眼来反作用于音频。

和Wav2lip相比,SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库,一方面,它从音频中生成逼真的运动系数(例如,头部姿势、嘴唇运动和眨眼),并单独学习每个运动以减少不确定性。对于表达,通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失(唇读损失,面部landmark loss)中提取系数,设计了一种新的音频到表达系数网络。

对于程序化的头部姿势,通过学习给定姿势的残差,使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后,通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场,并扭曲参考图像以生成最终视频。

Sadtalker可以单独配置,也可以作为Stable-Diffusion-Webui的插件而存在,这里推荐使用Stable-Diffusion插件的形式,因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面,更方便将Stable-Diffusion生成的图片做成动态效果。

进入到Stable-Diffusion的项目目录:

cd stable-diffusion-webui

启动服务:

python3.10 webui.py

程序返回:

Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr  5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)]  Version: v1.3.0  Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3  Installing requirements  Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram  Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors  load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints  Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml  LatentDiffusion: Running in eps-prediction mode  DiffusionWrapper has 859.52 M params.  Running on local URL:  http://127.0.0.1:7860

代表启动成功,随后http://localhost:7860

选择插件(Extensions)选项卡

点击从url安装,输入插件地址:github.com/Winfredy/SadTalker

安装成功后,重启WebUI界面。

接着需要手动下载相关的模型文件:

https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt

随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。

接着配置一下模型目录的环境变量:

set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/

至此,SadTalker就配置好了。

edge-tts音频转录

之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测,也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换,我们首先需要将文本转换为语音,才能替换音色。

这里使用edge-tts库进行文本转语音操作:

import asyncio    import edge_tts    TEXT = """    As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it.    My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes.    Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring,  unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song.     You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response.    Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE  needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable.    At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day.     In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough.     With this I fare thee well.    """    VOICE = "en-HK-YanNeural"  OUTPUT_FILE = "./test_en1.mp3"      async def _main() -> None:      communicate = edge_tts.Communicate(TEXT, VOICE)      await communicate.save(OUTPUT_FILE)      if __name__ == "__main__":      asyncio.run(_main())

音频使用英文版本的女声:en-HK-YanNeural,关于edge-tts,请移步:口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10),这里不再赘述。

随后再将音频文件的音色替换为AI孙燕姿的音色即可:AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践,复刻《遥远的歌》,原唱晴子(Python3.10)。

本地推理和爆显存问题

准备好生成的图片以及音频文件后,就可以在本地进行推理操作了,访问 localhost:7860

这里输入参数选择full,如此会保留整个图片区域,否则只保留头部部分。

生成效果:

SadTalker会根据音频文件生成对应的口型和表情。

这里需要注意的是,音频文件只支持MP3或者wav。

除此以外,推理过程中Pytorch库可能会报这个错误:

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

这就是所谓的"爆显存问题"。

一般情况下,是因为当前GPU的显存不够了所导致的,可以考虑缩小torch分片文件的体积:

set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60

如果音频文件实在过大,也可以通过ffmpeg对音频文件切片操作,分多次进行推理:

ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav

藉此,就解决了推理过程中的爆显存问题。

结语

和Wav2Lip相比,SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节(如眼睛眨动)等等,可谓是细致入微,巨细靡遗,当然随之而来的是模型数量和推理成本以及推理时间的增加,但显然,这些都是值得的。

x
推荐阅读

南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

2023-06-07 13:50:51

欧股小幅收高 欧元区消费者对通胀更为乐观

2023-06-07 13:29:05

世界新动态:国内商品期市午盘涨跌不一 花生跌超4%

2023-06-07 12:40:21

环球实时:我市2023年度城乡居民医保缴费延期至6月底

2023-06-07 11:45:44

视点!中金:当前银行估值存在系统性低估 H股修复空间高于A股

2023-06-07 11:28:45

天天观天下!全球连线丨首车下线!中国首次出口阿根廷新能源轻轨车辆

2023-06-07 11:04:55

考生高考前丢失身份证,蔡甸民警跨省联系补办仅用1天_全球快报

2023-06-07 10:11:49

【环球播资讯】我国白酒品牌琳琅满目,618有哪些适合囤的?这4款纯粮佳酿别错过

2023-06-07 09:48:17

dnf安全增幅是什么意思_增幅是什么意思 天天快播

2023-06-07 09:10:12

贴吧高搜是什么意思_网络语兔友是什么意思啊贴吧 全球观热点

2023-06-07 08:42:02
相关新闻

南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

2023-06-07 13:50:51

欧股小幅收高 欧元区消费者对通胀更为乐观

2023-06-07 13:29:05

世界新动态:国内商品期市午盘涨跌不一 花生跌超4%

2023-06-07 12:40:21

环球实时:我市2023年度城乡居民医保缴费延期至6月底

2023-06-07 11:45:44

视点!中金:当前银行估值存在系统性低估 H股修复空间高于A股

2023-06-07 11:28:45

天天观天下!全球连线丨首车下线!中国首次出口阿根廷新能源轻轨车辆

2023-06-07 11:04:55

考生高考前丢失身份证,蔡甸民警跨省联系补办仅用1天_全球快报

2023-06-07 10:11:49

【环球播资讯】我国白酒品牌琳琅满目,618有哪些适合囤的?这4款纯粮佳酿别错过

2023-06-07 09:48:17

dnf安全增幅是什么意思_增幅是什么意思 天天快播

2023-06-07 09:10:12

贴吧高搜是什么意思_网络语兔友是什么意思啊贴吧 全球观热点

2023-06-07 08:42:02

资讯推荐:中基健康(000972.SZ):拟通过司法拍卖方式摘牌购置华丽包装固定资产

2023-06-07 08:02:04

世界头条:【地评线】河声:全力护航高考 为奋斗的青春喝彩

2023-06-07 07:51:17

【环球新视野】沌口街道文化生活圈为居民幸福生活“加码”

2023-06-07 06:58:01

交大昂立或面临退市风险!现任管理层回应年报“难产”:前任管理层严重损害上市公司利益 报资讯

2023-06-07 06:47:06

爪哇国特殊标点符号_爪哇国_焦点

2023-06-07 06:15:38

天天观速讯丨二十四节气中 为什么说“芒种”最繁忙?

2023-06-07 05:45:17

六味壮骨速溶茶_关于六味壮骨速溶茶的介绍 热闻

2023-06-07 05:33:20

天书奇谈网页游戏_关于天书奇谈网页游戏的介绍

2023-06-07 04:55:16

重点聚焦!莫泰168 北京右安门店(关于莫泰168 北京右安门店的简介)

2023-06-07 04:18:40

辅酶q10的作用与功效备孕_辅酶q10的作用

2023-06-07 04:12:33

无霜冰箱冷藏室菜冻坏? 热闻

2023-06-07 03:42:16

环球热门:汽车仪表盘黄色感叹号是什么意思_汽车仪表盘

2023-06-07 02:50:16

如何在课堂吸引学生的注意兴趣_课堂上如何吸引学生的注意力

2023-06-07 01:54:18

【全球速看料】培训美容要多少钱_一般来说报一个美容培训班大约多少钱

2023-06-07 01:31:15

美股异动丨苹果跌超1% MR头显产品不及预期

2023-06-07 01:26:57

全力护航高考 为奋斗的青春喝彩

2023-06-07 01:16:52

【全球快播报】标普500指数较前低反弹近20%,新牛市开启?分析师这么看

2023-06-07 00:18:40

前沿热点:12306网上订票官网下载安装到手机_122306

2023-06-06 23:52:08

要闻速递:日本航司据悉接近达成空客、波音订单

2023-06-06 23:36:02

全球今日报丨北新泾街道的“日间照料中心”,安排得真周到!

2023-06-06 23:03:12

全球今头条!曾记得古诗还有哪些 怀念革命先烈的古诗有哪些

2023-06-06 22:37:38

汉滨区关家镇高王庙小学志愿服务队_关于汉滨区关家镇高王庙小学志愿服务队简述|当前信息

2023-06-06 22:01:03

正规借钱平台,资质正规、利息低、放款快 全球快资讯

2023-06-06 21:40:33

统万城国家考古遗址公园开园 为世界唯一匈奴故都 独家焦点

2023-06-06 20:41:21

什么叫大都会风格_大都会风格立面 今日热搜

2023-06-06 20:18:31

今日热搜:高三班主任花式应援为考生减压 具体怎么回事

2023-06-06 19:29:27

中国马术三项赛队斩获巴黎奥运会参赛资格

2023-06-06 19:02:26

中方:再次敦促美英澳停止核扩散行径,不要把太平洋变成风暴洋

2023-06-06 18:27:07

视点!开公司用什么银行卡比较好(开实体店用什么银行卡比较好)

2023-06-06 18:08:38

视讯!今起,彭博推出北京证券交易所实时行情数据服务

2023-06-06 17:36:09

北京市住建委对10家建筑施工、监理企业进行查处 新视野

2023-06-06 15:01:05

解剖屎山,寻觅黄金之第二弹

2023-06-06 14:05:31

盐水老鸭的做法有哪些? 世界新消息

2023-06-06 13:13:12

RCEP全面生效 为区域经济一体化注入强劲动力

2023-06-06 12:22:58

3D存储大量激发需求——早盘消息汇总2023年6月6号_焦点速递

2023-06-06 11:37:55

最高人民检察院关于印发《最高人民检察院关于刑事抗诉工作的若干意见》的通知(对于最高人民检察院关于印发《最高人民检察院关于刑事抗诉工作的若干意见》的通知简单介绍)

2023-06-06 10:34:03

【天天快播报】日本女子因华航空姐没讲日语暴怒辱骂 乘客看不惯回怼

2023-06-06 09:51:56

环球视点!达米安:会以最佳方式备战欧冠决赛,防守曼城需要全队共同努力

2023-06-06 09:08:41

水黾科昆虫(水黾科) 当前滚动

2023-06-06 07:52:02

跟领导初次见面说什么客套话(领导初次见面聊天开场白)

2023-06-06 06:55:45

Woj:快船将原总经理助理特伦特-雷登提拔为球队总经理 全球消息

2023-06-06 05:40:32

郭碧婷疑带娃长居杭州!身材丰腴被疑怀三胎,儿子首曝正脸似向佐_环球速讯

2023-06-06 05:07:14

芸芸众生,芸芸语(光怪陆离、似曾相识……)_全球资讯

2023-06-06 03:37:13

当前资讯!2023郑州中牟高考考点有哪些

2023-06-06 03:07:43

环球实时:阿尔巴尼亚穷么(阿尔巴尼亚穷吗)

2023-06-06 02:38:30

真实姓名找人的手机号_真实姓名找人网 环球快播

2023-06-06 01:12:50

热点聚焦:秋天的命运国语版资源_秋天的命运国语版

2023-06-05 23:52:57

为什么打开一个程序总是显示程序无法找到入口呢_为什么打开一个程序总是显示程序无法找到入口

2023-06-05 23:09:57

海报|太平洋不是日本的下水道

2023-06-05 22:37:31

86年属虎的做什么行业最适合,属相属虎的适合做什么行业

2023-06-05 22:02:38

北向资金净卖出12.15亿元,美的集团、赣锋锂业等获加仓

2023-06-05 20:55:50

淅川县多措并举 引导民营经济人士积极履行社会责任 环球聚看点

2023-06-05 19:08:43

史上最卷618来了 让谁来买单?

2023-06-05 18:20:16

今日观点!七夕会时尚 | 走进蟠龙的新梦

2023-06-05 17:54:02

筑梦大运,行知小学六(3)中队学子红旗下颂祖国

2023-06-05 17:13:51

今日汇市观察:美元指数上涨至104.16 澳洲央行利率决策仍不确定 五大货币最新技术分析-当前头条

2023-06-05 17:01:29

涨停雷达:ST板块异动 ST华铁触及涨停

2023-06-05 15:48:09

主汛期到了,如何打好水旱灾害防御主动仗?_天天快报

2023-06-05 14:41:16

揭秘:6月第1周为啥这几个小区关注度最高? 天天新视野

2023-06-05 14:32:25

“拱昭”携手 共谋教育发展

2023-06-05 14:12:03

世界新动态:Simple Date Format类到底为啥不是线程安全的?

2023-06-05 13:24:53

天天讯息:猪肉概念持续下挫 华统股份等跌超4%

2023-06-05 12:42:04

【就业分析】硕士毕业后如果考选调,考研时应该如何择校?

2023-06-05 11:43:39

变压器容量与功率换算(变压器容量与功率的关系) 报道

2023-06-05 10:56:28

官方预热:摩托罗拉 Razr 40 系列折叠屏手机即将登陆印度

2023-06-05 10:22:41

什么是世界史专业属于学科|全球实时

2023-06-05 09:32:20

全球今亮点!清明上河图高清细节图(清明上河图高清)

2023-06-05 09:00:06

card是什么意思_cake是什么意思

2023-06-05 07:58:10

重大调整,周一生效!4000亿资金提前行动? 观热点

2023-06-05 06:45:31

焦点信息:宋燮(关于宋燮介绍)

2023-06-05 05:12:20

天天热讯:马云持有阿里巴巴多少股份_马云阿里巴巴股份占多少

2023-06-05 02:49:05

天天快资讯丨泰山海拔高度是多少米高_泰山海拔

2023-06-05 00:37:25

小考试题及答案大全_小考试题_环球看热讯

2023-06-04 22:41:42

什么花在晚上十一点开(晚上十一点开的花) 最新

2023-06-04 21:25:42

windows无法启动print spooler服务1068(windows无法启动print spooler服务)

2023-06-04 20:18:04

制造费用会计(制造费用会计分录)

2023-06-04 19:13:52

乘联会崔东树:中国新能源车出口要建设好欧洲市场的口碑和信誉 减少内耗

2023-06-04 18:16:19

刂字旁的字有哪些字字旁的字(饣字旁的字 饣字旁的字有哪些简介介绍)

2023-06-04 17:21:37

力王监狱之力王完整版国语版_力王之监狱力王国语

2023-06-04 16:09:20

天天看点:飞盘衰落,“小众网红运动”为何难长红?

2023-06-04 15:13:03

分类汇总的操作步骤包括_分类汇总的操作步骤_全球聚焦

2023-06-04 14:18:03

祝福祖国的一句话语_祝福祖国的一句话 焦点速讯

2023-06-04 13:47:17

今日播报!代写遗嘱的法律要件有何种

2023-06-04 12:20:46

feed流投放(feed 流)_当前播报

2023-06-04 11:09:47

巴拉克百科_巴拉克定律

2023-06-04 10:36:37

教师教学创新大赛【一等奖】创新成果报告分享(干货6篇) 天天微头条

2023-06-04 09:46:44

黄震怀揣着对事业的热爱,带领团队不断探索,勇攀技术新高峰 【奋斗者正青春】逐梦星河的航天青年

2023-06-04 08:56:00

国内最先进高铁隧道数智化管片开启试生产

2023-06-04 07:59:44

【独家】WWDC23:苹果可能宣布对“Siri”虚拟助手的重大更改

2023-06-04 06:15:25

每日快看:小孩子早餐吃什么好比较有营养的

2023-06-04 04:57:16