SyncTalk实验笔记
Face-Sync ControllerFacial Animation CapturerBlendshape的提取可参考
https://colab.research.google.com/github/googlesamples/mediapipe/blob/main/examples/face_landmarker/python/%5BMediaPipe_Python_Tasks%5D_Face_Landmarker.ipynb
Head-Sync StabilizerHead Motion Tracker
头部姿势,表示为 p,是指人的头部在 3D 空间中的旋转角度,由旋转 R 和平移 T 定义。
不稳定的头部姿势会导致头部抖动,所以为了获得头部姿势的粗略估计。首先,通过在预定范围内迭代 i 次来确定最佳焦距,对于每个焦距候选 fi,重新初始化旋转和平移值,目标是最小化 3D 可变形模型 (3DMM) 的投影地标与视频帧中的实际地标之间的误差。
其中 $E_i$ 表示的就是 MSE,这样能够以更好地将模型的投影 lmk 与实际视频 lmk 对齐,然后得到最优的旋转和平 ...
REAL3D-PORTRAIT ONE-SHOT REALISTIC 3D TALKING PORTRAIT SYNTHESIS
REAL3D-PORTRAIT: ONE-SHOT REALISTIC 3D TALKING PORTRAIT SYNTHESISPaper : https://arxiv.org/pdf/2401.08503.pdf
Project : https://real3dportrait.github.io/
Code : https://github.com/yerfor/Real3DPortrait
Rebuttal: https://real3dportrait.github.io/static/pages/rebuttal.html
摘要
(1) 研究背景:说话人像生成旨在根据驱动条件(动作序列或驱动音频)合成说话人像视频。这是一个计算机图形学和计算机视觉中长期存在的跨模态任务,具有视频会议和虚拟现实 (VR) 等多项实际应用。先前的 2D 方法可以产生逼真的视频,这要归功于生成对抗网络 (GAN) 的强大功能。然而,由于缺乏显式的 3D 建模,这些 2D 方法在头部大幅移动时会面临变形伪影和不真实的失真。在过去的几年中,基于神经辐射场 (NeRF) 的 3D ...
Blendshape学习笔记
Blendshapes泛指3D定点动画的制作方式 (Maya里面称之为 blend shapes ,而3DS Max里称之为morph targets) ,在3D动画中用的比较多,尤其是人脸动画的制作,通过blendshape来驱动角色的面部表情。
SyncTalk The Devil is in the Synchronization for Talking Head Synthesis
SyncTalk: The Devil is in the Synchronization for Talking Head SynthesisPaper : https://arxiv.org/abs/2311.17590
Project : https://ziqiaopeng.github.io/synctalk/
Video : https://ziqiaopeng.github.io/synctalk/#teaser
Code : https://github.com/ziqiaopeng/SyncTalk
摘要
神经辐射场 - 生成对抗网络框架用于实现说话人头部视频的同步合成。
(1)研究背景: 生成逼真的、由语音驱动的谈话头部视频是一项具有挑战性的任务。传统生成对抗网络(GAN)难以保持一致的面部身份,而神经辐射场(NeRF)方法虽然可以解决这个问题,但通常会产生不匹配的唇部动作、不充分的面部表情和不稳定的头部姿势。一个逼真的谈话头部需要同步协调主体身份、唇部动作、面部表情和头部姿势。缺乏这些同步是导致不真实和人工结果的根本缺陷。
(2)过去的方法及其问 ...
VividTalk One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior
VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid PriorPaper : https://arxiv.org/pdf/2312.01841.pdf
Project : https://humanaigc.github.io/vivid-talk/
Video : https://www.youtube.com/watch?v=lJVzt7JCe_4
Code : https://github.com/HumanAIGC/VividTalk (Maybe Comming Soon)
摘要
创新的两阶段框架 VividTalk 可生成高质量视觉效果的说话人头部视频,包括唇形同步、丰富的面部表情、自然的头部姿势等。
(1)音频驱动的说话头生成已经引起广泛关注,在唇形同步、面部表情、头部姿势生成和视频质量方面取得了进展。然而,由于音频和动作之间的一对多映射,还没有模型能够在所有这些指标上达到最优SOTA。(2)以往的方法通常使用混合形状Blendshape或顶点偏移verte ...
EMO Emote Portrait Alive - 阿里HumanAIGC
EMO: Emote Portrait Alive - 阿里HumanAIGC最近这一个星期,也就是2月28日的时候,阿里巴巴的HumanAIGC团队发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然,发布的视频效果非常好,好的几乎难以置信,特别是蔡徐坤唱rap的第一段,效果非常好。
EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。
所以我就想借此机会,学习一下EMO的大概框架,剖析一下里面的一些技术要点,首先给出论文的链接和代码链接,不过HumanAIGC已经很久没有开源代码了,不过技术方向还是值得一看的。
论文:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
项目:https: ...
Failed building wheel for PyAudio 解决方法
Failed building wheel for PyAudio 解决方法有时候在安装pyaudio的时候,总是有时候遇见一些错误,如下
12345678910111213141516171819202122232425262728293031 Building wheel for pyaudio (pyproject.toml) ... error error: subprocess-exited-with-error × Building wheel for pyaudio (pyproject.toml) did not run successfully. │ exit code: 1 ╰─> [18 lines of output] running bdist_wheel running build running build_py creating build creating build/lib.linux-x86_64-cpython-310 creating build/lib.linux- ...
3DGS综述以及对3DGS的理解:A Survey on 3D Gaussian Splatting
3DGS综述以及对3DGS的理解:A Survey on 3D Gaussian Splatting 今天想介绍的是`ZJU`带来的`3DGS`的首篇综述`A Survey on 3D Gaussian Splatting`
Arxiv学术论文查询接口详解
Arxiv学术论文查询接口详解 转载
这篇博客主要转载自:Arxiv学术论文查询接口详解,我觉得写的很好,所以我也不重新整理这一部分的API接口了。我后续使用这一部分的API接口来进行爬取得到最新的文章,还是非常方便的,所以也同时推荐给大家,能最快follow新文章
Arxiv API 允许以编程方式获取 https://arxiv.org 上的论文。API 的基本结构为:
1http://export.arxiv.org/api/{method_name}?{parameters}
查询接口查询接口的的 method_name 为 query,下面是查询方法的参数,参数之间以 & 分隔。
parameters
type
defaults
required
search_query
string
None
No
id_list
comma-delimited string(以 ‘,’ 分隔的字符串)
None
No
start
int
0
No
max_results
int
10
No
参数说明
如果 API 只包含 search_que ...
开机自启动登录/认证脚本设置(SZU为例)
开机自启动登录/认证前沿有时候在学校或者在企业的时候,会出现这样一种情况,就是我们需要认证才能够上网,但是这种认证并不是非常稳定,有可能会出现断连的情况
包括有时候电脑关机后自启后也会断掉,针对这种情况,我介绍一种开机自启动登录/认证的脚本,这样能不断的保证联网
开机自启动目录首先,我们既然向进行开机自启动,那么我就需要找到开机自启动目录
在Windows中想要开机自启动某些应用,可以把程序的快捷方式放到开始菜单->程序->启动目录下,但是自启动又分为用户自启动和系统自启动,前者针对单个用户,后者针对全部用户生效。
用户自启动目录:C:\Users\Administrator\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\Startup
系统自启动目录:C:\ProgramData\Microsoft\Windows\Start Menu\Programs\StartUp
这里要根据用户名进行设置和修改,但是当然有更简单的方法对吧,如下,我也推荐这样的方式自动打开我们的开机自启动目录。
快捷命令:按下【wi ...