Question 1

什么是 Live Avatar？

Accepted Answer

Live Avatar 是一种 AI 模型，可从单张图像和音频输入生成逼真的说话头像视频。它可以创建自然的唇部同步、面部表情和与提供的语音音频相匹配的可选手势。

Question 2

哪种图片效果最好？

Accepted Answer

使用清晰的、正面朝向的肖像，并且面部清晰可见。良好的光照至关重要。拍摄对象应具有中性或自然的表情 - 极端的表情可能会产生意想不到的结果。高分辨率图像可提供更好的质量输出。

Question 3

需要什么音频质量？

Accepted Answer

使用没有大量背景噪音或音乐的清晰语音录音。WAV 提供最佳质量，但 MP3 的效果也不错。自然的语速和清晰的发音会产生最逼真的唇部同步效果。

Question 4

应该使用多少个片段？

Accepted Answer

使片段与您的音频长度匹配。每个片段大约 3 秒，因此 30 秒的音频大约需要 10 个片段。使用少于所需的片段会截断您的视频；使用更多片段会生成额外的动画时间。

Question 5

提示有什么作用？

Accepted Answer

提示会指导头像的行为和场景上下文。它会影响手势、表情和整体动画风格。诸如“自信的演讲者，带有微妙的手部动作”之类的详细提示比通用描述产生更定制的结果。

Question 6

什么是加速选项？

Accepted Answer

“无”提供具有完整细节的最高质量。“轻微”略微加快生成速度，且质量损失最小。“常规”和“高”逐渐用质量换取速度 - 对于预览或需要快速迭代时很有用。

Question 7

生成需要多长时间？

Accepted Answer

生成时间取决于片段数量和加速设置。典型的时间范围从具有高加速的短视频的 30 秒到具有无加速的较长视频的 3 分钟以上。

Question 8

输出格式是什么？

Accepted Answer

Live Avatar 输出具有同步音频的 MP4 视频文件。视频保持原始音频质量，并添加生成的视觉内容，并具有平滑的帧过渡。

Question 9

我可以将它用于商业项目吗？

Accepted Answer

是的，您可以将生成的视频用于商业用途，前提是您拥有源图像和音频的权利。这非常适合营销视频、培训内容、演示文稿和业务沟通。

Question 10

Live Avatar 的费用是多少？

Accepted Answer

定价为每秒 2 个积分。一个 10 片段的视频（~30 秒）需要 60 个积分。这种基于积分的系统使您可以根据您的内容需求来扩展使用量。

Question 11

什么构成一个好的提示？

Accepted Answer

包括设置、人物风度和手势风格。示例：“一位冷静发言的专业演讲者，手势最少”或“一位热情洋溢的发言人，带有富有表现力的手部动作”。具体说明情绪和能量水平。

Question 12

我可以生成长视频吗？

Accepted Answer

是的，通过增加片段数量，您可以创建超过一分钟的视频。20 个片段大约产生 60 秒。对于更长的内容，请考虑将其分解为多个片段。

模型	Live Avatar
输入图片	JPG, PNG, WebP
输入音频	WAV, MP3
片段时长	~3 秒
每个片段的帧数	48 (默认)
可用片段	5, 10, 15, 20+
加速	无, 轻微, 常规, 高
输出格式	MP4
处理时间	30-180 秒
提示长度	最多 500 个字符

Live Avatar - AI 说话头像生成器

Save Your Creations

Community Showcase

Live Avatar 能做什么？

音频驱动的唇形同步

自然的表情

提示引导的行为

灵活的持续时间控制

质量-速度平衡

快速处理

高质量输出

如何使用 Live Avatar

上传头像图片

上传音频文件

编写您的提示

选择片段数量

选择加速

生成视频

Frequently Asked Questions