SAM Audio：每个创作者都在等待的统一、多模式声音编辑器

什么是 SAM Audio？为什么创作者应该关注它#

如果你曾经尝试过在嘈杂的交通环境中清理对话，从现场混音中提取吉他声线，或者在画外音中消除咳嗽声，你就会知道音频编辑有多么复杂。SAM Audio 是 Meta 新推出的统一 AI 模型，用于精确的声音分离，满足创作者的工作需求。无需使用多个小众插件或手动重新绘制波形，SAM Audio 即可让你使用直观的提示（文本、视觉或标记的时间跨度）从复杂的混合音中隔离、移除和重新混合声音。

与为单一狭窄任务而构建的传统工具（例如，仅用于人声消除或降噪）不同，SAM Audio 被设计为一个单一、灵活的系统，可以适应多种场景。对于内容创作者来说，这意味着更少的技术障碍、更快的修复以及更多的故事讲述空间。简而言之，SAM Audio 承诺提供易于访问、快速且多模式的专业级声音控制。

根据 Meta 的公告，SAM Audio 可以在 Segment Anything Playground 中下载和试用，这使其成为一个实用的工具，你可以在当前的工作流程中快速测试（来源：about.fb.com）。第三方报道也表明，该系统通过统一的方法达到了最先进的性能，取代了大多数编辑今天依赖的几个单一用途工具（来源：marktechpost.com）。

SAM Audio 解决的问题#

声音是混乱的。现实世界的音频混音通常包含重叠的事件——人声、乐器、环境声、效果——使得在不损害其他元素的情况下，很难以外科手术般的方式移除或增强一个元素。传统的工作流程通常需要：

多个专门的插件链接在一起
耗时的手动编辑（绘制频谱图、自动化 EQ、门限/扩展）
反复试验导出才能获得可接受的结果

SAM Audio 通过提供一个单一模型来解决这种碎片化问题，该模型可以使用自然语言、屏幕点击或时间跨度选择来执行分离。对于创作者来说，这意味着更少的应用程序、更少的失败尝试，以及来自一个统一工具的更可预测的结果。

关键概念：SAM Audio 中的多模式提示#

SAM Audio 的突出能力在于其提示的灵活性。你可以使用以下方式引导模型：

文本提示：输入你想要隔离或移除的内容，例如"狗叫"、"主唱"、"掌声"或"房间噪音"。
视觉提示：点击视频帧中的对象——例如摩托车或歌手——SAM Audio 会推断出混音中相关的声音。
跨度提示：在时间线上标记一个时间范围，以定位在该时间间隔内突出的声音。

总之，这些选项让你能够以你自然思考的方式描述你的意图：通过命名、指向或突出显示。对于混合音频-视频工作流程，视觉提示尤其强大；它将你所看到的与你需要听到的联系起来。

幕后花絮：SAM Audio 的工作原理（通俗易懂）#

对于那些欣赏幕后发生的事情的创作者来说，SAM Audio 结合了专门的编码器和生成核心：

多模式编码器：专用编码器解释音频混合、文本指令、任何标记的时间跨度以及来自视频的可选视觉提示。这有助于 SAM Audio"理解"声音中的内容以及你想要从中获得的内容。
扩散转换器：生成骨干通过多个步骤改进分离，帮助模型以高保真度分离重叠的事件。
DACVAE 解码器：最后阶段从模型的内部表示中重建干净的波形，从而提供隔离的"目标"音频和互补的"残余"。

结果呢？SAM Audio 可以输出两个同步的音轨：

target（目标）：你要求的音效
residual（残余）：混合音中的其他所有内容

这种输出设计使编辑变得直观：保留目标，保留残余，混合两者，或以不同的方式处理每个音轨以实现电影级的控制。

模型大小、变体和性能#

SAM Audio 提供多种尺寸，以满足你的硬件和速度需求：

sam-audio-small
sam-audio-base
sam-audio-large

对于严重依赖视频驱动的声音选择的工作流程，还有额外的 tv 变体，可以在使用视觉提示时提高性能。根据报告的主观评估，分数因类别而异（例如，一般效果、语音、音乐、乐器），其中 sam-audio-large 在几项测试中获得了最高分——在 Instr(pro) 类别中高达 4.49——表明专业材料具有强大的分离质量（来源：marktechpost.com）。

还有一个配套的评估模型 sam-audio-judge，旨在帮助自动对分离结果进行评分。虽然创作者仍然会相信他们的耳朵，但像 sam-audio-judge 这样的工具可以加快 QA、批量测试或 A/B 比较。

你可以使用 SAM Audio 做什么：真实的创作者场景#

SAM Audio 旨在适应各种创意学科。以下是不同角色的实用工作流程：

视频创作者和编辑
- 使用"叙述者声音"文本提示从嘈杂的街道中提取对话，然后降低残余的街道噪音。
- 点击屏幕上的车辆以分离发动机声音并在混音中独立控制它们。
- 从体育赛事镜头中隔离人群反应，以强调精彩片段中的观众能量。
播客和采访者
- 使用跨度提示来清理定义的时间窗口内的咳嗽、电话嗡嗡声或麦克风碰撞声。
- 将主持人和嘉宾的声音提取到单独的目标音轨中，以实现一致的压缩和 EQ。
- 在保留声音温暖的同时，通过混合目标和残余来消除 HVAC 嗡嗡声或咖啡馆氛围。
音乐家和制作人
- 使用"主唱"或"底鼓"等文本提示从演示混音中分离人声或鼓声。
- 将残余创造性地用作重新编排、混音或备用录音的"减一"背景。
- 提取吉他声线以与效果分层，用于创意声音设计。
配音演员和旁白
- 在没有严重门限伪影的情况下，将朗读与房间噪音隔离。
- 使用跨度提示来移除在特定时刻发生的咔哒声、嘴唇噪音或翻页声。
- 向客户提供干净的目标音频，同时在需要时提供残余音轨以保留氛围。
运动设计师和 VFX 艺术家
- 点击视频中的动画元素以增强或风格化其对应的声音。
- 使用文本提示来查找和增强微妙的 Foley（布料、脚步声），而无需重新录制。
研究人员和教育工作者
- 分割声音事件以进行分析、标记或数据集准备。
- 通过将复杂的真实世界录音划分为可理解的层来研究听觉场景。
无障碍和辅助音频
- 强调教育内容或音频描述音轨的语音清晰度。
- 与 Starkey 和 2gether-International 等组织的合作表明，对听力和无障碍应用程序的持续探索（来源：theregister.com）。

在所有这些情况下，SAM Audio 集中了过去需要多个工具才能完成的工作，从而可以更快地迭代和更自信地进行编辑。

实践操作：如何在 Segment Anything Playground 中使用 SAM Audio#

探索 SAM Audio 的最快方法是在 Segment Anything Playground 中试用它。这是一个对创作者友好的演练：

准备你的来源
- 使用来自你项目的短测试片段（10-60 秒）。混合对话、音乐或氛围都可以。
- 如果使用视频，请确保它具有同步音频；这会解锁视觉提示。
选择你的提示模式
- 文本：描述目标，如"掌声"、"主唱"、"汽车喇叭"或"脚步声"。
- 视觉：暂停在帧上，点击对象（例如，歌手、狗、摩托车）以引导 SAM Audio 找到正确的声音源。
- 跨度：在时间线上拖动以突出显示问题区域（例如，00:23-00:25 之间的咳嗽）。
运行分离
- 启动处理并预览模型的"目标"和"残余"输出。
- 在仅目标、仅残余和混合播放之间切换以评估结果。
优化提示
- 如果目标包含不需要的溢出，请锐化文本提示或添加跨度提示以专注于源最干净的时刻。
- 对于视频，调整你的视觉点击以更好地匹配可听的声音源。
导出以进行编辑
- 将目标和残余导出为单独的音轨。
- 将两者都导入到你的 NLE 或 DAW（Premiere Pro、Final Cut、Resolve、Pro Tools、Reaper 等）中。
- 独立混合、EQ 或压缩目标；使用残余来保持自然氛围。
版本和比较
- 尝试多个提示变体并记下听起来最好的一个。
- 如果可用，请使用 sam-audio-judge 或你自己的参考测试来量化改进。

通过这个循环，SAM Audio 成为一种创造性的扩展，而不是一个黑匣子——提问、倾听、优化、导出。

本地设置：在你的机器上使用 SAM Audio#

当你准备好将 SAM Audio 集成到生产中时：

下载适当的模型大小
- 从 sam-audio-base 开始，以获得平衡的速度和质量；对于关键工作或高端硬件，请移至 sam-audio-large；对于快速草稿，请使用 sam-audio-small。
选择一个框架
- 使用官方实现或 Python 中受支持的库，该库具有简单的 API，用于运行推理和处理目标/残余输出。
构建你的管道
- 摄取：加载你的媒体，可以选择从视频中提取音频。
- 提示：从你的 NLE/DAW 时间线中选择文本、视觉（带有帧采样）或跨度范围。
- 分离：运行 SAM Audio 推理以生成目标和残余。
- 后期：将你的标准处理链（EQ、压缩、混响、降噪）应用于目标；可以选择与残余混合以获得真实感。
- 导出：渲染 stems 并存档提示以实现可重复性。
自动化批量任务
- 对于播客或网络系列，使用一致的提示（例如，"主持人声音"、"房间噪音"）编写批量运行脚本，以保持整个剧集的声音统一。
监控质量
- 使用耳机和扬声器抽查关键时刻。
- 在适用的情况下，将主观听力与自动评分相结合。

通过目标/残余输出解锁的编辑技巧#

SAM Audio 的双音轨设计为创作者提供了精细的控制：

非破坏性清理
- 保持对话下的残余较低，以在没有刺耳门限的情况下保留声音空间。
创意混音
- 仅使用目标来重建编排；将残余与效果分层以获得纹理背景。
精确闪避
- 通过在语音出现的确切位置衰减残余来从对话中侧链音乐。
声音替换
- 从残余中移除有问题的 SFX，并用更干净的库资源替换它。

这些操作更快、更可靠，因为 SAM Audio 隔离了你要求的"什么"声音，而不是迫使你使用 EQ、门限或窄带噪声印记来围绕它进行雕刻。

产生更好结果的提示技巧#

像任何 AI 辅助工具一样，SAM Audio 对清晰的指导反应最佳：

在文本提示中具体说明
- "女性主唱"优于"人声"，"单手拍手"优于"拍手"。
组合提示
- 在声音最清晰的发生期间，将文本描述与跨度提示配对。
将视觉提示用于混合源
- 在视频中，点击对象有助于 SAM Audio 消除重叠声音的歧义。
快速迭代
- 尝试两到三个提示措辞；通过耳朵和响度一致性选择最佳措辞。

性能、限制和真实感#

报告强调了许多类别中的强大结果，尤其是对于较大的模型。尽管如此，SAM Audio 并不是魔法：

高度相似的事件可能具有挑战性
- 分离两个几乎相同的乐器以齐奏方式演奏可能会产生串音。
密集的合奏抵抗隔离
- 从完整的管弦乐队或高度压缩的混音中提取一种乐器本质上是困难的。
提示约束
- SAM Audio 不使用音频剪辑作为提示；依靠文本、跨度和视觉指导。
伦理和安全
- 媒体报道提出了对潜在滥用的担忧（例如，窥探），强调需要在生产工作流程中进行负责任的部署和明确的同意（来源：theregister.com）。

尽管存在限制，但统一的方法和多模式提示使 SAM Audio 成为大多数真实世界编辑任务的实用升级。

SAM Audio 在你的工具链中的位置#

SAM Audio 不是取代你的 DAW 或 NLE，而是对它们进行补充：

预编辑清理
- 首先分离目标对话，然后应用 EQ 和压缩，减少伪影。
中期编辑增强
- 隔离声音效果以戏剧化剪切或过渡，而不会混淆混音。
最终润色
- 使用残余平衡来获得自然氛围，而不是进行大量降噪。

对于协作团队，共享目标/残余 stems 以及描述你的提示的标记。这可以加快修订速度并保持创意意图的透明度。

充分利用模型变体#

为你的项目选择正确的 SAM Audio 变体：

sam-audio-small
- 快速草稿、社交剪辑和临时混音。
sam-audio-base
- 日常剧集、教程和品牌内容。
sam-audio-large
- 细微差别很重要的高风险电影、音乐或广播项目。
tv 变体
- 视觉提示对你的工作流程至关重要的视频繁重的项目。

如果你的 GPU 受到限制，请从小处着手进行构思，然后使用 sam-audio-large 重新运行关键场景以进行最终母带制作。

一个快速的从头到尾的例子#

想象一下在户外拍摄的 3 分钟采访，附近有交通和街头艺人。

在 Playground 中，加载视频并使用文本提示："受访者声音"。
在说话者被隔离的句子上添加一个跨度提示，以获得最佳提示。
预览目标（声音）和残余（其他一切）。如果吉他串音，请添加第二个通道，以"原声吉他"作为目标来创建单独的 stem。
导出 stems。在你的 NLE/DAW 中，压缩并消除声音目标的嘶嘶声；向残余添加轻微的 NR；巧妙地混合残余以获得自然空间。
渲染最终版本，其中包含更清晰的对话和受控的氛围——无需重新拍摄、无需 ADR、无需大量频谱手术。

SAM Audio 使此管道快速、可重复且可教给整个团队。

负责任的使用和创意完整性#

能力越大，责任越大。始终：

确保你处理的每个来源都获得许可。
避免使用 SAM Audio 来隔离或增强私人对话或未经同意的录音。
为客户和合作者记录你的提示和理由。
交叉检查编辑是否存在可能歪曲性能或意图的伪影。

SAM Audio 提供了巨大的创意优势，但最佳实践是将它与道德护栏和透明的工作流程配对。

SAM Audio 与传统工具的比较#

范围
- 传统：单一用途（人声移除、噪声降低）。
- SAM Audio：涵盖许多分离任务的统一模型。
控制
- 传统：参数繁重，通常是技术性的。
- SAM Audio：自然提示——文本、视觉、跨度。
输出
- 传统：通常是一个增强的音轨。
- SAM Audio：目标和残余，用于灵活的混合。
学习曲线
- 传统：对于非工程师来说更陡峭。
- SAM Audio：直观的提示缩短了入门时间。

对于创作者来说，关键很简单：SAM Audio 可以节省每个项目的时间，并解锁曾经在紧张的截止日期下不切实际的编辑。

立即试用#

你可以在 Segment Anything Playground 中立即探索 SAM Audio，并下载模型以进行本地工作（来源：about.fb.com）。如果你是 AI 音频的新手，请从短片上的 playground 提示开始。如果你经验丰富，请将 SAM Audio 连接到你的摄取或对话编辑链中，并根据你当前的插件对结果进行基准测试。

来源#

Meta 公告："我们新的 SAM Audio 模型改变了音频编辑"（about.fb.com）
技术概述和评估："Meta AI 发布 SAM Audio…"（marktechpost.com）
合作伙伴关系、伦理和限制："Meta SAM AI Audio"（theregister.com）

通过以创作者思考的方式处理声音——描述它、指向它或标记它——SAM Audio 使复杂的分离变得简单。它是一个统一的模型，可以帮助你隔离重要内容、更快地移动并保持你的创造力。