什麼是 SAM Audio?創作者為何應該關注?#
如果您曾經嘗試在交通噪音下清理對話、從現場混音中提取吉他聲線,或是在配音過程中消除咳嗽聲,您就會知道音訊編輯有多麼複雜。SAM Audio 是 Meta 全新的統一 AI 模型,用於精確的聲音分離,滿足創作者的需求。SAM Audio 讓您可以使用直觀的提示(文字、視覺或標記的時間範圍)從複雜的混合音訊中隔離、移除和重新混合聲音,而無需使用多個小眾外掛程式或手動重新繪製波形。
與專為單一狹隘工作而設計的傳統工具(例如,僅用於人聲移除或降噪)不同,SAM Audio 被設計為一個單一、靈活的系統,可以適應多種場景。對於內容創作者來說,這意味著更少的技術障礙、更快的修復以及更多的空間來進行故事講述。簡而言之,SAM Audio 承諾提供易於使用、快速且多模式的專業級聲音控制。
根據 Meta 的公告,SAM Audio 可以在 Segment Anything Playground 中下載和試用,使其成為您可以在當前工作流程中快速測試的實用工具(來源:about.fb.com)。第三方報導也表明,該系統採用統一的方法,達到了最先進的性能,取代了大多數編輯人員今天依賴的幾個單一用途工具(來源:marktechpost.com)。
SAM Audio 解決的問題#
聲音是混亂的。真實世界的音訊混音通常包含重疊的事件——人聲、樂器、環境、效果——使得很難在不損害其他元素的情況下,有選擇性地移除或增強一個元素。傳統的工作流程通常需要:
- 多個專用外掛程式鏈接在一起
- 耗時的手動編輯(繪製頻譜圖、自動化 EQ、閘門/擴展)
- 反覆試驗導出才能獲得可接受的結果
SAM Audio 透過提供一個單一模型來解決這種碎片化問題,該模型可以使用自然語言、螢幕點擊或時間範圍選擇來執行分離。對於創作者來說,這意味著更少的應用程式、更少的失敗嘗試,以及來自一個統一工具的更可預測的結果。
關鍵概念:SAM Audio 中的多模式提示#
SAM Audio 的突出能力是其提示靈活性。您可以使用以下方式引導模型:
- 文字提示:輸入您想要隔離或移除的內容,例如「狗叫」、「主唱」、「掌聲」或「環境音」。
- 視覺提示:點擊影片畫面中的物件——例如摩托車或歌手——SAM Audio 會推斷混音中相關的聲音。
- 範圍提示:在時間軸上標記一個時間範圍,以鎖定在該時間間隔內突出的聲音。
總之,這些選項讓您可以按照您自然思考的方式描述您的意圖:透過命名、指向或突出顯示。對於混合音訊-影片工作流程,視覺提示尤其強大;它將您所看到的與您需要聽到的內容聯繫起來。
幕後花絮:SAM Audio 的工作原理(以簡單的語言)#
對於欣賞幕後花絮的創作者來說,SAM Audio 結合了專用編碼器和生成核心:
- 多模式編碼器:專用編碼器解釋音訊混合、文字指令、任何標記的時間範圍以及來自影片的可選視覺提示。這有助於 SAM Audio「理解」聲音中的內容以及您想要從中獲得的內容。
- 擴散轉換器:生成骨幹在多個步驟中完善分離,幫助模型以高保真度分離重疊的事件。
- DACVAE 解碼器:最後階段從模型的內部表示中重建乾淨的波形,提供隔離的「目標」音訊和互補的「殘餘」音訊。
結果呢?SAM Audio 可以輸出兩個同步的音軌:
- 目標:您要求的聲音
- 殘餘:混合音訊中的所有其他內容
這種輸出設計使編輯變得直觀:保留目標、保留殘餘、混合兩者,或以不同的方式處理每個音軌以實現電影級控制。
模型大小、變體和性能#
SAM Audio 提供多種大小,以滿足您的硬體和速度需求:
- sam-audio-small
- sam-audio-base
- sam-audio-large
對於嚴重依賴影片驅動聲音選擇的工作流程,還有額外的 tv 變體,可以在使用視覺提示時提高性能。根據報告的主觀評估,分數因類別而異(例如,一般效果、語音、音樂、樂器),其中 sam-audio-large 在多項測試中獲得最高分——在 Instr(pro) 類別中高達 4.49——表明專業材料具有很強的分離品質(來源:marktechpost.com)。
還有一個配套的評估模型 sam-audio-judge,旨在幫助自動評估分離結果。雖然創作者仍然會相信他們的耳朵,但像 sam-audio-judge 這樣的工具可以加快 QA、批量測試或 A/B 比較。
您可以使用 SAM Audio 做什麼:真實的創作者場景#
SAM Audio 旨在適用於各種創意學科。以下是不同角色的實用工作流程:
-
影片創作者和編輯
- 使用「旁白聲音」文字提示從嘈雜的街道中提取對話,然後降低殘餘的街道噪音。
- 點擊螢幕上的車輛以分離引擎聲音並在混音中獨立控制它們。
- 從體育影片中隔離人群反應,以強調精彩片段中的觀眾能量。
-
Podcast 製作人和採訪者
- 使用範圍提示來清理定義時間範圍內的咳嗽聲、電話嗡嗡聲或麥克風碰撞聲。
- 將主持人和來賓的聲音提取到單獨的目標音軌中,以實現一致的壓縮和 EQ。
- 在保留聲音溫暖的同時,移除 HVAC 嗡嗡聲或咖啡廳環境音,方法是混合目標和殘餘。
-
音樂家和製作人
- 使用「主唱」或「底鼓」等文字提示從演示混音中分離人聲或鼓聲。
- 將殘餘創造性地用作重新編曲、混音或備用錄音的「減一」背景。
- 提取吉他聲線以與效果分層,以進行創意聲音設計。
-
配音員和旁白
- 在沒有嚴重閘門偽影的情況下,將朗讀與房間噪音隔離。
- 使用範圍提示來移除在特定時刻發生的點擊聲、嘴唇噪音或翻頁聲。
- 向客戶提供乾淨的目標音訊,同時在需要時提供殘餘音軌以保留環境音。
-
動畫設計師和 VFX 藝術家
- 點擊影片中的動畫元素以增強或風格化其相應的聲音。
- 使用文字提示來查找和增強微妙的 Foley(布料、腳步聲),而無需重新錄製。
-
研究人員和教育工作者
- 分割聲音事件以進行分析、標記或資料集準備。
- 透過將複雜的真實世界錄音劃分為可理解的層來研究聽覺場景。
-
無障礙和輔助音訊
- 強調教育內容或音訊描述音軌的語音清晰度。
- 與 Starkey 和 2gether-International 等組織的合作表明,對聽力和無障礙應用程式的持續探索(來源:theregister.com)。
在所有這些情況下,SAM Audio 都集中了過去需要多個工具才能完成的工作,從而實現更快的迭代和更自信的編輯。
實踐:如何在 Segment Anything Playground 中使用 SAM Audio#
探索 SAM Audio 的最快方法是在 Segment Anything Playground 中試用它。以下是創作者友好的演練:
-
準備您的來源
- 使用專案中的短測試片段(10-60 秒)。混合對話、音樂或環境音都可以。
- 如果使用影片,請確保它具有同步音訊;這會解鎖視覺提示。
-
選擇您的提示模式
- 文字:描述目標,例如「掌聲」、「主唱」、「汽車喇叭」或「腳步聲」。
- 視覺:在畫面上暫停,點擊物件(例如,歌手、狗、摩托車)以引導 SAM Audio 找到正確的聲音來源。
- 範圍:在時間軸上拖動以突出顯示問題區域(例如,00:23-00:25 之間的咳嗽聲)。
-
執行分離
- 啟動處理並預覽模型的「目標」和「殘餘」輸出。
- 在僅目標、僅殘餘和混合播放之間切換以評估結果。
-
完善提示
- 如果目標包含不需要的溢出,請銳化文字提示或新增範圍提示以專注於來源最乾淨的時刻。
- 對於影片,調整您的視覺點擊以更好地匹配可聽見的來源。
-
匯出以進行編輯
- 將目標和殘餘匯出為單獨的音軌。
- 將兩者都匯入您的 NLE 或 DAW(Premiere Pro、Final Cut、Resolve、Pro Tools、Reaper 等)。
- 獨立混合、EQ 或壓縮目標;使用殘餘來維持自然環境音。
-
版本和比較
- 嘗試多個提示變體並記下聽起來最好的變體。
- 如果可用,請使用 sam-audio-judge 或您自己的參考測試來量化改進。
透過這個迴圈,SAM Audio 成為一種創造性的延伸,而不是一個黑盒子——提問、聆聽、完善、匯出。
本機設定:在您的機器上使用 SAM Audio#
當您準備好將 SAM Audio 整合到生產中時:
-
下載適當的模型大小
- 從 sam-audio-base 開始,以獲得平衡的速度和品質;對於關鍵工作或高階硬體,請移至 sam-audio-large;對於快速草稿,請使用 sam-audio-small。
-
選擇一個框架
- 使用官方實作或 Python 中支援的函式庫,其中包含一個簡單的 API,用於執行推論和處理目標/殘餘輸出。
-
建構您的管道
- 擷取:載入您的媒體,可選擇從影片中提取音訊。
- 提示:從您的 NLE/DAW 時間軸中選擇文字、視覺(帶有幀採樣)或範圍範圍。
- 分離:執行 SAM Audio 推論以生成目標和殘餘。
- 後期:將您的標準處理鏈(EQ、壓縮、混響、降噪)應用於目標;可選擇與殘餘混合以獲得真實感。
- 匯出:渲染音軌並封存提示以實現可重複性。
-
自動化批次任務
- 對於 Podcast 或網路連續劇,使用一致的提示(例如,「主持人聲音」、「房間音」)編寫批量執行腳本,以保持各集之間的聲音一致。
-
監控品質
- 使用耳機和揚聲器抽查關鍵時刻。
- 在適用的情況下,將主觀聆聽與自動評分相結合。
透過目標/殘餘輸出解鎖的編輯技巧#
SAM Audio 的雙音軌設計讓創作者可以精細控制:
- 非破壞性清理
- 保持對話下的殘餘較低,以在沒有刺耳閘門的情況下保留聲音空間。
- 創意混音
- 僅使用目標來重建編曲;將殘餘與效果分層以獲得紋理背景。
- 精確閃避
- 透過在語音出現的精確位置衰減殘餘來從對話中側鏈音樂。
- 聲音替換
- 從殘餘中移除有問題的 SFX,並用更乾淨的函式庫資產替換它。
這些技巧更快、更可靠,因為 SAM Audio 會隔離您要求的聲音「內容」,而不是強迫您使用 EQ、閘門或窄頻噪音列印在其周圍進行雕刻。
產生更好結果的提示技巧#
與任何 AI 輔助工具一樣,SAM Audio 對於明確的指導反應最佳:
- 在文字提示中具體說明
- 「主唱女聲」優於「人聲」,「單手拍手」優於「拍手」。
- 結合提示
- 在聲音最清晰出現期間,將文字描述與範圍提示配對。
- 對於混合來源,使用視覺提示
- 在影片中,點擊物件有助於 SAM Audio 消除重疊的聲音。
- 快速迭代
- 嘗試兩到三個提示措辭;透過耳朵和響度一致性選擇最佳措辭。
性能、限制和真實感#
報告強調了許多類別的強勁結果,尤其是較大的模型。儘管如此,SAM Audio 並非魔法:
- 高度相似的事件可能具有挑戰性
- 分離兩個以 unison 方式播放的幾乎相同的樂器可能會產生滲漏。
- 密集的合奏抵抗隔離
- 從完整的管弦樂隊或經過大量壓縮的混音中提取一種樂器本質上很困難。
- 提示約束
- SAM Audio 不使用音訊片段作為提示;依賴文字、範圍和視覺指導。
- 倫理和安全
- 媒體報導提出了對潛在濫用(例如,窺探)的擔憂,強調需要在生產工作流程中進行負責任的部署和明確的同意(來源:theregister.com)。
儘管存在限制,但統一的方法和多模式提示使 SAM Audio 成為大多數真實世界編輯任務的實用升級。
SAM Audio 在您的工具鏈中的位置#
SAM Audio 不是取代您的 DAW 或 NLE,而是對它們進行補充:
- 預編輯清理
- 首先分離目標對話,然後應用 EQ 和壓縮,減少偽影。
- 中期編輯增強
- 隔離聲音效果以戲劇化剪輯或轉場,而不會混淆混音。
- 最後潤飾
- 使用殘餘平衡來獲得自然環境音,而不是大量降噪。
對於協作團隊,請分享目標/殘餘音軌以及描述您的提示的標記。這可以加快修訂速度並保持創意意圖透明。
充分利用模型變體#
為您的專案選擇正確的 SAM Audio 變體:
- sam-audio-small
- 快速草稿、社交片段和臨時混音。
- sam-audio-base
- 日常劇集、教學課程和品牌內容。
- sam-audio-large
- 關係重大的電影、音樂或廣播專案,其中細微差別很重要。
- tv 變體
- 視覺提示對您的工作流程至關重要的影片繁重專案。
如果您受到 GPU 限制,請從小處著手進行構思,然後使用 sam-audio-large 重新執行關鍵場景以獲得最終母帶。
從頭到尾的快速範例#
想像一下在戶外拍攝的 3 分鐘採訪,附近有交通和街頭藝人。
- 在 Playground 中,載入影片並使用文字提示:「受訪者聲音」。
- 在說話者被隔離的句子上新增一個範圍提示,以獲得最佳提示。
- 預覽目標(聲音)和殘餘(所有其他內容)。如果吉他滲入,請新增第二次傳遞,以「原聲吉他」作為目標來建立單獨的音軌。
- 匯出音軌。在您的 NLE/DAW 中,壓縮並消除聲音目標;對殘餘新增輕微的 NR;巧妙地混合殘餘以獲得自然空間。
- 渲染具有更乾淨對話和受控環境音的最終版本——無需重新拍攝、無需 ADR、無需大量頻譜手術。
SAM Audio 使此管道快速、可重複且可教給整個團隊。
負責任的使用和創意完整性#
能力越大,責任越大。始終:
- 確保您處理的每個來源都獲得許可。
- 避免使用 SAM Audio 來隔離或增強私人對話或未經同意的錄音。
- 為客戶和協作者記錄您的提示和理由。
- 交叉檢查編輯中的偽影,這些偽影可能會錯誤地表示性能或意圖。
SAM Audio 提供了巨大的創意優勢,但最佳實踐是將其與道德護欄和透明的工作流程配對。
SAM Audio 與傳統工具的比較#
- 範圍
- 傳統:單一用途(人聲移除、噪音降低)。
- SAM Audio:涵蓋許多分離任務的統一模型。
- 控制
- 傳統:參數繁重,通常是技術性的。
- SAM Audio:自然提示——文字、視覺、範圍。
- 輸出
- 傳統:通常是一個增強的音軌。
- SAM Audio:目標和殘餘,用於靈活混合。
- 學習曲線
- 傳統:對於非工程師來說更陡峭。
- SAM Audio:直觀的提示縮短了入門時間。
對於創作者來說,要點很簡單:SAM Audio 可以節省每個專案的時間,並解鎖曾經在緊迫的期限內不切實際的編輯。
立即試用#
您可以立即在 Segment Anything Playground 中探索 SAM Audio,並下載模型以進行本機工作(來源:about.fb.com)。如果您是 AI 音訊的新手,請從短片段上的 Playground 提示開始。如果您經驗豐富,請將 SAM Audio 連接到您的擷取或對話編輯鏈中,並根據您目前的外掛程式對結果進行基準測試。
來源#
- Meta 公告:「我們的新 SAM Audio 模型改變了音訊編輯」(about.fb.com)
- 技術概述和評估:「Meta AI 發布 SAM Audio…」(marktechpost.com)
- 合作夥伴關係、倫理和限制:「Meta SAM AI 音訊」(theregister.com)
透過以創作者思考的方式處理聲音——描述它、指向它或標記它——SAM Audio 使複雜的分離變得簡單。它是一個統一的模型,可幫助您隔離重要內容、更快地移動並保持您的創意動力。



