SAM Audio：すべてのクリエイターが待ち望んでいた統合されたマルチモーダルサウンドエディター

SAM Audioとは何か？—なぜクリエイターは注目すべきか#

交通騒音の中でダイアログをきれいにしたり、ライブミックスからギターのラインを取り出したり、ボイスオーバーの途中で咳を消したりしたことがあるなら、オーディオ編集がいかに複雑かご存知でしょう。SAM Audioは、Metaの新しい統合AIモデルで、クリエイターが作業する場所で正確なサウンド分離を実現します。複数のニッチなプラグインを使い分けたり、波形を手作業で塗り直したりする代わりに、SAM Audioを使用すると、直感的なプロンプト（テキスト、ビジュアル、またはマークされた時間範囲）を使用して、複雑な混合物からサウンドを分離、削除、およびリミックスできます。

1つの狭いジョブ（たとえば、ボーカルの削除やノイズリダクションのみ）用に構築された従来のツールとは異なり、SAM Audioは、多くのシナリオに適応する単一の柔軟なシステムとして設計されています。コンテンツクリエイターにとって、これは技術的な障害が減り、修正が速くなり、ストーリーテリングのための余裕が増えることを意味します。つまり、SAM Audioは、アクセスしやすく、高速で、マルチモーダルなプログレードのサウンドコントロールを約束します。

Metaの発表によると、SAM AudioはSegment Anything Playgroundでダウンロードして試すことができ、現在のワークフローで迅速にテストできる実用的なツールとして位置付けられています（出典：about.fb.com）。サードパーティのカバレッジでは、このシステムは、ほとんどのエディターが今日依存しているいくつかの単一目的ツールを置き換える統合アプローチで、最先端のパフォーマンスに達することも示唆されています（出典：marktechpost.com）。

SAM Audioが解決する問題#

サウンドは厄介です。現実世界のオーディオミックスには、多くの場合、音声、楽器、アンビエンス、エフェクトなどの重複するイベントが含まれており、他の要素を損なうことなく、1つの要素を手術的に削除または強調することが困難です。従来のワークフローでは、通常、次のものが必要です。

複数の特殊なプラグインをチェーン接続する
時間のかかる手動編集（スペクトログラムのペイント、EQの自動化、ゲート/エキスパンション）
許容できる結果を得るための試行錯誤のエクスポート

SAM Audioは、自然言語、画面上のクリック、または時間範囲の選択で分離を実行する単一のモデルを提供することにより、この断片化に対処します。クリエイターにとって、これはアプリの数が減り、失敗するパスが減り、1つの統合ツールからより予測可能な結果が得られることを意味します。

主要な概念：SAM Audioのマルチモーダルプロンプト#

SAM Audioの際立った機能は、プロンプトの柔軟性です。次のものを使用してモデルをガイドできます。

テキストプロンプト：「犬の吠え声」、「リードボーカル」、「拍手」、「部屋のトーン」など、分離または削除するものを入力します。
ビジュアルプロンプト：ビデオフレーム内のオブジェクト（たとえば、オートバイや歌手）をクリックすると、SAM Audioはミックス内の関連するサウンドを推測します。
スパンプロンプト：タイムライン上の時間範囲をマークして、その間隔で目立つサウンドをターゲットにします。

これらのオプションを組み合わせることで、名前を付けたり、指を指したり、強調表示したりして、自然に考える方法で意図を説明できます。ハイブリッドオーディオビデオワークフローの場合、ビジュアルプロンプトは特に強力です。それはあなたが見るものとあなたが聞く必要があるものを結びつけます。

内部構造：SAM Audioの仕組み（わかりやすい英語で）#

舞台裏で何が起こっているかを理解しているクリエイターのために、SAM Audioは特殊なエンコーダーと生成コアを組み合わせています。

マルチモーダルエンコーダー：専用のエンコーダーは、オーディオ混合、テキスト命令、マークされた時間範囲、およびビデオからのオプションの視覚的な手がかりを解釈します。これは、SAM Audioがサウンドに含まれているものと、サウンドから何を求めているかを「理解」するのに役立ちます。
拡散トランスフォーマー：生成バックボーンは、複数のステップで分離を洗練し、モデルが高忠実度で重複するイベントを解きほぐすのに役立ちます。
DACVAEデコーダー：最終段階では、モデルの内部表現からクリーンな波形を再構築し、分離された「ターゲット」オーディオと相補的な「残差」を提供します。

結果は？SAM Audioは、2つの同期されたトラックを出力できます。

ターゲット：あなたが要求したサウンド
残差：混合物内のその他すべて

この出力設計により、編集が直感的になります。ターゲットを保持し、残差を保持し、2つをブレンドするか、各トラックを異なる方法で処理して、映画のようなコントロールを実現します。

モデルサイズ、バリアント、およびパフォーマンス#

SAM Audioは、ハードウェアと速度のニーズに合わせて複数のサイズで利用できます。

sam-audio-small
sam-audio-base
sam-audio-large

ビデオ駆動のサウンド選択に大きく依存するワークフローの場合、ビジュアルプロンプトを使用する際のパフォーマンスを向上させる追加のtvバリアントがあります。報告された主観的な評価によると、スコアはカテゴリ（一般的なエフェクト、スピーチ、音楽、楽器など）によって異なり、sam-audio-largeはいくつかのテストで最高のマーク（Instr（pro）カテゴリで最大4.49）を達成し、プロフェッショナル素材の強力な分離品質を示しています（出典：marktechpost.com）。

分離結果を自動的にスコアリングするのに役立つように設計された、コンパニオン評価モデルsam-audio-judgeもあります。クリエイターは依然として自分の耳を信頼しますが、sam-audio-judgeのようなツールは、QA、バッチテスト、またはA/B比較を高速化できます。

SAM Audioでできること：実際のクリエイターシナリオ#

SAM Audioは、クリエイティブな分野全体に適合するように設計されています。さまざまな役割の実際的なワークフローを次に示します。

ビデオクリエイターとエディター
- 「ナレーターの声」テキストプロンプトを使用して、騒がしい通りからダイアログを引き出し、残りの通りの騒音を減らします。
- 画面上の車両をクリックして、エンジン音を分離し、ミックスで個別に制御します。
- スポーツ映像から群衆の反応を分離して、ハイライトリールで観客のエネルギーを強調します。
ポッドキャスターとインタビュアー
- スパンプロンプトを使用して、定義された時間枠内の咳、電話のブザー、またはマイクのバンプをクリーンアップします。
- ホストとゲストの声を個別のターゲットトラックに抽出し、一貫した圧縮とEQを実現します。
- ターゲットと残差をブレンドして、声の暖かさを維持しながら、HVACのハムまたはカフェのアンビエンスを削除します。
ミュージシャンとプロデューサー
- 「リードボーカル」や「キックドラム」などのテキストプロンプトを使用して、デモバウンスからボーカルまたはドラムステムを分離します。
- 残差を再配置、リミックス、または代替テイクの「マイナスワン」ベッドとして創造的に使用します。
- ギターラインを抽出して、クリエイティブなサウンドデザインのためにエフェクトとレイヤー化します。
声優とナレーター
- 重いゲーティングアーティファクトなしで、部屋のノイズから読み取りを分離します。
- スパンプロンプトを使用して、特定の瞬間に発生するクリック、リップノイズ、またはページのめくりを削除します。
- クリーンなターゲットオーディオをクライアントに配信しながら、必要に応じてアンビエンスを維持するために残差トラックを提供します。
モーションデザイナーとVFXアーティスト
- ビデオ内のアニメーション要素をクリックして、対応するサウンドを強調またはスタイル化します。
- テキストプロンプトを使用して、再録音せずに微妙なフォーリー（布、足音）を見つけてブーストします。
研究者と教育者
- 分析、ラベル付け、またはデータセットの準備のためにサウンドイベントをセグメント化します。
- 複雑な現実世界の録音を理解しやすいレイヤーに分割して、聴覚シーンを研究します。
アクセシビリティと支援オーディオ
- 教育コンテンツまたはオーディオ解説トラックのスピーチの明瞭さを強調します。
- Starkeyや2gether-Internationalなどの組織とのパートナーシップは、聴覚およびアクセシビリティアプリケーションの継続的な調査を示唆しています（出典：theregister.com）。

これらのすべてのケースで、SAM Audioは、複数のツールを必要としていたものを一元化し、より迅速な反復とより自信のある編集を可能にします。

ハンズオン：Segment Anything PlaygroundでSAM Audioを使用する方法#

SAM Audioを探索する最も速い方法は、Segment Anything Playgroundで試すことです。クリエイター向けのチュートリアルを次に示します。

ソースを準備する
- プロジェクトから短いテストクリップ（10〜60秒）を使用します。混合ダイアログ、音楽、またはアンビエンスで問題ありません。
- ビデオを使用する場合は、オーディオが同期されていることを確認してください。これにより、視覚的なプロンプトが解除されます。
プロンプトモードを選択する
- テキスト：「拍手」、「リードボーカル」、「車のクラクション」、「足音」のようにターゲットを説明します。
- ビジュアル：フレームを一時停止し、オブジェクト（歌手、犬、オートバイなど）をクリックして、SAM Audioを適切なサウンドソースに誘導します。
- スパン：タイムラインをドラッグして、問題のある領域を強調表示します（たとえば、00：23〜00：25の間の咳）。
分離を実行する
- 処理を開始し、モデルの「ターゲット」および「残差」出力をプレビューします。
- ターゲットのみ、残差のみ、およびブレンドされた再生を切り替えて、結果を評価します。
プロンプトを調整する
- ターゲットに不要なスピルが含まれている場合は、テキストプロンプトをシャープにするか、スパンプロンプトを追加して、ソースが最もクリーンな瞬間に焦点を当てます。
- ビデオの場合は、視覚的なクリックを調整して、聞こえるソースにより一致させます。
編集用にエクスポートする
- ターゲットと残差を個別のトラックとしてエクスポートします。
- 両方をNLEまたはDAW（Premiere Pro、Final Cut、Resolve、Pro Tools、Reaperなど）に取り込みます。
- ターゲットを個別にミックス、EQ、または圧縮します。残差を使用して、自然なアンビエンスを維持します。
バージョンを作成して比較する
- 複数のプロンプトバリエーションを試して、最もサウンドが良いものをメモします。
- 利用可能な場合は、sam-audio-judgeまたは独自の参照テストを使用して、改善を定量化します。

このループを使用すると、SAM Audioはブラックボックスではなく、クリエイティブな拡張機能になります—質問、聞く、洗練、エクスポート。

ローカルセットアップ：マシンでSAM Audioを使用する#

SAM Audioを制作に統合する準備ができたら：

適切なモデルサイズをダウンロードする
- バランスの取れた速度と品質のためにsam-audio-baseから開始します。重要な作業またはハイエンドハードウェアの場合はsam-audio-largeに移動します。クイックドラフトの場合はsam-audio-smallを使用します。
フレームワークを選択する
- 推論を実行し、ターゲット/残差出力を処理するための簡単なAPIを使用して、Pythonで公式の実装またはサポートされているライブラリを使用します。
パイプラインを構築する
- 取り込み：メディアをロードし、オプションでビデオからオーディオを抽出します。
- プロンプト：NLE/DAWタイムラインからテキスト、ビジュアル（フレームサンプリング付き）、またはスパン範囲を選択します。
- 分離：SAM Audio推論を実行して、ターゲットと残差を生成します。
- ポスト：標準の処理チェーン（EQ、圧縮、リバーブ、ノイズ除去）をターゲットに適用します。オプションで、リアリズムのために残差とブレンドします。
- エクスポート：ステムをレンダリングし、再現性のためにプロンプトをアーカイブします。
バッチタスクを自動化する
- ポッドキャストまたはWebシリーズの場合は、一貫したプロンプト（たとえば、「ホストの声」、「部屋のトーン」）を使用してバルク実行をスクリプト化し、エピソード全体でサウンドを均一に保ちます。
品質を監視する
- ヘッドホンとスピーカーで重要な瞬間をスポットチェックします。
- 該当する場合は、主観的なリスニングと自動スコアリングを組み合わせます。

ターゲット/残差出力によってロック解除された編集の動き#

SAM Audioの2トラック設計により、クリエイターは細かく制御できます。

非破壊的なクリーンアップ
- ハーシュゲーティングなしで音響空間を維持するために、ダイアログの下で残差を低く保ちます。
クリエイティブなリミックス
- ターゲットのみを使用してアレンジを再構築します。テクスチャベッドのエフェクトで残差をレイヤー化します。
正確なダッキング
- スピーチが発生する場所で残差を正確に減衰させることにより、ダイアログからサイドチェーン音楽を作成します。
サウンドの置換
- 残差から問題のあるSFXを削除し、よりクリーンなライブラリアセットに置き換えます。

これらの動きは、SAM AudioがEQ、ゲート、またはナローバンドノイズプリントで周囲を切り開くことを強制するのではなく、要求した音響の「何か」を分離するため、より高速で信頼性が高くなります。

より良い結果をもたらすプロンプトのヒント#

他のAI支援ツールと同様に、SAM Audioは明確なガイダンスに最適に応答します。

テキストプロンプトで具体的にする
- 「リード女性ボーカル」は「ボーカル」よりも優れており、「シングルハンドクラップ」は「クラップ」よりも優れています。
プロンプトを組み合わせる
- サウンドの最も明確な発生中に、テキストの説明とスパンプロンプトをペアにします。
混合ソースにビジュアルプロンプトを使用する
- ビデオでは、オブジェクトをクリックすると、SAM Audioが重複するサウンドを曖昧にするのに役立ちます。
迅速に反復する
- 2つまたは3つのプロンプトの言い回しを試してください。耳とラウドネスの一貫性によって最適なものを選択してください。

パフォーマンス、制限、およびリアリズム#

レポートは、特に大規模なモデルで、多くのカテゴリで強力な結果を強調しています。それでも、SAM Audioは魔法ではありません。

非常に類似したイベントは困難な場合があります
- ユニゾンで演奏する2つのほぼ同一の楽器を分離すると、ブリードが発生する可能性があります。
密集したアンサンブルは分離に抵抗する
- フルオーケストラまたは高度に圧縮されたミックスから1つの楽器を引き出すことは本質的に困難です。
プロンプトの制約
- SAM Audioはオーディオクリップをプロンプトとして使用しません。テキスト、スパン、および視覚的なガイダンスに依存してください。
倫理と安全性
- メディア報道は、潜在的な誤用（たとえば、スヌーピング）に関する懸念を提起しており、責任ある展開と制作ワークフローにおける明確な同意の必要性を強調しています（出典：theregister.com）。

制限にもかかわらず、統合されたアプローチとマルチモーダルプロンプトにより、SAM Audioはほとんどの現実世界の編集タスクの実用的なアップグレードになります。

SAM Audioがツールチェーンに適合する場所#

DAWまたはNLEを置き換えるのではなく、SAM Audioはそれらを補完します。

編集前のクリーンアップ
- 最初にターゲットダイアログを分離し、アーティファクトを減らしてEQと圧縮を適用します。
編集中のエンハンスメント
- サウンドエフェクトを分離して、ミックスを濁らせることなくカットまたはトランジションをドラマチックにします。
最終的な研磨
- 重いノイズリダクションの代わりに、自然なアンビエンスのために残差バランシングを使用します。

共同作業チームの場合は、プロンプトを説明するマーカーとともに、ターゲット/残差ステムを共有します。これにより、リビジョンが高速化され、クリエイティブな意図が明確になります。

モデルバリアントを最大限に活用する#

プロジェクトに適したSAM Audioバリアントを選択します。

sam-audio-small
- クイックドラフト、ソーシャルクリップ、および一時ミックス。
sam-audio-base
- 毎日のエピソード、チュートリアル、およびブランドコンテンツ。
sam-audio-large
- ニュアンスが重要なハイステークスフィルム、音楽、または放送プロジェクト。
tvバリアント
- 視覚的なプロンプトがワークフローの中心となるビデオヘビープロジェクト。

GPUが制約されている場合は、アイデア出しのために小さいものから始め、最終マスターのためにsam-audio-largeで主要なシーンを再実行します。

クイックスタートからフィニッシュまでの例#

交通量と近くのバスカーがいる屋外で撮影された3分間のインタビューを想像してみてください。

Playgroundで、ビデオをロードし、テキストプロンプト「インタビュー対象者の声」を使用します。
スピーカーが最適なキューイングのために分離されている文にスパンプロンプトを追加します。
ターゲット（音声）と残差（その他すべて）をプレビューします。ギターがブリードインする場合は、「アコースティックギター」をターゲットとして2回目のパスを追加して、別のステムを作成します。
ステムをエクスポートします。NLE/DAWで、音声ターゲットを圧縮してディエッサーします。残差に軽いNRを追加します。自然な空間のために残差を微妙にミックスします。
よりクリーンなダイアログと制御されたアンビエンスで最終的なものをレンダリングします—再撮影、ADR、または重いスペクトル手術は不要です。

SAM Audioは、このパイプラインを高速、反復可能、およびチーム全体に教えることができるようにします。

責任ある使用と創造的な誠実さ#

力には責任が伴います。常に：

処理するすべてのソースの許可を確保します。
SAM Audioを使用して、プライベートな会話や合意のない録音を分離または強調することを避けてください。
クライアントおよび共同作業者のために、プロンプトとその根拠を文書化します。
パフォーマンスまたは意図を誤って伝える可能性のあるアーティファクトについて、編集をクロスチェックします。

SAM Audioは、非常に大きな創造的なメリットを提供しますが、最良のプラクティスは、倫理的なガードレールと透明性のあるワークフローと組み合わせることです。

SAM Audioと従来のツールの比較#

スコープ
- 従来：単一目的（ボーカルの削除、ノイズの低減）。
- SAM Audio：多くの分離タスクをカバーする統合モデル。
コントロール
- 従来：パラメーターが多く、多くの場合技術的。
- SAM Audio：自然なプロンプト—テキスト、ビジュアル、スパン。
出力
- 従来：多くの場合、1つの強化されたトラック。
- SAM Audio：柔軟なミキシングのためのターゲットと残差。
学習曲線
- 従来：非エンジニアにとってはより急峻。
- SAM Audio：直感的なプロンプトにより、オンボーディングが短縮されます。

クリエイターにとって、重要なポイントは簡単です。SAM Audioはプロジェクトごとに時間を節約し、タイトな締め切りではかつて非現実的だった編集を解除できます。

今すぐ試す#

Segment Anything PlaygroundでSAM Audioをすぐに探索し、ローカル作業用のモデルをダウンロードできます（出典：about.fb.com）。AIオーディオを初めて使用する場合は、短いクリップでPlaygroundプロンプトから開始します。経験豊富な場合は、SAM Audioをインジェストまたはダイアログ編集チェーンに接続し、現在のプラグインに対して結果をベンチマークします。

ソース#

Metaの発表：「新しいSAM Audioモデルがオーディオ編集を変革する」（about.fb.com）
技術的な概要と評価：「Meta AIがSAM Audioをリリース…」（marktechpost.com）
パートナーシップ、倫理、および制限：「Meta SAM AI Audio」（theregister.com）

サウンドをクリエイターが考える方法（説明、指差し、またはマーク）でアプローチすることにより、SAM Audioは複雑な分離をシンプルにします。重要なものを分離し、より迅速に移動し、創造的な勢いを維持するのに役立つ統合モデルです。