SAM Audio: โปรแกรมแก้ไขเสียงแบบมัลติโมดอลที่เป็นหนึ่งเดียวที่ครีเอเตอร์ทุกคนรอคอย

SAM Audio: โปรแกรมแก้ไขเสียงแบบมัลติโมดอลที่เป็นหนึ่งเดียวที่ครีเอเตอร์ทุกคนรอคอย

11 min read

SAM Audio คืออะไร—และทำไมครีเอเตอร์ถึงควรสนใจ#

หากคุณเคยพยายามที่จะปรับปรุงเสียงพูดท่ามกลางเสียงรบกวนจากการจราจร ดึงไลน์กีตาร์ออกจากมิกซ์สด หรือทำให้เสียงไอเงียบลงกลางเสียงบรรยาย คุณจะรู้ว่าการตัดต่อเสียงนั้นซับซ้อนเพียงใด SAM Audio คือโมเดล AI แบบรวมใหม่ของ Meta สำหรับการแยกเสียงที่แม่นยำ ซึ่งตอบโจทย์ครีเอเตอร์ในทุกขั้นตอนการทำงาน แทนที่จะต้องใช้ปลั๊กอินเฉพาะทางหลายตัว หรือแก้ไขรูปคลื่นด้วยตนเอง SAM Audio ช่วยให้คุณสามารถแยก ลบ และรีมิกซ์เสียงจากส่วนผสมที่ซับซ้อนได้โดยใช้คำสั่งที่ใช้งานง่าย ไม่ว่าจะเป็นข้อความ ภาพ หรือช่วงเวลาที่กำหนด

SAM Audio แตกต่างจากเครื่องมือทั่วไปที่สร้างขึ้นสำหรับงานแคบๆ อย่างเดียว (เช่น การลบเสียงร้องหรือการลดเสียงรบกวนเท่านั้น) โดยได้รับการออกแบบให้เป็นระบบเดียวที่ยืดหยุ่น ซึ่งปรับให้เข้ากับสถานการณ์ต่างๆ ได้มากมาย สำหรับผู้สร้างคอนเทนต์ นั่นหมายถึงอุปสรรคทางเทคนิคน้อยลง การแก้ไขที่รวดเร็วขึ้น และมีสมาธิกับการเล่าเรื่องมากขึ้น กล่าวโดยสรุป SAM Audio สัญญาว่าจะควบคุมเสียงระดับมืออาชีพที่เข้าถึงได้ รวดเร็ว และหลากหลายรูปแบบ

ตามประกาศของ Meta สามารถดาวน์โหลดและทดลองใช้ SAM Audio ได้ใน Segment Anything Playground ซึ่งทำให้เป็นเครื่องมือที่ใช้งานได้จริงที่คุณสามารถทดสอบได้อย่างรวดเร็วในขั้นตอนการทำงานปัจจุบันของคุณ (แหล่งที่มา: about.fb.com) รายงานจากแหล่งข่าวอื่นๆ ยังระบุว่าระบบนี้มีประสิทธิภาพล้ำสมัยด้วยแนวทางที่เป็นหนึ่งเดียว ซึ่งเข้ามาแทนที่เครื่องมือเฉพาะทางหลายอย่างที่บรรณาธิการส่วนใหญ่ใช้ในปัจจุบัน (แหล่งที่มา: marktechpost.com)

ปัญหาที่ SAM Audio แก้ไข#

เสียงเป็นสิ่งที่ยุ่งเหยิง การมิกซ์เสียงในโลกแห่งความเป็นจริงมักจะมีเหตุการณ์ที่ทับซ้อนกัน เช่น เสียงพูด เครื่องดนตรี บรรยากาศ เอฟเฟกต์ ทำให้ยากต่อการลบหรือปรับปรุงองค์ประกอบหนึ่งโดยไม่ทำลายองค์ประกอบอื่นๆ โดยทั่วไปแล้วขั้นตอนการทำงานแบบเดิมๆ จะต้องใช้:

  • ปลั๊กอินเฉพาะทางหลายตัวที่เชื่อมต่อกัน
  • การแก้ไขด้วยตนเองที่ต้องใช้เวลานาน (การวาดสเปกโตรแกรม การปรับ EQ อัตโนมัติ เกท/การขยาย)
  • การส่งออกแบบลองผิดลองถูกเพื่อให้ได้ผลลัพธ์ที่ยอมรับได้

SAM Audio แก้ปัญหาความกระจัดกระจายนี้โดยนำเสนอโมเดลเดียวที่ทำการแยกเสียงด้วยภาษาธรรมชาติ การคลิกบนหน้าจอ หรือการเลือกช่วงเวลา สำหรับครีเอเตอร์ นั่นหมายถึงแอปที่น้อยลง การลองผิดลองถูกที่ล้มเหลวน้อยลง และผลลัพธ์ที่คาดการณ์ได้มากขึ้นจากเครื่องมือที่เป็นหนึ่งเดียว

แนวคิดหลัก: พรอมต์แบบมัลติโมดอลใน SAM Audio#

ความสามารถที่โดดเด่นของ SAM Audio คือความยืดหยุ่นของพรอมต์ คุณสามารถแนะนำโมเดลได้โดยใช้:

  • พรอมต์ข้อความ: พิมพ์สิ่งที่คุณต้องการแยกหรือลบ เช่น "เสียงสุนัขเห่า" "เสียงร้องนำ" "เสียงปรบมือ" หรือ "เสียงในห้อง"
  • พรอมต์ภาพ: คลิกที่วัตถุภายในเฟรมวิดีโอ เช่น มอเตอร์ไซค์หรือนักร้อง แล้ว SAM Audio จะอนุมานเสียงที่เกี่ยวข้องในการมิกซ์
  • พรอมต์ช่วงเวลา: ทำเครื่องหมายช่วงเวลาบนไทม์ไลน์เพื่อกำหนดเป้าหมายเสียงที่โดดเด่นในช่วงเวลานั้น

ตัวเลือกเหล่านี้ช่วยให้คุณอธิบายความตั้งใจของคุณในแบบที่คุณคิดตามธรรมชาติ: โดยการตั้งชื่อ ชี้ หรือไฮไลต์ สำหรับขั้นตอนการทำงานของเสียงและวิดีโอแบบไฮบริด พรอมต์ภาพมีประสิทธิภาพเป็นพิเศษ เพราะเชื่อมโยงสิ่งที่คุณเห็นกับสิ่งที่คุณต้องการได้ยิน

ภายใต้หน้ากาก: SAM Audio ทำงานอย่างไร (ในภาษาที่เข้าใจง่าย)#

สำหรับครีเอเตอร์ที่ชื่นชมสิ่งที่เกิดขึ้นเบื้องหลัง SAM Audio ผสมผสานตัวเข้ารหัสเฉพาะทางและแกนกลางแบบสร้างสรรค์:

  • ตัวเข้ารหัสแบบมัลติโมดอล: ตัวเข้ารหัสเฉพาะจะตีความส่วนผสมเสียง คำแนะนำข้อความ ช่วงเวลาที่ทำเครื่องหมาย และสัญญาณภาพเสริมจากวิดีโอ สิ่งนี้ช่วยให้ SAM Audio "เข้าใจ" ทั้งสิ่งที่อยู่ในเสียงและสิ่งที่คุณต้องการจากเสียง
  • Diffusion transformer: กระดูกสันหลังแบบสร้างสรรค์ปรับแต่งการแยกเสียงในหลายขั้นตอน ช่วยให้โมเดลแยกเหตุการณ์ที่ทับซ้อนกันด้วยความเที่ยงตรงสูง
  • DACVAE decoder: ขั้นตอนสุดท้ายสร้างรูปคลื่นที่สะอาดจากตัวแทนภายในของโมเดล ส่งมอบเสียง "เป้าหมาย" ที่แยกออกมาและ "ส่วนที่เหลือ" ที่สมบูรณ์

ผลลัพธ์ที่ได้คืออะไร SAM Audio สามารถส่งออกสองแทร็กที่ซิงโครไนซ์กันได้:

  • target: เสียงที่คุณขอ
  • residual: ทุกสิ่งทุกอย่างที่เหลืออยู่ในส่วนผสม

การออกแบบเอาต์พุตนี้ทำให้การแก้ไขเป็นไปอย่างง่ายดาย: เก็บเป้าหมาย เก็บส่วนที่เหลือ ผสมผสานทั้งสอง หรือประมวลผลแต่ละแทร็กต่างกันเพื่อให้ได้การควบคุมแบบภาพยนตร์

ขนาดโมเดล ตัวแปร และประสิทธิภาพ#

SAM Audio มีให้เลือกหลายขนาดเพื่อให้ตรงกับฮาร์ดแวร์และความเร็วที่คุณต้องการ:

  • sam-audio-small
  • sam-audio-base
  • sam-audio-large

สำหรับขั้นตอนการทำงานที่เน้นการเลือกเสียงที่ขับเคลื่อนด้วยวิดีโอเป็นอย่างมาก จะมีตัวแปร tv เพิ่มเติมที่ปรับปรุงประสิทธิภาพเมื่อใช้พรอมต์ภาพ จากการประเมินเชิงอัตวิสัยที่รายงาน คะแนนจะแตกต่างกันไปตามหมวดหมู่ (เช่น เอฟเฟกต์ทั่วไป เสียงพูด ดนตรี เครื่องดนตรี) โดย sam-audio-large ได้รับคะแนนสูงสุดในการทดสอบหลายครั้ง สูงถึง 4.49 ในหมวดหมู่ Instr(pro) ซึ่งบ่งชี้ถึงคุณภาพการแยกเสียงที่แข็งแกร่งสำหรับเนื้อหาระดับมืออาชีพ (แหล่งที่มา: marktechpost.com)

นอกจากนี้ยังมีโมเดลการประเมินคู่หู sam-audio-judge ซึ่งมีวัตถุประสงค์เพื่อช่วยให้คะแนนผลลัพธ์การแยกเสียงโดยอัตโนมัติ ในขณะที่ครีเอเตอร์ยังคงเชื่อมั่นในหูของตนเอง เครื่องมืออย่าง sam-audio-judge สามารถเร่งความเร็ว QA การทดสอบเป็นชุด หรือการเปรียบเทียบ A/B ได้

สิ่งที่คุณสามารถทำได้ด้วย SAM Audio: สถานการณ์จริงของครีเอเตอร์#

SAM Audio ได้รับการออกแบบมาให้เข้ากับสาขาวิชาสร้างสรรค์ต่างๆ นี่คือขั้นตอนการทำงานที่เป็นประโยชน์สำหรับบทบาทต่างๆ:

  • ผู้สร้างและบรรณาธิการวิดีโอ

    • ดึงเสียงพูดจากถนนที่มีเสียงดังโดยใช้พรอมต์ข้อความ "เสียงผู้บรรยาย" แล้วลดเสียงรบกวนจากถนนที่เหลือ
    • คลิกที่ยานพาหนะบนหน้าจอเพื่อแยกเสียงเครื่องยนต์และควบคุมเสียงเหล่านั้นอย่างอิสระในการมิกซ์
    • แยกปฏิกิริยาของฝูงชนจากฟุตเทจกีฬาเพื่อเน้นพลังงานของผู้ชมในไฮไลท์รีล
  • ผู้จัดรายการพอดแคสต์และผู้สัมภาษณ์

    • ใช้พรอมต์ช่วงเวลาเพื่อทำความสะอาดเสียงไอ เสียงโทรศัพท์ หรือเสียงไมค์กระแทกภายในช่วงเวลาที่กำหนด
    • แยกเสียงโฮสต์และแขกรับเชิญออกเป็นแทร็กเป้าหมายแยกกันเพื่อการบีบอัดและ EQ ที่สอดคล้องกัน
    • ลบเสียงฮัมของ HVAC หรือบรรยากาศร้านกาแฟในขณะที่ยังคงความอบอุ่นของเสียงไว้โดยการผสมผสานเป้าหมายและส่วนที่เหลือ
  • นักดนตรีและโปรดิวเซอร์

    • แยกเสียงร้องหรือสเต็มกลองจากการตีกลับเดโมโดยใช้พรอมต์ข้อความเช่น "เสียงร้องนำ" หรือ "กระเดื่อง"
    • ใช้ส่วนที่เหลืออย่างสร้างสรรค์เป็นเตียง "ลบหนึ่ง" สำหรับการจัดเรียงใหม่ รีมิกซ์ หรือการถ่ายทำสำรอง
    • แยกไลน์กีตาร์เพื่อเลเยอร์ด้วยเอฟเฟกต์สำหรับการออกแบบเสียงที่สร้างสรรค์
  • นักพากย์และผู้บรรยาย

    • แยกการอ่านออกจากเสียงในห้องโดยไม่มีสิ่งประดิษฐ์เกทที่หนักหน่วง
    • ใช้พรอมต์ช่วงเวลาเพื่อลบเสียงคลิก เสียงริมฝีปาก หรือการพลิกหน้าที่เกิดขึ้นในบางช่วงเวลา
    • ส่งมอบเสียงเป้าหมายที่สะอาดให้กับลูกค้าในขณะที่นำเสนอแทร็กที่เหลือเพื่อรักษาสภาพแวดล้อมเมื่อจำเป็น
  • นักออกแบบโมชั่นและศิลปิน VFX

    • คลิกที่องค์ประกอบแอนิเมชั่นในวิดีโอเพื่อปรับปรุงหรือจัดสไตล์เสียงที่สอดคล้องกัน
    • ใช้พรอมต์ข้อความเพื่อค้นหาและเพิ่ม Foley ที่ละเอียดอ่อน (ผ้า เสียงฝีเท้า) โดยไม่ต้องบันทึกใหม่
  • นักวิจัยและนักการศึกษา

    • แบ่งส่วนเหตุการณ์เสียงสำหรับการวิเคราะห์ การติดฉลาก หรือการเตรียมชุดข้อมูล
    • ศึกษาฉากการได้ยินโดยแบ่งพาร์ติชันการบันทึกในโลกแห่งความเป็นจริงที่ซับซ้อนออกเป็นเลเยอร์ที่เข้าใจได้
  • การเข้าถึงและเสียงช่วยเหลือ

    • เน้นความชัดเจนของเสียงพูดสำหรับเนื้อหาเพื่อการศึกษาหรือแทร็กคำอธิบายเสียง
    • ความร่วมมือกับองค์กรต่างๆ เช่น Starkey และ 2gether-International บ่งบอกถึงการสำรวจอย่างต่อเนื่องเกี่ยวกับการได้ยินและการใช้งานเพื่อการเข้าถึง (แหล่งที่มา: theregister.com)

ในทุกกรณีเหล่านี้ SAM Audio รวมศูนย์สิ่งที่เคยต้องใช้เครื่องมือหลายอย่าง ทำให้การทำซ้ำเร็วขึ้นและการแก้ไขมีความมั่นใจมากขึ้น

ลงมือปฏิบัติจริง: วิธีใช้ SAM Audio ใน Segment Anything Playground#

วิธีที่เร็วที่สุดในการสำรวจ SAM Audio คือการลองใช้ใน Segment Anything Playground นี่คือคำแนะนำที่เป็นมิตรกับครีเอเตอร์:

  1. เตรียมแหล่งที่มาของคุณ

    • ใช้คลิบทดสอบสั้นๆ (10–60 วินาที) จากโปรเจ็กต์ของคุณ เสียงพูด ดนตรี หรือบรรยากาศแบบผสมผสานก็ใช้ได้
    • หากใช้วิดีโอ ตรวจสอบให้แน่ใจว่ามีเสียงที่ซิงค์กัน ซึ่งจะปลดล็อกการแจ้งเตือนด้วยภาพ
  2. เลือกโหมดพรอมต์ของคุณ

    • ข้อความ: อธิบายเป้าหมายเช่น "เสียงปรบมือ" "เสียงร้องนำ" "เสียงแตรรถ" หรือ "เสียงฝีเท้า"
    • ภาพ: หยุดชั่วคราวบนเฟรม คลิกที่วัตถุ (เช่น นักร้อง สุนัข มอเตอร์ไซค์) เพื่อนำ SAM Audio ไปยังแหล่งกำเนิดเสียงที่ถูกต้อง
    • ช่วงเวลา: ลากไปตามไทม์ไลน์เพื่อไฮไลต์พื้นที่ที่มีปัญหา (เช่น เสียงไอระหว่าง 00:23–00:25)
  3. เรียกใช้การแยกเสียง

    • เริ่มต้นการประมวลผลและดูตัวอย่างเอาต์พุต "เป้าหมาย" และ "ส่วนที่เหลือ" ของโมเดล
    • สลับระหว่างการเล่นเฉพาะเป้าหมาย เฉพาะส่วนที่เหลือ และแบบผสมผสานเพื่อประเมินผลลัพธ์
  4. ปรับแต่งพรอมต์

    • หากเป้าหมายมีเสียงรั่วไหลที่ไม่ต้องการ ให้ปรับพรอมต์ข้อความให้คมชัดขึ้น หรือเพิ่มพรอมต์ช่วงเวลาเพื่อเน้นที่ช่วงเวลาที่แหล่งที่มาสะอาดที่สุด
    • สำหรับวิดีโอ ให้ปรับการคลิกด้วยภาพของคุณให้ตรงกับแหล่งที่มาของเสียงให้ดีขึ้น
  5. ส่งออกเพื่อแก้ไข

    • ส่งออกเป้าหมายและส่วนที่เหลือเป็นแทร็กแยกกัน
    • นำทั้งสองอย่างเข้าสู่ NLE หรือ DAW ของคุณ (Premiere Pro, Final Cut, Resolve, Pro Tools, Reaper ฯลฯ)
    • มิกซ์ EQ หรือบีบอัดเป้าหมายอย่างอิสระ ใช้ส่วนที่เหลือเพื่อรักษาสภาพแวดล้อมทางธรรมชาติ
  6. สร้างเวอร์ชันและเปรียบเทียบ

    • ลองใช้รูปแบบพรอมต์หลายแบบและสังเกตแบบที่ฟังดูดีที่สุด
    • หากมี ให้ใช้ sam-audio-judge หรือการทดสอบอ้างอิงของคุณเองเพื่อวัดปริมาณการปรับปรุง

ด้วยลูปนี้ SAM Audio จะกลายเป็นส่วนขยายที่สร้างสรรค์มากกว่ากล่องดำ ถาม ฟัง ปรับแต่ง ส่งออก

การตั้งค่าในเครื่อง: การใช้ SAM Audio บนเครื่องของคุณ#

เมื่อคุณพร้อมที่จะรวม SAM Audio เข้ากับการผลิต:

  1. ดาวน์โหลดขนาดโมเดลที่เหมาะสม

    • เริ่มต้นด้วย sam-audio-base เพื่อความเร็วและคุณภาพที่สมดุล ย้ายไปที่ sam-audio-large สำหรับงานที่สำคัญหรือฮาร์ดแวร์ระดับไฮเอนด์ ใช้ sam-audio-small สำหรับฉบับร่างอย่างรวดเร็ว
  2. เลือกเฟรมเวิร์ก

    • ใช้การใช้งานอย่างเป็นทางการหรือไลบรารีที่รองรับใน Python ด้วย API ที่ตรงไปตรงมาสำหรับการรันการอนุมานและการจัดการเอาต์พุตเป้าหมาย/ส่วนที่เหลือ
  3. จัดโครงสร้างไปป์ไลน์ของคุณ

    • นำเข้า: โหลดสื่อของคุณ เลือกที่จะแยกเสียงออกจากวิดีโอ
    • พรอมต์: เลือกข้อความ ภาพ (พร้อมการสุ่มตัวอย่างเฟรม) หรือช่วงเวลาจากไทม์ไลน์ NLE/DAW ของคุณ
    • แยก: รันการอนุมาน SAM Audio เพื่อสร้างเป้าหมายและส่วนที่เหลือ
    • โพสต์: ใช้เชนการประมวลผลมาตรฐานของคุณ (EQ การบีบอัด รีเวิร์บ การลดเสียงรบกวน) กับเป้าหมาย เลือกที่จะผสมผสานกับส่วนที่เหลือเพื่อความสมจริง
    • ส่งออก: เรนเดอร์สเต็มและเก็บถาวรพรอมต์เพื่อความสามารถในการทำซ้ำ
  4. ทำให้งานเป็นชุดเป็นไปโดยอัตโนมัติ

    • สำหรับพอดแคสต์หรือเว็บซีรีส์ ให้เขียนสคริปต์การรันจำนวนมากด้วยพรอมต์ที่สอดคล้องกัน (เช่น "เสียงโฮสต์" "เสียงในห้อง") เพื่อให้เสียงสม่ำเสมอในทุกตอน
  5. ตรวจสอบคุณภาพ

    • ตรวจสอบจุดสำคัญด้วยหูฟังและลำโพง
    • หากมี ให้รวมการฟังเชิงอัตวิสัยกับการให้คะแนนอัตโนมัติ

การแก้ไขการเคลื่อนไหวที่ปลดล็อกโดยเอาต์พุตเป้าหมาย/ส่วนที่เหลือ#

การออกแบบสองแทร็กของ SAM Audio ช่วยให้ครีเอเตอร์ควบคุมได้อย่างละเอียด:

  • การทำความสะอาดแบบไม่ทำลาย
    • รักษาส่วนที่เหลือให้ต่ำภายใต้เสียงพูดเพื่อรักษาสภาพแวดล้อมทางเสียงโดยไม่มีเกทที่รุนแรง
  • รีมิกซ์ที่สร้างสรรค์
    • ใช้เฉพาะเป้าหมายเพื่อสร้างการจัดเรียงใหม่ เลเยอร์ส่วนที่เหลือด้วยเอฟเฟกต์สำหรับเตียงพื้นผิว
  • การหลบเลี่ยงที่แม่นยำ
    • ไซด์เชนเพลงจากเสียงพูดโดยลดทอนส่วนที่เหลืออย่างแม่นยำในตำแหน่งที่เกิดเสียงพูด
  • การเปลี่ยนเสียง
    • ลบ SFX ที่มีปัญหาออกจากส่วนที่เหลือและแทนที่ด้วยแอสเซทไลบรารีที่สะอาดกว่า

การเคลื่อนไหวเหล่านี้ทำได้เร็วกว่าและน่าเชื่อถือมากกว่าเพราะ SAM Audio แยก "อะไร" ที่เป็นเสียงที่คุณขอ แทนที่จะบังคับให้คุณแกะสลักรอบๆ ด้วย EQ เกท หรือรอยพิมพ์เสียงรบกวนแบบแนร์โรว์แบนด์

เคล็ดลับการแจ้งเตือนที่ให้ผลลัพธ์ที่ดีกว่า#

เช่นเดียวกับเครื่องมือที่ใช้ AI ช่วย SAM Audio ตอบสนองได้ดีที่สุดต่อคำแนะนำที่ชัดเจน:

  • ระบุรายละเอียดในพรอมต์ข้อความ
    • "เสียงร้องหญิงนำ" มีประสิทธิภาพเหนือกว่า "เสียงร้อง" และ "เสียงตบมือเดียว" ดีกว่า "เสียงตบมือ"
  • รวมพรอมต์
    • จับคู่คำอธิบายข้อความกับพรอมต์ช่วงเวลาระหว่างการเกิดขึ้นของเสียงที่ชัดเจนที่สุด
  • ใช้พรอมต์ภาพสำหรับแหล่งที่มาแบบผสม
    • ในวิดีโอ การคลิกที่วัตถุจะช่วยให้ SAM Audio แยกแยะเสียงที่ทับซ้อนกันได้
  • ทำซ้ำอย่างรวดเร็ว
    • ลองใช้การเรียบเรียงพรอมต์สองหรือสามแบบ เลือกแบบที่ดีที่สุดด้วยหูและความสอดคล้องของความดัง

ประสิทธิภาพ ข้อจำกัด และความสมจริง#

รายงานเน้นผลลัพธ์ที่แข็งแกร่งในหลายหมวดหมู่ โดยเฉพาะอย่างยิ่งกับโมเดลที่ใหญ่กว่า ถึงกระนั้น SAM Audio ก็ไม่ใช่เวทมนตร์:

  • เหตุการณ์ที่คล้ายคลึงกันมากอาจเป็นเรื่องท้าทาย
    • การแยกเครื่องดนตรีสองชิ้นที่เกือบจะเหมือนกันซึ่งเล่นพร้อมกันอาจทำให้เกิดการรั่วไหล
  • วงดนตรีหนาแน่นต่อต้านการแยก
    • การดึงเครื่องดนตรีชิ้นหนึ่งออกจากวงออร์เคสตราเต็มรูปแบบหรือการมิกซ์ที่บีบอัดอย่างหนักนั้นเป็นเรื่องยากโดยธรรมชาติ
  • ข้อจำกัดของพรอมต์
    • SAM Audio ไม่ใช้คลิปเสียงเป็นพรอมต์ อาศัยข้อความ ช่วงเวลา และคำแนะนำด้วยภาพ
  • จริยธรรมและความปลอดภัย
    • การรายงานข่าวของสื่อได้หยิบยกข้อกังวลเกี่ยวกับการใช้งานในทางที่ผิดที่อาจเกิดขึ้น (เช่น การสอดแนม) โดยเน้นย้ำถึงความจำเป็นในการปรับใช้ที่รับผิดชอบและการยินยอมที่ชัดเจนในขั้นตอนการทำงานของการผลิต (แหล่งที่มา: theregister.com)

แม้จะมีข้อจำกัด แต่แนวทางที่เป็นหนึ่งเดียวและการแจ้งเตือนแบบมัลติโมดอลทำให้ SAM Audio เป็นการอัปเกรดที่ใช้งานได้จริงสำหรับงานแก้ไขในโลกแห่งความเป็นจริงส่วนใหญ่

SAM Audio เหมาะสมกับ Toolchain ของคุณที่ไหน#

แทนที่จะแทนที่ DAW หรือ NLE ของคุณ SAM Audio จะเติมเต็มสิ่งเหล่านั้น:

  • การทำความสะอาดก่อนแก้ไข
    • แยกเสียงพูดเป้าหมายก่อน จากนั้นใช้ EQ และการบีบอัดโดยมีสิ่งประดิษฐ์น้อยลง
  • การปรับปรุงกลางแก้ไข
    • แยกเอฟเฟกต์เสียงเพื่อสร้างความตื่นเต้นให้กับการตัดหรือการเปลี่ยนภาพโดยไม่ทำให้การมิกซ์ขุ่นมัว
  • การขัดเงาขั้นสุดท้าย
    • ใช้การปรับสมดุลส่วนที่เหลือสำหรับสภาพแวดล้อมทางธรรมชาติแทนที่จะลดเสียงรบกวนอย่างหนัก

สำหรับทีมที่ทำงานร่วมกัน ให้แชร์สเต็มเป้าหมาย/ส่วนที่เหลือพร้อมกับเครื่องหมายที่อธิบายพรอมต์ของคุณ สิ่งนี้ทำให้การแก้ไขเร็วขึ้นและทำให้ความตั้งใจสร้างสรรค์โปร่งใส

การใช้ประโยชน์สูงสุดจากตัวแปรโมเดล#

เลือกตัวแปร SAM Audio ที่เหมาะสมสำหรับโปรเจ็กต์ของคุณ:

  • sam-audio-small
    • ฉบับร่างอย่างรวดเร็ว คลิปโซเชียล และมิกซ์ชั่วคราว
  • sam-audio-base
    • ตอนต่างๆ บทช่วยสอน และเนื้อหาที่มีตราสินค้าในชีวิตประจำวัน
  • sam-audio-large
    • ภาพยนตร์ เพลง หรือโปรเจ็กต์ออกอากาศที่มีเดิมพันสูงซึ่งความแตกต่างมีความสำคัญ
  • ตัวแปร tv
    • โปรเจ็กต์ที่เน้นวิดีโอเป็นหลักซึ่งการแจ้งเตือนด้วยภาพเป็นศูนย์กลางของขั้นตอนการทำงานของคุณ

หากคุณมีข้อจำกัดด้าน GPU ให้เริ่มต้นเล็กๆ สำหรับการสร้างแนวคิด จากนั้นเรียกใช้ฉากสำคัญอีกครั้งด้วย sam-audio-large สำหรับมาสเตอร์ขั้นสุดท้าย

ตัวอย่างเริ่มต้นจนจบอย่างรวดเร็ว#

ลองนึกภาพการสัมภาษณ์ 3 นาทีที่ถ่ายทำกลางแจ้งโดยมีการจราจรและนักดนตรีข้างถนนอยู่ใกล้ๆ

  1. ใน Playground ให้โหลดวิดีโอและใช้พรอมต์ข้อความ: "เสียงผู้ให้สัมภาษณ์"
  2. เพิ่มพรอมต์ช่วงเวลาเหนือประโยคที่ผู้พูดถูกแยกออกเพื่อให้ได้คิวที่ดีที่สุด
  3. ดูตัวอย่างเป้าหมาย (เสียง) และส่วนที่เหลือ (ทุกสิ่งทุกอย่าง) หากกีตาร์รั่วไหลเข้ามา ให้เพิ่มการส่งผ่านครั้งที่สองโดยมี "กีตาร์อะคูสติก" เป็นเป้าหมายเพื่อสร้างสเต็มแยกต่างหาก
  4. ส่งออกสเต็ม ใน NLE/DAW ของคุณ ให้บีบอัดและลดเสียงเสียดแทรกเป้าหมายเสียง เพิ่ม NR เล็กน้อยให้กับส่วนที่เหลือ ผสมผสานส่วนที่เหลืออย่างละเอียดเพื่อพื้นที่ธรรมชาติ
  5. เรนเดอร์ขั้นสุดท้ายด้วยเสียงพูดที่สะอาดกว่าและสภาพแวดล้อมที่ควบคุมได้ ไม่มีการถ่ายทำใหม่ ไม่มีการ ADR ไม่มีการผ่าตัดสเปกตรัมที่หนักหน่วง

SAM Audio ทำให้ไปป์ไลน์นี้รวดเร็ว ทำซ้ำได้ และสอนได้ทั้งทีม

การใช้งานอย่างมีความรับผิดชอบและความสมบูรณ์เชิงสร้างสรรค์#

ด้วยพลังที่มาพร้อมกับความรับผิดชอบ เสมอ:

  • รักษาความปลอดภัยสิทธิ์สำหรับทุกแหล่งที่คุณประมวลผล
  • หลีกเลี่ยงการใช้ SAM Audio เพื่อแยกหรือปรับปรุงการสนทนาส่วนตัวหรือการบันทึกที่ไม่ได้รับความยินยอม
  • จัดทำเอกสารพรอมต์และเหตุผลของคุณสำหรับลูกค้าและผู้ทำงานร่วมกัน
  • ตรวจสอบการแก้ไขเพื่อหาสิ่งประดิษฐ์ที่อาจบิดเบือนประสิทธิภาพหรือความตั้งใจ

SAM Audio มอบข้อดีเชิงสร้างสรรค์มากมาย แต่แนวทางปฏิบัติที่ดีที่สุดคือการจับคู่กับขอบเขตด้านจริยธรรมและขั้นตอนการทำงานที่โปร่งใส

SAM Audio เปรียบเทียบกับเครื่องมือแบบดั้งเดิมอย่างไร#

  • ขอบเขต
    • แบบดั้งเดิม: วัตถุประสงค์เดียว (ลบเสียงร้อง ลดเสียงรบกวน)
    • SAM Audio: โมเดลที่เป็นหนึ่งเดียวครอบคลุมงานแยกเสียงมากมาย
  • การควบคุม
    • แบบดั้งเดิม: เน้นพารามิเตอร์ มักเป็นทางเทคนิค
    • SAM Audio: พรอมต์ที่เป็นธรรมชาติ ข้อความ ภาพ ช่วงเวลา
  • เอาต์พุต
    • แบบดั้งเดิม: มักจะเป็นแทร็กที่ปรับปรุงแล้วหนึ่งแทร็ก
    • SAM Audio: เป้าหมายและส่วนที่เหลือสำหรับการมิกซ์ที่ยืดหยุ่น
  • เส้นโค้งการเรียนรู้
    • แบบดั้งเดิม: ชันกว่าสำหรับผู้ที่ไม่ใช่วิศวกร
    • SAM Audio: การแจ้งเตือนที่ใช้งานง่ายช่วยลดความซับซ้อนในการเริ่มต้นใช้งาน

สำหรับครีเอเตอร์ สิ่งที่ควรจำคือ: SAM Audio สามารถประหยัดเวลาได้หลายชั่วโมงต่อโปรเจ็กต์และปลดล็อกการแก้ไขที่ไม่สามารถทำได้ภายใต้กำหนดเวลาที่จำกัด

ลองเลยวันนี้#

คุณสามารถสำรวจ SAM Audio ได้ทันทีใน Segment Anything Playground และดาวน์โหลดโมเดลสำหรับงานในเครื่อง (แหล่งที่มา: about.fb.com) หากคุณยังใหม่ต่อเสียง AI ให้เริ่มต้นด้วยพรอมต์ Playground บนคลิปสั้นๆ หากคุณมีประสบการณ์ ให้เชื่อมต่อ SAM Audio เข้ากับเชนการนำเข้าหรือการแก้ไขบทสนทนาของคุณ และเปรียบเทียบผลลัพธ์กับปลั๊กอินปัจจุบันของคุณ

แหล่งที่มา#

  • ประกาศของ Meta: "โมเดล SAM Audio ใหม่ของเราเปลี่ยนการตัดต่อเสียง" (about.fb.com)
  • ภาพรวมทางเทคนิคและการประเมิน: "Meta AI เปิดตัว SAM Audio…" (marktechpost.com)
  • ความร่วมมือ จริยธรรม และข้อจำกัด: "Meta SAM AI Audio" (theregister.com)

ด้วยการเข้าถึงเสียงในแบบที่ครีเอเตอร์คิด อธิบาย ชี้ หรือทำเครื่องหมาย SAM Audio ทำให้การแยกเสียงที่ซับซ้อนเป็นเรื่องง่าย เป็นโมเดลที่เป็นหนึ่งเดียวที่ช่วยให้คุณแยกสิ่งที่สำคัญ เคลื่อนไหวได้เร็วขึ้น และรักษาแรงผลักดันในการสร้างสรรค์ของคุณให้เป็นไปตามเป้าหมาย

S
Author

Story321 AI Blog Team is dedicated to providing in-depth, unbiased evaluations of technology products and digital solutions. Our team consists of experienced professionals passionate about sharing practical insights and helping readers make informed decisions.

Start Creating with AI

Transform your creative ideas into reality with Story321 AI tools

Get Started Free

Related Articles