SAM Audio: โปรแกรมแก้ไขเสียงแบบมัลติโมดอลที่เป็นหนึ่งเดียวที่ครีเอเตอร์ทุกคนรอคอย

SAM Audio คืออะไร—และทำไมครีเอเตอร์ถึงควรสนใจ#

หากคุณเคยพยายามที่จะปรับปรุงเสียงพูดท่ามกลางเสียงรบกวนจากการจราจร ดึงไลน์กีตาร์ออกจากมิกซ์สด หรือทำให้เสียงไอเงียบลงกลางเสียงบรรยาย คุณจะรู้ว่าการตัดต่อเสียงนั้นซับซ้อนเพียงใด SAM Audio คือโมเดล AI แบบรวมใหม่ของ Meta สำหรับการแยกเสียงที่แม่นยำ ซึ่งตอบโจทย์ครีเอเตอร์ในทุกขั้นตอนการทำงาน แทนที่จะต้องใช้ปลั๊กอินเฉพาะทางหลายตัว หรือแก้ไขรูปคลื่นด้วยตนเอง SAM Audio ช่วยให้คุณสามารถแยก ลบ และรีมิกซ์เสียงจากส่วนผสมที่ซับซ้อนได้โดยใช้คำสั่งที่ใช้งานง่าย ไม่ว่าจะเป็นข้อความ ภาพ หรือช่วงเวลาที่กำหนด

SAM Audio แตกต่างจากเครื่องมือทั่วไปที่สร้างขึ้นสำหรับงานแคบๆ อย่างเดียว (เช่น การลบเสียงร้องหรือการลดเสียงรบกวนเท่านั้น) โดยได้รับการออกแบบให้เป็นระบบเดียวที่ยืดหยุ่น ซึ่งปรับให้เข้ากับสถานการณ์ต่างๆ ได้มากมาย สำหรับผู้สร้างคอนเทนต์ นั่นหมายถึงอุปสรรคทางเทคนิคน้อยลง การแก้ไขที่รวดเร็วขึ้น และมีสมาธิกับการเล่าเรื่องมากขึ้น กล่าวโดยสรุป SAM Audio สัญญาว่าจะควบคุมเสียงระดับมืออาชีพที่เข้าถึงได้ รวดเร็ว และหลากหลายรูปแบบ

ตามประกาศของ Meta สามารถดาวน์โหลดและทดลองใช้ SAM Audio ได้ใน Segment Anything Playground ซึ่งทำให้เป็นเครื่องมือที่ใช้งานได้จริงที่คุณสามารถทดสอบได้อย่างรวดเร็วในขั้นตอนการทำงานปัจจุบันของคุณ (แหล่งที่มา: about.fb.com) รายงานจากแหล่งข่าวอื่นๆ ยังระบุว่าระบบนี้มีประสิทธิภาพล้ำสมัยด้วยแนวทางที่เป็นหนึ่งเดียว ซึ่งเข้ามาแทนที่เครื่องมือเฉพาะทางหลายอย่างที่บรรณาธิการส่วนใหญ่ใช้ในปัจจุบัน (แหล่งที่มา: marktechpost.com)

ปัญหาที่ SAM Audio แก้ไข#

เสียงเป็นสิ่งที่ยุ่งเหยิง การมิกซ์เสียงในโลกแห่งความเป็นจริงมักจะมีเหตุการณ์ที่ทับซ้อนกัน เช่น เสียงพูด เครื่องดนตรี บรรยากาศ เอฟเฟกต์ ทำให้ยากต่อการลบหรือปรับปรุงองค์ประกอบหนึ่งโดยไม่ทำลายองค์ประกอบอื่นๆ โดยทั่วไปแล้วขั้นตอนการทำงานแบบเดิมๆ จะต้องใช้:

ปลั๊กอินเฉพาะทางหลายตัวที่เชื่อมต่อกัน
การแก้ไขด้วยตนเองที่ต้องใช้เวลานาน (การวาดสเปกโตรแกรม การปรับ EQ อัตโนมัติ เกท/การขยาย)
การส่งออกแบบลองผิดลองถูกเพื่อให้ได้ผลลัพธ์ที่ยอมรับได้

SAM Audio แก้ปัญหาความกระจัดกระจายนี้โดยนำเสนอโมเดลเดียวที่ทำการแยกเสียงด้วยภาษาธรรมชาติ การคลิกบนหน้าจอ หรือการเลือกช่วงเวลา สำหรับครีเอเตอร์ นั่นหมายถึงแอปที่น้อยลง การลองผิดลองถูกที่ล้มเหลวน้อยลง และผลลัพธ์ที่คาดการณ์ได้มากขึ้นจากเครื่องมือที่เป็นหนึ่งเดียว

แนวคิดหลัก: พรอมต์แบบมัลติโมดอลใน SAM Audio#

ความสามารถที่โดดเด่นของ SAM Audio คือความยืดหยุ่นของพรอมต์ คุณสามารถแนะนำโมเดลได้โดยใช้:

พรอมต์ข้อความ: พิมพ์สิ่งที่คุณต้องการแยกหรือลบ เช่น "เสียงสุนัขเห่า" "เสียงร้องนำ" "เสียงปรบมือ" หรือ "เสียงในห้อง"
พรอมต์ภาพ: คลิกที่วัตถุภายในเฟรมวิดีโอ เช่น มอเตอร์ไซค์หรือนักร้อง แล้ว SAM Audio จะอนุมานเสียงที่เกี่ยวข้องในการมิกซ์
พรอมต์ช่วงเวลา: ทำเครื่องหมายช่วงเวลาบนไทม์ไลน์เพื่อกำหนดเป้าหมายเสียงที่โดดเด่นในช่วงเวลานั้น

ตัวเลือกเหล่านี้ช่วยให้คุณอธิบายความตั้งใจของคุณในแบบที่คุณคิดตามธรรมชาติ: โดยการตั้งชื่อ ชี้ หรือไฮไลต์ สำหรับขั้นตอนการทำงานของเสียงและวิดีโอแบบไฮบริด พรอมต์ภาพมีประสิทธิภาพเป็นพิเศษ เพราะเชื่อมโยงสิ่งที่คุณเห็นกับสิ่งที่คุณต้องการได้ยิน

ภายใต้หน้ากาก: SAM Audio ทำงานอย่างไร (ในภาษาที่เข้าใจง่าย)#

สำหรับครีเอเตอร์ที่ชื่นชมสิ่งที่เกิดขึ้นเบื้องหลัง SAM Audio ผสมผสานตัวเข้ารหัสเฉพาะทางและแกนกลางแบบสร้างสรรค์:

ตัวเข้ารหัสแบบมัลติโมดอล: ตัวเข้ารหัสเฉพาะจะตีความส่วนผสมเสียง คำแนะนำข้อความ ช่วงเวลาที่ทำเครื่องหมาย และสัญญาณภาพเสริมจากวิดีโอ สิ่งนี้ช่วยให้ SAM Audio "เข้าใจ" ทั้งสิ่งที่อยู่ในเสียงและสิ่งที่คุณต้องการจากเสียง
Diffusion transformer: กระดูกสันหลังแบบสร้างสรรค์ปรับแต่งการแยกเสียงในหลายขั้นตอน ช่วยให้โมเดลแยกเหตุการณ์ที่ทับซ้อนกันด้วยความเที่ยงตรงสูง
DACVAE decoder: ขั้นตอนสุดท้ายสร้างรูปคลื่นที่สะอาดจากตัวแทนภายในของโมเดล ส่งมอบเสียง "เป้าหมาย" ที่แยกออกมาและ "ส่วนที่เหลือ" ที่สมบูรณ์

ผลลัพธ์ที่ได้คืออะไร SAM Audio สามารถส่งออกสองแทร็กที่ซิงโครไนซ์กันได้:

target: เสียงที่คุณขอ
residual: ทุกสิ่งทุกอย่างที่เหลืออยู่ในส่วนผสม

การออกแบบเอาต์พุตนี้ทำให้การแก้ไขเป็นไปอย่างง่ายดาย: เก็บเป้าหมาย เก็บส่วนที่เหลือ ผสมผสานทั้งสอง หรือประมวลผลแต่ละแทร็กต่างกันเพื่อให้ได้การควบคุมแบบภาพยนตร์

ขนาดโมเดล ตัวแปร และประสิทธิภาพ#

SAM Audio มีให้เลือกหลายขนาดเพื่อให้ตรงกับฮาร์ดแวร์และความเร็วที่คุณต้องการ:

sam-audio-small
sam-audio-base
sam-audio-large

สำหรับขั้นตอนการทำงานที่เน้นการเลือกเสียงที่ขับเคลื่อนด้วยวิดีโอเป็นอย่างมาก จะมีตัวแปร tv เพิ่มเติมที่ปรับปรุงประสิทธิภาพเมื่อใช้พรอมต์ภาพ จากการประเมินเชิงอัตวิสัยที่รายงาน คะแนนจะแตกต่างกันไปตามหมวดหมู่ (เช่น เอฟเฟกต์ทั่วไป เสียงพูด ดนตรี เครื่องดนตรี) โดย sam-audio-large ได้รับคะแนนสูงสุดในการทดสอบหลายครั้ง สูงถึง 4.49 ในหมวดหมู่ Instr(pro) ซึ่งบ่งชี้ถึงคุณภาพการแยกเสียงที่แข็งแกร่งสำหรับเนื้อหาระดับมืออาชีพ (แหล่งที่มา: marktechpost.com)

นอกจากนี้ยังมีโมเดลการประเมินคู่หู sam-audio-judge ซึ่งมีวัตถุประสงค์เพื่อช่วยให้คะแนนผลลัพธ์การแยกเสียงโดยอัตโนมัติ ในขณะที่ครีเอเตอร์ยังคงเชื่อมั่นในหูของตนเอง เครื่องมืออย่าง sam-audio-judge สามารถเร่งความเร็ว QA การทดสอบเป็นชุด หรือการเปรียบเทียบ A/B ได้

สิ่งที่คุณสามารถทำได้ด้วย SAM Audio: สถานการณ์จริงของครีเอเตอร์#

SAM Audio ได้รับการออกแบบมาให้เข้ากับสาขาวิชาสร้างสรรค์ต่างๆ นี่คือขั้นตอนการทำงานที่เป็นประโยชน์สำหรับบทบาทต่างๆ:

ผู้สร้างและบรรณาธิการวิดีโอ
- ดึงเสียงพูดจากถนนที่มีเสียงดังโดยใช้พรอมต์ข้อความ "เสียงผู้บรรยาย" แล้วลดเสียงรบกวนจากถนนที่เหลือ
- คลิกที่ยานพาหนะบนหน้าจอเพื่อแยกเสียงเครื่องยนต์และควบคุมเสียงเหล่านั้นอย่างอิสระในการมิกซ์
- แยกปฏิกิริยาของฝูงชนจากฟุตเทจกีฬาเพื่อเน้นพลังงานของผู้ชมในไฮไลท์รีล
ผู้จัดรายการพอดแคสต์และผู้สัมภาษณ์
- ใช้พรอมต์ช่วงเวลาเพื่อทำความสะอาดเสียงไอ เสียงโทรศัพท์ หรือเสียงไมค์กระแทกภายในช่วงเวลาที่กำหนด
- แยกเสียงโฮสต์และแขกรับเชิญออกเป็นแทร็กเป้าหมายแยกกันเพื่อการบีบอัดและ EQ ที่สอดคล้องกัน
- ลบเสียงฮัมของ HVAC หรือบรรยากาศร้านกาแฟในขณะที่ยังคงความอบอุ่นของเสียงไว้โดยการผสมผสานเป้าหมายและส่วนที่เหลือ
นักดนตรีและโปรดิวเซอร์
- แยกเสียงร้องหรือสเต็มกลองจากการตีกลับเดโมโดยใช้พรอมต์ข้อความเช่น "เสียงร้องนำ" หรือ "กระเดื่อง"
- ใช้ส่วนที่เหลืออย่างสร้างสรรค์เป็นเตียง "ลบหนึ่ง" สำหรับการจัดเรียงใหม่ รีมิกซ์ หรือการถ่ายทำสำรอง
- แยกไลน์กีตาร์เพื่อเลเยอร์ด้วยเอฟเฟกต์สำหรับการออกแบบเสียงที่สร้างสรรค์
นักพากย์และผู้บรรยาย
- แยกการอ่านออกจากเสียงในห้องโดยไม่มีสิ่งประดิษฐ์เกทที่หนักหน่วง
- ใช้พรอมต์ช่วงเวลาเพื่อลบเสียงคลิก เสียงริมฝีปาก หรือการพลิกหน้าที่เกิดขึ้นในบางช่วงเวลา
- ส่งมอบเสียงเป้าหมายที่สะอาดให้กับลูกค้าในขณะที่นำเสนอแทร็กที่เหลือเพื่อรักษาสภาพแวดล้อมเมื่อจำเป็น
นักออกแบบโมชั่นและศิลปิน VFX
- คลิกที่องค์ประกอบแอนิเมชั่นในวิดีโอเพื่อปรับปรุงหรือจัดสไตล์เสียงที่สอดคล้องกัน
- ใช้พรอมต์ข้อความเพื่อค้นหาและเพิ่ม Foley ที่ละเอียดอ่อน (ผ้า เสียงฝีเท้า) โดยไม่ต้องบันทึกใหม่
นักวิจัยและนักการศึกษา
- แบ่งส่วนเหตุการณ์เสียงสำหรับการวิเคราะห์ การติดฉลาก หรือการเตรียมชุดข้อมูล
- ศึกษาฉากการได้ยินโดยแบ่งพาร์ติชันการบันทึกในโลกแห่งความเป็นจริงที่ซับซ้อนออกเป็นเลเยอร์ที่เข้าใจได้
การเข้าถึงและเสียงช่วยเหลือ
- เน้นความชัดเจนของเสียงพูดสำหรับเนื้อหาเพื่อการศึกษาหรือแทร็กคำอธิบายเสียง
- ความร่วมมือกับองค์กรต่างๆ เช่น Starkey และ 2gether-International บ่งบอกถึงการสำรวจอย่างต่อเนื่องเกี่ยวกับการได้ยินและการใช้งานเพื่อการเข้าถึง (แหล่งที่มา: theregister.com)

ในทุกกรณีเหล่านี้ SAM Audio รวมศูนย์สิ่งที่เคยต้องใช้เครื่องมือหลายอย่าง ทำให้การทำซ้ำเร็วขึ้นและการแก้ไขมีความมั่นใจมากขึ้น

ลงมือปฏิบัติจริง: วิธีใช้ SAM Audio ใน Segment Anything Playground#

วิธีที่เร็วที่สุดในการสำรวจ SAM Audio คือการลองใช้ใน Segment Anything Playground นี่คือคำแนะนำที่เป็นมิตรกับครีเอเตอร์:

เตรียมแหล่งที่มาของคุณ
- ใช้คลิบทดสอบสั้นๆ (10–60 วินาที) จากโปรเจ็กต์ของคุณ เสียงพูด ดนตรี หรือบรรยากาศแบบผสมผสานก็ใช้ได้
- หากใช้วิดีโอ ตรวจสอบให้แน่ใจว่ามีเสียงที่ซิงค์กัน ซึ่งจะปลดล็อกการแจ้งเตือนด้วยภาพ
เลือกโหมดพรอมต์ของคุณ
- ข้อความ: อธิบายเป้าหมายเช่น "เสียงปรบมือ" "เสียงร้องนำ" "เสียงแตรรถ" หรือ "เสียงฝีเท้า"
- ภาพ: หยุดชั่วคราวบนเฟรม คลิกที่วัตถุ (เช่น นักร้อง สุนัข มอเตอร์ไซค์) เพื่อนำ SAM Audio ไปยังแหล่งกำเนิดเสียงที่ถูกต้อง
- ช่วงเวลา: ลากไปตามไทม์ไลน์เพื่อไฮไลต์พื้นที่ที่มีปัญหา (เช่น เสียงไอระหว่าง 00:23–00:25)
เรียกใช้การแยกเสียง
- เริ่มต้นการประมวลผลและดูตัวอย่างเอาต์พุต "เป้าหมาย" และ "ส่วนที่เหลือ" ของโมเดล
- สลับระหว่างการเล่นเฉพาะเป้าหมาย เฉพาะส่วนที่เหลือ และแบบผสมผสานเพื่อประเมินผลลัพธ์
ปรับแต่งพรอมต์
- หากเป้าหมายมีเสียงรั่วไหลที่ไม่ต้องการ ให้ปรับพรอมต์ข้อความให้คมชัดขึ้น หรือเพิ่มพรอมต์ช่วงเวลาเพื่อเน้นที่ช่วงเวลาที่แหล่งที่มาสะอาดที่สุด
- สำหรับวิดีโอ ให้ปรับการคลิกด้วยภาพของคุณให้ตรงกับแหล่งที่มาของเสียงให้ดีขึ้น
ส่งออกเพื่อแก้ไข
- ส่งออกเป้าหมายและส่วนที่เหลือเป็นแทร็กแยกกัน
- นำทั้งสองอย่างเข้าสู่ NLE หรือ DAW ของคุณ (Premiere Pro, Final Cut, Resolve, Pro Tools, Reaper ฯลฯ)
- มิกซ์ EQ หรือบีบอัดเป้าหมายอย่างอิสระ ใช้ส่วนที่เหลือเพื่อรักษาสภาพแวดล้อมทางธรรมชาติ
สร้างเวอร์ชันและเปรียบเทียบ
- ลองใช้รูปแบบพรอมต์หลายแบบและสังเกตแบบที่ฟังดูดีที่สุด
- หากมี ให้ใช้ sam-audio-judge หรือการทดสอบอ้างอิงของคุณเองเพื่อวัดปริมาณการปรับปรุง

ด้วยลูปนี้ SAM Audio จะกลายเป็นส่วนขยายที่สร้างสรรค์มากกว่ากล่องดำ ถาม ฟัง ปรับแต่ง ส่งออก

การตั้งค่าในเครื่อง: การใช้ SAM Audio บนเครื่องของคุณ#

เมื่อคุณพร้อมที่จะรวม SAM Audio เข้ากับการผลิต:

ดาวน์โหลดขนาดโมเดลที่เหมาะสม
- เริ่มต้นด้วย sam-audio-base เพื่อความเร็วและคุณภาพที่สมดุล ย้ายไปที่ sam-audio-large สำหรับงานที่สำคัญหรือฮาร์ดแวร์ระดับไฮเอนด์ ใช้ sam-audio-small สำหรับฉบับร่างอย่างรวดเร็ว
เลือกเฟรมเวิร์ก
- ใช้การใช้งานอย่างเป็นทางการหรือไลบรารีที่รองรับใน Python ด้วย API ที่ตรงไปตรงมาสำหรับการรันการอนุมานและการจัดการเอาต์พุตเป้าหมาย/ส่วนที่เหลือ
จัดโครงสร้างไปป์ไลน์ของคุณ
- นำเข้า: โหลดสื่อของคุณ เลือกที่จะแยกเสียงออกจากวิดีโอ
- พรอมต์: เลือกข้อความ ภาพ (พร้อมการสุ่มตัวอย่างเฟรม) หรือช่วงเวลาจากไทม์ไลน์ NLE/DAW ของคุณ
- แยก: รันการอนุมาน SAM Audio เพื่อสร้างเป้าหมายและส่วนที่เหลือ
- โพสต์: ใช้เชนการประมวลผลมาตรฐานของคุณ (EQ การบีบอัด รีเวิร์บ การลดเสียงรบกวน) กับเป้าหมาย เลือกที่จะผสมผสานกับส่วนที่เหลือเพื่อความสมจริง
- ส่งออก: เรนเดอร์สเต็มและเก็บถาวรพรอมต์เพื่อความสามารถในการทำซ้ำ
ทำให้งานเป็นชุดเป็นไปโดยอัตโนมัติ
- สำหรับพอดแคสต์หรือเว็บซีรีส์ ให้เขียนสคริปต์การรันจำนวนมากด้วยพรอมต์ที่สอดคล้องกัน (เช่น "เสียงโฮสต์" "เสียงในห้อง") เพื่อให้เสียงสม่ำเสมอในทุกตอน
ตรวจสอบคุณภาพ
- ตรวจสอบจุดสำคัญด้วยหูฟังและลำโพง
- หากมี ให้รวมการฟังเชิงอัตวิสัยกับการให้คะแนนอัตโนมัติ

การแก้ไขการเคลื่อนไหวที่ปลดล็อกโดยเอาต์พุตเป้าหมาย/ส่วนที่เหลือ#

การออกแบบสองแทร็กของ SAM Audio ช่วยให้ครีเอเตอร์ควบคุมได้อย่างละเอียด:

การทำความสะอาดแบบไม่ทำลาย
- รักษาส่วนที่เหลือให้ต่ำภายใต้เสียงพูดเพื่อรักษาสภาพแวดล้อมทางเสียงโดยไม่มีเกทที่รุนแรง
รีมิกซ์ที่สร้างสรรค์
- ใช้เฉพาะเป้าหมายเพื่อสร้างการจัดเรียงใหม่ เลเยอร์ส่วนที่เหลือด้วยเอฟเฟกต์สำหรับเตียงพื้นผิว
การหลบเลี่ยงที่แม่นยำ
- ไซด์เชนเพลงจากเสียงพูดโดยลดทอนส่วนที่เหลืออย่างแม่นยำในตำแหน่งที่เกิดเสียงพูด
การเปลี่ยนเสียง
- ลบ SFX ที่มีปัญหาออกจากส่วนที่เหลือและแทนที่ด้วยแอสเซทไลบรารีที่สะอาดกว่า

การเคลื่อนไหวเหล่านี้ทำได้เร็วกว่าและน่าเชื่อถือมากกว่าเพราะ SAM Audio แยก "อะไร" ที่เป็นเสียงที่คุณขอ แทนที่จะบังคับให้คุณแกะสลักรอบๆ ด้วย EQ เกท หรือรอยพิมพ์เสียงรบกวนแบบแนร์โรว์แบนด์

เคล็ดลับการแจ้งเตือนที่ให้ผลลัพธ์ที่ดีกว่า#

เช่นเดียวกับเครื่องมือที่ใช้ AI ช่วย SAM Audio ตอบสนองได้ดีที่สุดต่อคำแนะนำที่ชัดเจน:

ระบุรายละเอียดในพรอมต์ข้อความ
- "เสียงร้องหญิงนำ" มีประสิทธิภาพเหนือกว่า "เสียงร้อง" และ "เสียงตบมือเดียว" ดีกว่า "เสียงตบมือ"
รวมพรอมต์
- จับคู่คำอธิบายข้อความกับพรอมต์ช่วงเวลาระหว่างการเกิดขึ้นของเสียงที่ชัดเจนที่สุด
ใช้พรอมต์ภาพสำหรับแหล่งที่มาแบบผสม
- ในวิดีโอ การคลิกที่วัตถุจะช่วยให้ SAM Audio แยกแยะเสียงที่ทับซ้อนกันได้
ทำซ้ำอย่างรวดเร็ว
- ลองใช้การเรียบเรียงพรอมต์สองหรือสามแบบ เลือกแบบที่ดีที่สุดด้วยหูและความสอดคล้องของความดัง

ประสิทธิภาพ ข้อจำกัด และความสมจริง#

รายงานเน้นผลลัพธ์ที่แข็งแกร่งในหลายหมวดหมู่ โดยเฉพาะอย่างยิ่งกับโมเดลที่ใหญ่กว่า ถึงกระนั้น SAM Audio ก็ไม่ใช่เวทมนตร์:

เหตุการณ์ที่คล้ายคลึงกันมากอาจเป็นเรื่องท้าทาย
- การแยกเครื่องดนตรีสองชิ้นที่เกือบจะเหมือนกันซึ่งเล่นพร้อมกันอาจทำให้เกิดการรั่วไหล
วงดนตรีหนาแน่นต่อต้านการแยก
- การดึงเครื่องดนตรีชิ้นหนึ่งออกจากวงออร์เคสตราเต็มรูปแบบหรือการมิกซ์ที่บีบอัดอย่างหนักนั้นเป็นเรื่องยากโดยธรรมชาติ
ข้อจำกัดของพรอมต์
- SAM Audio ไม่ใช้คลิปเสียงเป็นพรอมต์ อาศัยข้อความ ช่วงเวลา และคำแนะนำด้วยภาพ
จริยธรรมและความปลอดภัย
- การรายงานข่าวของสื่อได้หยิบยกข้อกังวลเกี่ยวกับการใช้งานในทางที่ผิดที่อาจเกิดขึ้น (เช่น การสอดแนม) โดยเน้นย้ำถึงความจำเป็นในการปรับใช้ที่รับผิดชอบและการยินยอมที่ชัดเจนในขั้นตอนการทำงานของการผลิต (แหล่งที่มา: theregister.com)

แม้จะมีข้อจำกัด แต่แนวทางที่เป็นหนึ่งเดียวและการแจ้งเตือนแบบมัลติโมดอลทำให้ SAM Audio เป็นการอัปเกรดที่ใช้งานได้จริงสำหรับงานแก้ไขในโลกแห่งความเป็นจริงส่วนใหญ่

SAM Audio เหมาะสมกับ Toolchain ของคุณที่ไหน#

แทนที่จะแทนที่ DAW หรือ NLE ของคุณ SAM Audio จะเติมเต็มสิ่งเหล่านั้น:

การทำความสะอาดก่อนแก้ไข
- แยกเสียงพูดเป้าหมายก่อน จากนั้นใช้ EQ และการบีบอัดโดยมีสิ่งประดิษฐ์น้อยลง
การปรับปรุงกลางแก้ไข
- แยกเอฟเฟกต์เสียงเพื่อสร้างความตื่นเต้นให้กับการตัดหรือการเปลี่ยนภาพโดยไม่ทำให้การมิกซ์ขุ่นมัว
การขัดเงาขั้นสุดท้าย
- ใช้การปรับสมดุลส่วนที่เหลือสำหรับสภาพแวดล้อมทางธรรมชาติแทนที่จะลดเสียงรบกวนอย่างหนัก

สำหรับทีมที่ทำงานร่วมกัน ให้แชร์สเต็มเป้าหมาย/ส่วนที่เหลือพร้อมกับเครื่องหมายที่อธิบายพรอมต์ของคุณ สิ่งนี้ทำให้การแก้ไขเร็วขึ้นและทำให้ความตั้งใจสร้างสรรค์โปร่งใส

การใช้ประโยชน์สูงสุดจากตัวแปรโมเดล#

เลือกตัวแปร SAM Audio ที่เหมาะสมสำหรับโปรเจ็กต์ของคุณ:

sam-audio-small
- ฉบับร่างอย่างรวดเร็ว คลิปโซเชียล และมิกซ์ชั่วคราว
sam-audio-base
- ตอนต่างๆ บทช่วยสอน และเนื้อหาที่มีตราสินค้าในชีวิตประจำวัน
sam-audio-large
- ภาพยนตร์ เพลง หรือโปรเจ็กต์ออกอากาศที่มีเดิมพันสูงซึ่งความแตกต่างมีความสำคัญ
ตัวแปร tv
- โปรเจ็กต์ที่เน้นวิดีโอเป็นหลักซึ่งการแจ้งเตือนด้วยภาพเป็นศูนย์กลางของขั้นตอนการทำงานของคุณ

หากคุณมีข้อจำกัดด้าน GPU ให้เริ่มต้นเล็กๆ สำหรับการสร้างแนวคิด จากนั้นเรียกใช้ฉากสำคัญอีกครั้งด้วย sam-audio-large สำหรับมาสเตอร์ขั้นสุดท้าย

ตัวอย่างเริ่มต้นจนจบอย่างรวดเร็ว#

ลองนึกภาพการสัมภาษณ์ 3 นาทีที่ถ่ายทำกลางแจ้งโดยมีการจราจรและนักดนตรีข้างถนนอยู่ใกล้ๆ

ใน Playground ให้โหลดวิดีโอและใช้พรอมต์ข้อความ: "เสียงผู้ให้สัมภาษณ์"
เพิ่มพรอมต์ช่วงเวลาเหนือประโยคที่ผู้พูดถูกแยกออกเพื่อให้ได้คิวที่ดีที่สุด
ดูตัวอย่างเป้าหมาย (เสียง) และส่วนที่เหลือ (ทุกสิ่งทุกอย่าง) หากกีตาร์รั่วไหลเข้ามา ให้เพิ่มการส่งผ่านครั้งที่สองโดยมี "กีตาร์อะคูสติก" เป็นเป้าหมายเพื่อสร้างสเต็มแยกต่างหาก
ส่งออกสเต็ม ใน NLE/DAW ของคุณ ให้บีบอัดและลดเสียงเสียดแทรกเป้าหมายเสียง เพิ่ม NR เล็กน้อยให้กับส่วนที่เหลือ ผสมผสานส่วนที่เหลืออย่างละเอียดเพื่อพื้นที่ธรรมชาติ
เรนเดอร์ขั้นสุดท้ายด้วยเสียงพูดที่สะอาดกว่าและสภาพแวดล้อมที่ควบคุมได้ ไม่มีการถ่ายทำใหม่ ไม่มีการ ADR ไม่มีการผ่าตัดสเปกตรัมที่หนักหน่วง

SAM Audio ทำให้ไปป์ไลน์นี้รวดเร็ว ทำซ้ำได้ และสอนได้ทั้งทีม

การใช้งานอย่างมีความรับผิดชอบและความสมบูรณ์เชิงสร้างสรรค์#

ด้วยพลังที่มาพร้อมกับความรับผิดชอบ เสมอ:

รักษาความปลอดภัยสิทธิ์สำหรับทุกแหล่งที่คุณประมวลผล
หลีกเลี่ยงการใช้ SAM Audio เพื่อแยกหรือปรับปรุงการสนทนาส่วนตัวหรือการบันทึกที่ไม่ได้รับความยินยอม
จัดทำเอกสารพรอมต์และเหตุผลของคุณสำหรับลูกค้าและผู้ทำงานร่วมกัน
ตรวจสอบการแก้ไขเพื่อหาสิ่งประดิษฐ์ที่อาจบิดเบือนประสิทธิภาพหรือความตั้งใจ

SAM Audio มอบข้อดีเชิงสร้างสรรค์มากมาย แต่แนวทางปฏิบัติที่ดีที่สุดคือการจับคู่กับขอบเขตด้านจริยธรรมและขั้นตอนการทำงานที่โปร่งใส

SAM Audio เปรียบเทียบกับเครื่องมือแบบดั้งเดิมอย่างไร#

ขอบเขต
- แบบดั้งเดิม: วัตถุประสงค์เดียว (ลบเสียงร้อง ลดเสียงรบกวน)
- SAM Audio: โมเดลที่เป็นหนึ่งเดียวครอบคลุมงานแยกเสียงมากมาย
การควบคุม
- แบบดั้งเดิม: เน้นพารามิเตอร์ มักเป็นทางเทคนิค
- SAM Audio: พรอมต์ที่เป็นธรรมชาติ ข้อความ ภาพ ช่วงเวลา
เอาต์พุต
- แบบดั้งเดิม: มักจะเป็นแทร็กที่ปรับปรุงแล้วหนึ่งแทร็ก
- SAM Audio: เป้าหมายและส่วนที่เหลือสำหรับการมิกซ์ที่ยืดหยุ่น
เส้นโค้งการเรียนรู้
- แบบดั้งเดิม: ชันกว่าสำหรับผู้ที่ไม่ใช่วิศวกร
- SAM Audio: การแจ้งเตือนที่ใช้งานง่ายช่วยลดความซับซ้อนในการเริ่มต้นใช้งาน

สำหรับครีเอเตอร์ สิ่งที่ควรจำคือ: SAM Audio สามารถประหยัดเวลาได้หลายชั่วโมงต่อโปรเจ็กต์และปลดล็อกการแก้ไขที่ไม่สามารถทำได้ภายใต้กำหนดเวลาที่จำกัด

ลองเลยวันนี้#

คุณสามารถสำรวจ SAM Audio ได้ทันทีใน Segment Anything Playground และดาวน์โหลดโมเดลสำหรับงานในเครื่อง (แหล่งที่มา: about.fb.com) หากคุณยังใหม่ต่อเสียง AI ให้เริ่มต้นด้วยพรอมต์ Playground บนคลิปสั้นๆ หากคุณมีประสบการณ์ ให้เชื่อมต่อ SAM Audio เข้ากับเชนการนำเข้าหรือการแก้ไขบทสนทนาของคุณ และเปรียบเทียบผลลัพธ์กับปลั๊กอินปัจจุบันของคุณ

แหล่งที่มา#

ประกาศของ Meta: "โมเดล SAM Audio ใหม่ของเราเปลี่ยนการตัดต่อเสียง" (about.fb.com)
ภาพรวมทางเทคนิคและการประเมิน: "Meta AI เปิดตัว SAM Audio…" (marktechpost.com)
ความร่วมมือ จริยธรรม และข้อจำกัด: "Meta SAM AI Audio" (theregister.com)

ด้วยการเข้าถึงเสียงในแบบที่ครีเอเตอร์คิด อธิบาย ชี้ หรือทำเครื่องหมาย SAM Audio ทำให้การแยกเสียงที่ซับซ้อนเป็นเรื่องง่าย เป็นโมเดลที่เป็นหนึ่งเดียวที่ช่วยให้คุณแยกสิ่งที่สำคัญ เคลื่อนไหวได้เร็วขึ้น และรักษาแรงผลักดันในการสร้างสรรค์ของคุณให้เป็นไปตามเป้าหมาย