12月16日,阿里巴巴正式發布了新一代通義萬相2.6模型系列。它是中國首個支持角色扮演功能的影片生成模型,單個影片生成時長達到國內領先的15秒。
萬2.6集成了視聽同步、多鏡頭生成和音頻驅動影片創作等多項功能,開發者稱其為全球功能覆蓋最全面的影片生成模型之一。
這次更新不僅僅是對單一功能的增量改進;相反,同時推出了五個新模型,包括文本到影片、圖像到影片和文本到圖像,涵蓋了從圖像到影片生成的關鍵方面。這意味著萬2.6可以為專業電影製作和日常圖像創作提供全面的支持。
01 三大突破:萬2.6的核心能力#
萬2.6的突破不僅在於生成時長的增加,還在於其多功能集成和專業級的輸出質量。
新版本在影片質量、音效和指令遵循方面的全面改進基礎上,引入了角色扮演和鏡頭控制功能,使其成為中國功能最全的影片生成模型。
與9月發布的萬2.5相比,2.6版本在多個維度上都取得了顯著的提升。在權威的LMArena基準測試中,圖像到影片生成方面已經排名中國第一,2.6版本進一步擴大了這一領先優勢。
02 角色扮演:普通人也能主演自己的電影#
萬2.6最引人注目的功能是其在中國開創性的角色扮演能力。此功能允許普通用戶在電影級別的素材中呈現出色的表演。
用戶只需上傳個人影片,並輸入描述場景的文本提示。萬2.6便可以快速處理鏡頭設計、角色表演和配音等任務,在短短幾分鐘內生成一部完整的短片,具有連貫的敘事和電影級的攝影,幫助用戶實現成為電影明星的夢想。
從技術上講,通義萬相已將多種創新技術集成到模型架構中。它對輸入的參考影片進行多模態聯合建模和學習,分析時間上的連續特徵,如主體情感、姿勢和多角度視覺特徵,同時提取音色和語速等聲學特徵。
03 鏡頭控制:自動生成多鏡頭敘事#
萬2.6的鏡頭控制能力使其有別於普通的影片生成工具。此功能可以將簡單的用戶提示轉換為多鏡頭劇本,生成由多個攝像機鏡頭組成的連貫敘事影片。
通義萬相利用高層次的語義理解,將原始輸入構建成具有完整故事情節和敘事張力的專業多鏡頭片段。在鏡頭的無縫切換過程中,它保持了核心主體、場景佈局和環境氛圍的統一建模,確保影片在內容、節奏和情緒上高度一致。
此功能使萬2.6能夠理解和執行複雜的電影語言指令,只需一個命令即可完成專業攝影師和編輯的工作。
04 多音頻驅動:全球獨特的創新#
萬2.6也被認為是全球功能最全面的影片生成模型。它以包含"多音頻驅動"功能而聞名,其中多個音軌可以作為"驅動信號",影響角色動作、口型和鏡頭節奏,超越了簡單的後期製作配音,實現更自然的視聽同步。
這種技術亮點使萬2.6能夠實現更逼真的視聽同步效果。通過對參考影片進行多模態聯合建模,同時提取時間視覺特徵和聲學特徵,該模型在生成過程中實現了圖片和聲音的完整感官一致性遷移。
05 實際應用場景:從個人娛樂到專業創作#
萬2.6的出現將進一步降低影片創作的門檻,並擴大AI影片生成的應用邊界。
對於個人用戶而言,萬2.6提供了極具吸引力的娛樂體驗。只需上傳個人影片並輸入文本提示,用戶就可以生成以自己為主角的創意短片,例如科幻或懸疑片段。
在專業創作領域,例如廣告設計和短劇製作,萬2.6可以根據連續的提示生成完整的敘事短片。
例如,輸入描述廣告概念的提示,萬2.6可以製作出以角色和產品為特色的商業影片,在多個鏡頭切換中保持主體和場景等關鍵信息的一致性。
目前,萬相模型系列支持10多種不同的視覺創作能力,包括文本到圖像、圖像編輯、文本到影片、圖像到影片和角色扮演。它已經廣泛應用於AI漫畫系列、廣告設計和短影片創作等領域。
06 如何訪問:便捷的多平台體驗#
萬2.6現在已在多個平台上提供,為用戶提供多樣化的訪問選擇:
- 通義萬相官方網站:個人用戶可以直接在官方網站上免費體驗基本功能。
- 阿里云百煉平台:為企業和開發人員提供API接口,以便集成到他們自己的應用程序中。
- story321.com平台:用戶還可以在這個專注於AI故事生成的平台上使用萬2.6。它經過特別優化,可用於生成敘事內容,使其適用於創建短影片故事、動畫和類似內容。
對於專業用戶和企業,建議通過阿里云百煉平台訪問API服務,以獲得更穩定的性能和支持。對於個人用戶和創意愛好者,萬相官方網站和story321.com提供了零門檻的體驗機會。Story321.com特別適合想要創建連貫故事內容的用戶。
萬2.6的到來標誌著AI影片生成技術已從簡單的圖像序列創建發展到全面的電影創作的新階段。它不僅降低了專業影片製作的門檻,還使每個人都能方便地表達自己的創造力,實現"人人都可以當導演"的願景。
目前,萬2.6已在阿里云百煉、通義萬相官方網站和story321.com平台上提供。每個人都可以在這些平台上直接體驗它,企業用戶也可以通過阿里云百煉調用模型API。據報導,千問APP也將很快推出該模型,提供更豐富的互動方式。



