AI Models Directory

AI 模型目錄

探索與比較全球頂尖公司的最新 AI 模型。

Providers

AI Models

⚡

Updated Daily

All AI Models (50)

Browse our comprehensive collection of AI models

Model	Provider	Updated
GLM OCR 探索 GLM OCR 的強大功能，這是下一代光學字元辨識工具。以無與倫比的準確性、語義理解和速度將圖像轉換為可操作的資料。非常適合開發人員和企業。	Zhipu AI	N/A
Grok Imagine Video 探索 Grok Imagine Video 的強大功能，這是一種最先進的生成模型，可將文字轉化為令人驚嘆的高保真影片內容。在 story321.com 上體驗無與倫比的速度、真實感和創意控制。	xAI	N/A
LTX-2 探索 LTX-2 的強大功能，這是 story321 上提供的最先進的影片生成模型。透過 LTX-2 體驗閃電般的渲染速度、電影級品質和無與倫比的一致性。	Lightricks	N/A
Qwen Image Edit 探索 Qwen Image Edit 的強大功能，這是一種專為創作者和開發人員設計的最先進的基於指令的圖像編輯模型。使用 story321.com 上的自然語言命令精確地轉換視覺效果。	Alibaba AI	N/A
Ray 3 使用 Ray 3 解鎖內容創作的未來，Ray 3 是 Story321 上最先進的生成式影片模型。體驗前所未有的速度、照片般逼真的品質和電影級運動控制。	Luma AI	N/A
Chatterbox Turbo 探索 Chatterbox Turbo 的強大功能，這是一種最先進的即時語音生成模型，專為無縫對話式 AI 而設計。體驗超低延遲、如真人般逼真的音質以及無與倫比的應用程式可擴展性。	Resemble AI	N/A
Hunyuan Motion Hunyuan Motion 是一個尖端的文本到 3D 人體動作生成套件，可將自然語言轉換為高質量、基於骨架的角色動畫。Hunyuan Motion 建立在一個擁有十億參數的 Diffusion Transformer 和 Flow Matching 之上，通過 CLI 和 Gradio 支持的簡單提示到動畫工作流程，提供最先進的指令遵循、平滑的動作和可投入生產的輸出。在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方存儲庫中了解更多信息並開始使用。	Tencent Hunyuan AI	N/A
Trellis 由 Trellis 驅動的統一、高保真、多格式 3D 資產生成框架	Microsoft AI	N/A
Qwen Image Layered 透過先進的分層架構，轉變您分析和處理視覺內容的方式	Alibaba AI	N/A
Sana video Sana 影片將高效、高品質的文字轉影片和圖片轉影片產生帶到您的瀏覽器。使用研究支援的效能創建連貫的 720p、16 fps 片段，最長可達一分鐘。在 Story321 上試用 Sana 影片，並快速發布精美的動作內容。	NVIDIA AI	N/A
Vidu Vidu AI 影片產生器 - 從文字提示創建長達 16 秒的令人驚豔的高清影片。Vidu 由清華大學的 U-ViT 架構提供支援，可將您的想法轉化為具有先進物理模擬和電影鏡頭運鏡的高品質 1080p 影片。	Sheng Shu	N/A
Hailuo 體驗海螺2.3在AI影片生成方面的突破，MiniMax的旗艦模型，提供前所未有的真實感、運動精度和創作多功能性。	MiniMax AI	N/A
DeepSeek-OCR DeepSeek-OCR 是一款由 AI 驅動的先進光學字元辨識模型，能夠準確地從 100 多種語言的圖像和文件中提取文字，並具有處理複雜版面、手寫文字、圖表和數學公式的專門功能。	DeepSeek AI	N/A
LTX Video LTX 影片是一種先進的 AI 影片生成模型，可將文字提示轉換為高品質、連貫的影片內容，並具有卓越的場景一致性和靈活的風格控制。	Lightricks	N/A
Gemma Gemma 是 Google DeepMind 開發的一系列輕量級開放原始碼 AI 模型，可為文字生成、問答和各種語言任務提供強大的效能。	Google AI	N/A
Flux AI Black Forest Labs 的高級文字生成圖像 AI 模型系列，具有超高解析度、超逼真輸出和卓越的提示詞理解能力。	Black Forest Labs (BFL AI)	N/A
Runway Gen 透過 Runway Gen-3 Alpha 體驗影片生成的未來。創建具有高度可控性、表現力的影片，並具有前所未有的保真度、一致性和運動品質。從照片寫實場景到風格化動畫，Gen-3 Alpha 透過先進的導演模式控制和多模式功能提供專業級的結果。	Runway (RunwayML / Runway AI)	N/A
Act-One Act-One 是 Runway 的一款 AI 角色動畫工具，它只需使用單個攝影機即可將簡單的影片表演轉換為富有表現力的 3D 角色動畫，無需複雜的動作捕捉設備。	Runway (RunwayML / Runway AI)	N/A
IndexTTS IndexTTS 是 Bilibili 開發的工業級文字轉語音系統，提供高品質的語音合成，具有零樣本聲音複製、多語言支援和情感控制功能。	Bilibili AI	N/A
Seedance AI Seedance 是 ByteDance 的多鏡頭 AI 影片生成模型，可將文字或圖片轉換為電影般的、動作一致的影片序列。	ByteDance AI	N/A
Seedream AI Seedream 是字節跳動的下一代 AI 圖像生成和編輯模型，它以驚人的速度、真實感和一致性創建高品質的雙語視覺效果。	ByteDance AI	N/A
Ray Ray is an intelligent video generation model by Luma AI that produces cinematic, physics-aware, and multi-view consistent videos from natural language prompts.	Luma AI	N/A
GPT Image GPT Image is an advanced multimodal model that transforms text and image inputs into high-quality, customizable visuals for creative and professional use.	Open AI	N/A
FramePack FramePack 是一種 AI 模型，可壓縮影片幀之間的時間資訊，以實現更流暢、更連貫且更高效的影片生成。	Lvmin Zhang (lllyasviel)	N/A
XTTS XTTS is a multilingual text-to-speech model by Coqui AI that generates lifelike, expressive, and natural voices from text in real time.	Coqui AI	N/A
VGGT VGGT empowers developers and researchers with a single forward pass to predict camera poses, depth maps, point clouds, and more—no external bundle adjustment required.	Meta AI	N/A
SkyReels SkyReels 是一種先進的 AI 影片生成模型，可將文字提示詞轉換為電影級、照片般逼真的影片片段，最長可達 12 秒，並具有專業的攝影機控制和場景連續性。	SkyReels AI	N/A
Avatar IV Avatar IV 是一個先進的 AI 模型，可將文字提示轉換為栩栩如生、情感豐富的影片頭像，具有自然的動作和語音。	HeyGen AI	N/A
Wan Alpha 萬象 Alpha 是一種先進的文字轉影片生成模型，可創建具有透明背景的高品質 RGBA 影片，以實現無縫的視覺效果和合成。	Alibaba AI	N/A
Sora Sora 2 透過從簡單的文字描述中創建令人驚嘆的、照片級真實的影片，並具有同步音訊，將您的想像力轉化為現實。使用 OpenAI 最先進的 AI 模型體驗影片創作的未來，該模型具有突破性的物理模擬、多鏡頭功能，甚至能夠透過 Cameo 在您自己的 AI 生成影片中擔任主角。	Open AI	N/A
GLM GLM-4.6 is Zhipu AI's flagship model with 355B total parameters and 32B activated parameters. It delivers exceptional coding capabilities rivaling Claude Sonnet 4, features a 200K context window for handling complex tasks, enhanced intelligent search, and superior multilingual translation. Designed for developers, enterprises, and creators seeking cutting-edge AI performance.	Zhipu AI	N/A
Hunyuan 3D 透過騰訊革命性的Hunyuan 3D，將您的想法和圖像轉變為令人驚豔的、生產就緒的3D資產。具有先進的擴散模型、專業的紋理合成以及用於遊戲開發、產品設計和數位藝術的無縫工作流程整合。	Tencent Hunyuan AI	N/A
Hunyuan Image Hunyuan Image 3.0 transforms your ideas into stunning, photorealistic images with unprecedented prompt adherence and intelligent reasoning. Powered by 80B parameters and 64 experts MoE architecture, it delivers exceptional semantic accuracy and visual excellence. Experience the future of AI image generation with native multimodal understanding.	Tencent Hunyuan AI	N/A
Hunyuan Video Generator Hunyuan Video transforms your text descriptions into stunning, high-quality videos with exceptional physical accuracy and temporal consistency. Powered by a 13B parameter Unified Diffusion Transformer architecture, it generates up to 5-second videos at 720p resolution with superior motion dynamics and visual fidelity. Experience the future of video creation with advanced Flow Matching schedulers and parallel inference capabilities.	Tencent Hunyuan AI	N/A
Kling AI Create cinematic videos with unprecedented speed and creative control. Kling 2.5 Turbo delivers film-grade clarity, physics-accurate motion, and advanced features like Start/End Frames for seamless storytelling.	KuaiShou AI	N/A
Gemini Google Gemini is Google’s flagship multimodal AI model that seamlessly understands text, images, audio, and video to deliver enterprise-grade reasoning and automation.	Google AI	N/A
Veo Veo 3.1 is Google DeepMind's flagship AI video generator delivering 4K visuals, native audio, and precise creative controls.	Google AI	N/A
探索米尼馬克斯音樂：創新與音響的交匯探索米尼馬克斯音樂——您通往突破性音樂體驗、活動和藝術家的入口。發現發行、參加活動，並加入米尼馬克斯音樂社群。	MiniMax AI	N/A
使用混元 Gamecraft 釋放您的遊戲開發潛力產生遊戲創意、故事情節、程式碼等。增強您的遊戲開發工作流程。		N/A
Nano Banana - 使用 AI 將文字轉換為令人驚豔的圖像使用 Nano Banana 體驗下一代 AI 圖像創建。從角色一致性到無縫的視覺故事講述，Nano Banana 重新定義了 AI 的可能性。開始在幾秒鐘內生成和編輯圖像。	Google AI	N/A
使用 Runway Act-One 製作令人驚豔的影片將文字、圖像和影片轉化為令人嘆為觀止的電影體驗。		N/A
使用 Eleven Music 釋放您的創造力：AI 驅動的音樂生成創作任何流派的免版稅音樂。非常適合創作者、企業和藝術家。		N/A
使用 GPT-OSS 解鎖無限潛能使用無與倫比的彈性自訂、控制和部署 GPT 模型。	Open AI	N/A
使用 Genie 3 構建互動世界從圖像和影片創建可控制的環境。釋放您的想像力。	Google AI	N/A
使用 OmniHuman 釋放逼真的 3D 頭像創建可控的、栩栩如生的數字人類。可訪問的代碼、模型和數據集。	ByteDance AI	N/A
釋放您的視野：Qwen Image 系列介紹使用無與倫比的 AI 生成、理解和轉換圖像。為下一代視覺應用程式提供動力。	Alibaba AI	N/A
使用完美的表意文字元生成令人驚嘆的視覺效果製作具有完美文字的圖像。通過 AI 驅動的字元生成釋放您的創造力。	Ideogram AI	N/A
使用 Runway Aleph 輕鬆生成令人驚豔的影片釋放您的創造力。從文字、圖像等製作高品質影片。	Runway (RunwayML / Runway AI)	N/A
使用 Grok Imagine 釋放您的想像力以無與倫比的速度和創意控制產生令人驚豔的視覺效果。	xAI	N/A
使用 Openvoice 即時複製任何聲音透過多語言支援和驚人的準確性解鎖無與倫比的聲音複製。		N/A

GLM OCR

探索 GLM OCR 的強大功能，這是下一代光學字元辨識工具。以無與倫比的準確性、語義理解和速度將圖像轉換為可操作的資料。非常適合開發人員和企業。

Zhipu AI

N/A

Grok Imagine Video

探索 Grok Imagine Video 的強大功能，這是一種最先進的生成模型，可將文字轉化為令人驚嘆的高保真影片內容。在 story321.com 上體驗無與倫比的速度、真實感和創意控制。

xAI

N/A

LTX-2

探索 LTX-2 的強大功能，這是 story321 上提供的最先進的影片生成模型。透過 LTX-2 體驗閃電般的渲染速度、電影級品質和無與倫比的一致性。

Lightricks

N/A

Qwen Image Edit

探索 Qwen Image Edit 的強大功能，這是一種專為創作者和開發人員設計的最先進的基於指令的圖像編輯模型。使用 story321.com 上的自然語言命令精確地轉換視覺效果。

Alibaba AI

N/A

Ray 3

使用 Ray 3 解鎖內容創作的未來，Ray 3 是 Story321 上最先進的生成式影片模型。體驗前所未有的速度、照片般逼真的品質和電影級運動控制。

Luma AI

N/A

Chatterbox Turbo

探索 Chatterbox Turbo 的強大功能，這是一種最先進的即時語音生成模型，專為無縫對話式 AI 而設計。體驗超低延遲、如真人般逼真的音質以及無與倫比的應用程式可擴展性。

Resemble AI

N/A

Hunyuan Motion

Hunyuan Motion 是一個尖端的文本到 3D 人體動作生成套件，可將自然語言轉換為高質量、基於骨架的角色動畫。Hunyuan Motion 建立在一個擁有十億參數的 Diffusion Transformer 和 Flow Matching 之上，通過 CLI 和 Gradio 支持的簡單提示到動畫工作流程，提供最先進的指令遵循、平滑的動作和可投入生產的輸出。在 [github.com](https://github.com/Tencent-Hunyuan/HY-Motion-1.0) 上的官方存儲庫中了解更多信息並開始使用。

Tencent Hunyuan AI

N/A

Trellis

由 Trellis 驅動的統一、高保真、多格式 3D 資產生成框架

Microsoft AI

N/A

Qwen Image Layered

透過先進的分層架構，轉變您分析和處理視覺內容的方式

Alibaba AI

N/A

Sana video

Sana 影片將高效、高品質的文字轉影片和圖片轉影片產生帶到您的瀏覽器。使用研究支援的效能創建連貫的 720p、16 fps 片段，最長可達一分鐘。在 Story321 上試用 Sana 影片，並快速發布精美的動作內容。

NVIDIA AI

N/A

Vidu

Vidu AI 影片產生器 - 從文字提示創建長達 16 秒的令人驚豔的高清影片。Vidu 由清華大學的 U-ViT 架構提供支援，可將您的想法轉化為具有先進物理模擬和電影鏡頭運鏡的高品質 1080p 影片。

Sheng Shu

N/A

Hailuo

體驗海螺2.3在AI影片生成方面的突破，MiniMax的旗艦模型，提供前所未有的真實感、運動精度和創作多功能性。

MiniMax AI

N/A

DeepSeek-OCR

DeepSeek-OCR 是一款由 AI 驅動的先進光學字元辨識模型，能夠準確地從 100 多種語言的圖像和文件中提取文字，並具有處理複雜版面、手寫文字、圖表和數學公式的專門功能。

DeepSeek AI

N/A

LTX Video

LTX 影片是一種先進的 AI 影片生成模型，可將文字提示轉換為高品質、連貫的影片內容，並具有卓越的場景一致性和靈活的風格控制。

Lightricks

N/A

Gemma

Gemma 是 Google DeepMind 開發的一系列輕量級開放原始碼 AI 模型，可為文字生成、問答和各種語言任務提供強大的效能。

Google AI

N/A

Flux AI

Black Forest Labs 的高級文字生成圖像 AI 模型系列，具有超高解析度、超逼真輸出和卓越的提示詞理解能力。

Black Forest Labs (BFL AI)

N/A

Runway Gen

透過 Runway Gen-3 Alpha 體驗影片生成的未來。創建具有高度可控性、表現力的影片，並具有前所未有的保真度、一致性和運動品質。從照片寫實場景到風格化動畫，Gen-3 Alpha 透過先進的導演模式控制和多模式功能提供專業級的結果。

Runway (RunwayML / Runway AI)

N/A

Act-One

Act-One 是 Runway 的一款 AI 角色動畫工具，它只需使用單個攝影機即可將簡單的影片表演轉換為富有表現力的 3D 角色動畫，無需複雜的動作捕捉設備。

Runway (RunwayML / Runway AI)

N/A

IndexTTS

IndexTTS 是 Bilibili 開發的工業級文字轉語音系統，提供高品質的語音合成，具有零樣本聲音複製、多語言支援和情感控制功能。

Bilibili AI

N/A

Seedance AI

Seedance 是 ByteDance 的多鏡頭 AI 影片生成模型，可將文字或圖片轉換為電影般的、動作一致的影片序列。

ByteDance AI

N/A

Seedream AI

Seedream 是字節跳動的下一代 AI 圖像生成和編輯模型，它以驚人的速度、真實感和一致性創建高品質的雙語視覺效果。

ByteDance AI

N/A

Ray

Ray is an intelligent video generation model by Luma AI that produces cinematic, physics-aware, and multi-view consistent videos from natural language prompts.

Luma AI

N/A

GPT Image

GPT Image is an advanced multimodal model that transforms text and image inputs into high-quality, customizable visuals for creative and professional use.

Open AI

N/A

FramePack

FramePack 是一種 AI 模型，可壓縮影片幀之間的時間資訊，以實現更流暢、更連貫且更高效的影片生成。

Lvmin Zhang (lllyasviel)

N/A

XTTS

XTTS is a multilingual text-to-speech model by Coqui AI that generates lifelike, expressive, and natural voices from text in real time.

Coqui AI

N/A

VGGT

VGGT empowers developers and researchers with a single forward pass to predict camera poses, depth maps, point clouds, and more—no external bundle adjustment required.

Meta AI

N/A

SkyReels

SkyReels 是一種先進的 AI 影片生成模型，可將文字提示詞轉換為電影級、照片般逼真的影片片段，最長可達 12 秒，並具有專業的攝影機控制和場景連續性。

SkyReels AI

N/A

Avatar IV

Avatar IV 是一個先進的 AI 模型，可將文字提示轉換為栩栩如生、情感豐富的影片頭像，具有自然的動作和語音。

HeyGen AI

N/A

Wan Alpha

萬象 Alpha 是一種先進的文字轉影片生成模型，可創建具有透明背景的高品質 RGBA 影片，以實現無縫的視覺效果和合成。

Alibaba AI

N/A

Sora

Sora 2 透過從簡單的文字描述中創建令人驚嘆的、照片級真實的影片，並具有同步音訊，將您的想像力轉化為現實。使用 OpenAI 最先進的 AI 模型體驗影片創作的未來，該模型具有突破性的物理模擬、多鏡頭功能，甚至能夠透過 Cameo 在您自己的 AI 生成影片中擔任主角。

Open AI

N/A

GLM

GLM-4.6 is Zhipu AI's flagship model with 355B total parameters and 32B activated parameters. It delivers exceptional coding capabilities rivaling Claude Sonnet 4, features a 200K context window for handling complex tasks, enhanced intelligent search, and superior multilingual translation. Designed for developers, enterprises, and creators seeking cutting-edge AI performance.

Zhipu AI

N/A

Hunyuan 3D

透過騰訊革命性的Hunyuan 3D，將您的想法和圖像轉變為令人驚豔的、生產就緒的3D資產。具有先進的擴散模型、專業的紋理合成以及用於遊戲開發、產品設計和數位藝術的無縫工作流程整合。

Tencent Hunyuan AI

N/A

Hunyuan Image

Hunyuan Image 3.0 transforms your ideas into stunning, photorealistic images with unprecedented prompt adherence and intelligent reasoning. Powered by 80B parameters and 64 experts MoE architecture, it delivers exceptional semantic accuracy and visual excellence. Experience the future of AI image generation with native multimodal understanding.

Tencent Hunyuan AI

N/A

Hunyuan Video Generator

Hunyuan Video transforms your text descriptions into stunning, high-quality videos with exceptional physical accuracy and temporal consistency. Powered by a 13B parameter Unified Diffusion Transformer architecture, it generates up to 5-second videos at 720p resolution with superior motion dynamics and visual fidelity. Experience the future of video creation with advanced Flow Matching schedulers and parallel inference capabilities.

Tencent Hunyuan AI

N/A

Kling AI

Create cinematic videos with unprecedented speed and creative control. Kling 2.5 Turbo delivers film-grade clarity, physics-accurate motion, and advanced features like Start/End Frames for seamless storytelling.

KuaiShou AI

N/A

Gemini

Google Gemini is Google’s flagship multimodal AI model that seamlessly understands text, images, audio, and video to deliver enterprise-grade reasoning and automation.

Google AI

N/A