Efficient Text-to-Video and Image-to-Video by NVIDIA NVLabs
Sana videoは、効率的で高品質なテキストからビデオおよび画像からビデオの生成をブラウザにもたらします。研究に裏打ちされたパフォーマンスで、最大1分のコヒーレントな720p、16fpsのクリップを作成します。Story321でSana videoを試して、洗練されたモーションコンテンツを迅速に出荷しましょう。

Sana videoは、NVIDIA NVLabsが開発した、テキストからビデオ(T2V)および画像からビデオ(I2V)を生成する効率的な拡散モデルベースのビデオジェネレーターです。最大720pの解像度、16fps、最長1分の動画をサポートし、研究に裏打ちされた忠実度と一貫性のある動きを実現します([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [nvlabs.github.io](https://nvlabs.github.io/Sana/))。
自然言語を鮮やかな動きに変えましょう。Sana videoは、多様なスタイルのナレーション、スムーズなトランジション、一貫した被写体をサポートし、高品質な720pのシーケンスを16fpsで生成します([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/))。
一枚の静止画をダイナミックなクリップにアニメーション化します。リアルな動き、カメラワーク、シーンの奥行きを追加しながら、アイデンティティと構成を維持します([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/))。
約60秒で5秒のクリップを生成、またはNVFP4最適化を施したRTX 5090では約29秒で生成できます。反復作業に十分な効率性です([youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8))。
ICLR 2025で認められたSANAファミリー(Linear Diffusion Transformer)を基盤としており、探索と拡張のためのオープンソースコードも提供されています([nvlabs.github.io](https://nvlabs.github.io/Sana/) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/) • [github.com](https://github.com/NVlabs/Sana))。
Sana videoで一貫した結果を得るには、次の手順に従ってください。
モデルリストからSana videoを選択します。
プロンプトにはText-to-Videoを使用し、リファレンスをアニメーション化するにはImage-to-Videoを使用します。
被写体、動き、カメラ、時間を記述します。I2Vの場合は画像をアップロードします。
バランスの取れた品質のために、最大60秒、720p、および16fpsを選択します。
モーションの強さ、カメラの揺れ、アスペクト比、および再現性のためのシードを調整します。
プレビュー、トリミング、および短いクリップで反復します。ロックされたら拡張します。
720p、16fps、最大1分などの仕様は、現在の公開されている研究ノートを反映しています。最新情報については、プロジェクトページをご覧ください([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [github.com](https://github.com/NVlabs/Sana))。
ブランドのティーザーからチュートリアルのループまで、Sana videoはコンセプト作成とプロダクションレベルのモーションを加速します。
制御されたカメラワークと一貫したブランディングで、5〜10秒のヒーローショットをカットします。
読みやすいモーションビートと判読可能なクローズアップで、機能を説明します。
単一の画像から、マスコットのジェスチャー、表情、およびマイクロ演技をアニメーション化します。
様式化されたトランジション、状況設定ショット、およびアンビエントループを生成します。
プラットフォームのペースに合わせた、パンチの効いた、ループ可能なクリップをプロトタイプします。
カメラの明瞭さと時間的な構造で、ステップバイステップのモーションを表示します。
Sana videoのセットアップとワークフローに関する一般的な質問への回答。
公開ドキュメントによると、クリップあたり最大720pの解像度、16fps、および1分の長さです([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/))。
5秒のクリップで約60秒、またはNVFP4最適化を施したRTX 5090では約29秒です([youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8))。
コードと研究リソースは、探索のために利用可能です([github.com](https://github.com/NVlabs/Sana) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/))。
T2Vはテキストからモーションを作成します。I2Vは、提供された画像をアニメーション化しながら、アイデンティティとレイアウトを保持します。
はい—プロンプトでレンズ、ショットタイプ、および動きの用語(例:「低いトラッキングショット」、「穏やかなドリーイン」)を使用します。
商用利用の前に、リポジトリのライセンスおよびサードパーティの条件を確認してください([github.com](https://github.com/NVlabs/Sana))。
説得力のあるモーションコンテンツをプロトタイプ、反復、および公開します—Story321上のSana videoは、スピード、一貫性、および研究グレードの品質を提供します。
パフォーマンスと仕様は公開されている資料に基づいており、新しいリリースで進化する可能性があります([nvlabs.github.io](https://nvlabs.github.io/Sana/Video/))。