Sana video

Efficient Text-to-Video and Image-to-Video by NVIDIA NVLabs

Sana videoは、効率的で高品質なテキストからビデオおよび画像からビデオの生成をブラウザにもたらします。研究に裏打ちされたパフォーマンスで、最大1分のコヒーレントな720p、16fpsのクリップを作成します。Story321でSana videoを試して、洗練されたモーションコンテンツを迅速に出荷しましょう。

Sana videoのご紹介

Sana videoは、NVIDIA NVLabsが開発した、テキストからビデオ（T2V）および画像からビデオ（I2V）を生成する効率的な拡散モデルベースのビデオジェネレーターです。最大720pの解像度、16fps、最長1分の動画をサポートし、研究に裏打ちされた忠実度と一貫性のある動きを実現します（[nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [nvlabs.github.io](https://nvlabs.github.io/Sana/)）。

テキストからビデオ（T2V）

自然言語を鮮やかな動きに変えましょう。Sana videoは、多様なスタイルのナレーション、スムーズなトランジション、一貫した被写体をサポートし、高品質な720pのシーケンスを16fpsで生成します（[nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)）。

画像からビデオ（I2V）

一枚の静止画をダイナミックなクリップにアニメーション化します。リアルな動き、カメラワーク、シーンの奥行きを追加しながら、アイデンティティと構成を維持します（[nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)）。

効率的で実用的なランタイム

約60秒で5秒のクリップを生成、またはNVFP4最適化を施したRTX 5090では約29秒で生成できます。反復作業に十分な効率性です（[youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8)）。

オープンソースで研究に裏打ち

ICLR 2025で認められたSANAファミリー（Linear Diffusion Transformer）を基盤としており、探索と拡張のためのオープンソースコードも提供されています（[nvlabs.github.io](https://nvlabs.github.io/Sana/) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/) • [github.com](https://github.com/NVlabs/Sana)）。

Story321での使い方

Sana videoで一貫した結果を得るには、次の手順に従ってください。

モデルを選択

モデルリストからSana videoを選択します。

モードを選択

プロンプトにはText-to-Videoを使用し、リファレンスをアニメーション化するにはImage-to-Videoを使用します。

プロンプトの作成/リファレンスの設定

被写体、動き、カメラ、時間を記述します。I2Vの場合は画像をアップロードします。

期間、解像度、fpsを設定

バランスの取れた品質のために、最大60秒、720p、および16fpsを選択します。

コントロールを調整

モーションの強さ、カメラの揺れ、アスペクト比、および再現性のためのシードを調整します。

生成と洗練

プレビュー、トリミング、および短いクリップで反復します。ロックされたら拡張します。

ヒント

•3〜5秒の長さで反復してから、30〜60秒に拡張します。
•被写体の名前、スタイル、およびレンズの用語を、実行全体で一貫させます。
•「1秒保持」のような時間の手がかりを使用して、ビートを安定させます。
•I2Vのアイデンティティについては、鮮明で均等に照らされたリファレンスをアップロードします。
•成功したプロンプトをSana videoのテンプレートとして整理します。

720p、16fps、最大1分などの仕様は、現在の公開されている研究ノートを反映しています。最新情報については、プロジェクトページをご覧ください（[nvlabs.github.io](https://nvlabs.github.io/Sana/Video/) • [github.com](https://github.com/NVlabs/Sana)）。

Sana videoで作成できるもの

ブランドのティーザーからチュートリアルのループまで、Sana videoはコンセプト作成とプロダクションレベルのモーションを加速します。

ローンチティーザー

制御されたカメラワークと一貫したブランディングで、5〜10秒のヒーローショットをカットします。

製品説明

読みやすいモーションビートと判読可能なクローズアップで、機能を説明します。

キャラクターの瞬間

単一の画像から、マスコットのジェスチャー、表情、およびマイクロ演技をアニメーション化します。

映画のようなBロール

様式化されたトランジション、状況設定ショット、およびアンビエントループを生成します。

ソーシャルトレンド

プラットフォームのペースに合わせた、パンチの効いた、ループ可能なクリップをプロトタイプします。

教育とハウツー

カメラの明瞭さと時間的な構造で、ステップバイステップのモーションを表示します。

よくある質問

Sana videoのセットアップとワークフローに関する一般的な質問への回答。

現在の出力制限は何ですか？

公開ドキュメントによると、クリップあたり最大720pの解像度、16fps、および1分の長さです（[nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)）。

生成はどのくらいの速さで実行されますか？

5秒のクリップで約60秒、またはNVFP4最適化を施したRTX 5090では約29秒です（[youtube.com](https://www.youtube.com/watch?v=JmHxYDpCVX8)）。

モデルはオープンソースですか、それとも研究に裏打ちされていますか？

コードと研究リソースは、探索のために利用可能です（[github.com](https://github.com/NVlabs/Sana) • [research.nvidia.com](https://research.nvidia.com/labs/eai/publication/sana/)）。

T2VとI2Vの違いは何ですか？

T2Vはテキストからモーションを作成します。I2Vは、提供された画像をアニメーション化しながら、アイデンティティとレイアウトを保持します。

カメラの動作を制御できますか？

はい—プロンプトでレンズ、ショットタイプ、および動きの用語（例：「低いトラッキングショット」、「穏やかなドリーイン」）を使用します。

結果を商用利用できますか？

商用利用の前に、リポジトリのライセンスおよびサードパーティの条件を確認してください（[github.com](https://github.com/NVlabs/Sana)）。

Sana videoで作成を開始しましょう

説得力のあるモーションコンテンツをプロトタイプ、反復、および公開します—Story321上のSana videoは、スピード、一貫性、および研究グレードの品質を提供します。

パフォーマンスと仕様は公開されている資料に基づいており、新しいリリースで進化する可能性があります（[nvlabs.github.io](https://nvlabs.github.io/Sana/Video/)）。