Kling O3 video generation

Kling O3 video generation

Kuaishou has launched a flagship AI video-generation model that covers four core scenarios: text-to-video, image-to-video, reference-video-based generation, and intelligent video editing.
2026-02-09
Video Generation
Pricing:
$0.084/second

starting from

Bulk order? Contact your manager for exclusive deals
稳定性
Stable

API Overview

音声の同期生成をサポートします(enable_audio=True)、画像参照および最初と最後のフレームでのシーンに限定されます


Kling O3は、Kuaishouが提供するフラッグシップAI動画生成製品であり、統一されたマルチモーダル視覚言語(MVL)アーキテクチャに基づいています。V3.0を総合的に上回り、物理シミュレーション、被写体の一貫性、動きの自然さ、意味的理解において大きな進歩を遂げました。本シリーズはStandardとProの二つのモード戦略を採用し、テキストから動画生成、画像から動画生成、参照動画生成、インテリジェントな動画編集という4つの核心的なシナリオをカバーし、クリエイターに軽量なテストから映画級の完成度まで、フルリンクのソリューションを提供します。

  • アーキテクチャのアップグレード:O3シリーズは、ダイナミックなリアリズム、時間的整合性、複雑な指示への対応力をリードする新しい統一MVLアーキテクチャを採用しており、ちらつきや変形、論理的な矛盾を解消します。
  • 二バージョン戦略:Standard版はコストパフォーマンスに優れ(Pro版の約3分の1から2分の1の価格)、高頻度の反復やソーシャルコンテンツに最適です;Pro版は映画級の出力品質を重視し、4K解像度、複雑なカメラワーク、複数画像によるガイド、アイデンティティのバインドをサポートし、プロフェッショナルな完成品の提供に対応します。
  • 核心機能:全シリーズは3~15秒の任意の整数長の再生時間をサポートし、複数のアスペクト比(16:9/9:16/1:1)に対応、ネイティブな音声・映像の同期(環境音効果や台詞を含む)、インテリジェントな最適化を行う組み込みのPrompt Enhancer、元の音声トラックの保存オプション(keep_original_sound)を備えています。
  • 適用シナリオ:SNS向けショート動画、マーケティング広告、AIデジタルヒューマン、商品アニメーション、映画のプリビジュアライゼーション、EC素材の修正、クリエイティブコンセプトのテスト、シーン間でアイデンティティを一貫させたキャラクター動画制作などです。
  • 柔軟な制御:ネガティブプロンプト、開始・終了フレームのガイド、複数の参照画像(最大7枚または4枚の画像に加えて参照動画)、自然言語による編集コマンド(「歩行者を削除」や「雨の日のシーンに置き換える」など)をサポートし、精密かつ制御可能な制作が可能です。

───────────────────────────────────────────────────────────────────

核心機能

🎬 O3 映画級のダイナミックなリアリズム

Pro版は映画レベルの照明、物理シミュレーション、滑らかなカメラワークを実現;Standard版は推論効率を最適化しつつ、被写体の安定性と合理的な動きを維持します。

🖼️→🎥 マルチモーダル入力駆動

純粋なテキストから動画生成、単一画像から動画生成、複数視点のアイデンティティバインド(Reference-to-Video)、既存動画の編集(Video Edit)をサポートし、あらゆるタイプのクリエイティブニーズに応えます。

🔊 インテリジェントな音声・映像の連携

映像に合わせて自動的に環境音効果を生成(雨音や都市の騒音など);Pro版ではテキストから動画生成の場面でカスタムのナレーションを重ねることが可能です。

⏱️ プラットフォームレベルの再生時間適応

3~15秒の任意の長さで、TikTok、Reels、YouTube Shortsといった主流のショート動画プラットフォームのリズムにぴったりと適合します。

📱 ワンクリックで複数アスペクト比の出力

16:9(横長)、9:16(縦長)、1:1(正方形)—ポスト編集不要で、複数のプラットフォームへの配信が可能です。

Prompt Enhancerによるインテリジェントな強化

「スローモーション」、「パンニングショット」、「夕暮れ時の照明」などの専門的な描写を自動的に補完し、参入障壁を下げて生成品質を向上させます。

✂️ 自然言語による動画編集

会話形式のコマンドで直接動画コンテンツを修正可能;Pro版は最大4枚の参照画像による詳細なガイドをサポートし、Standard版は効率的な基本編集を提供します。

👤 高精細なアイデンティティの一貫性

複数角度からの参照画像を通じて人物や物体の外観を正確にロックし、長尺動画でも非常に高いアイデンティティの一貫性を保証。デジタルヒューマンやブランドキャラクターの再利用に適しています。

エンドツーエンドのクラウドAPI

ローカルレンダリングや前処理不要—プロンプトを送信するだけで商用クラスのHD動画を即座に取得でき、自動化ワークフローとクリエイティブツールチェーンにシームレスに統合できます。

───────────────────────────────────────────────────────────────────

効果のデモンストレーション


API Console

Log in to explore more features! Click to Log In

API Reference (3)

API DescriptionAPI EndpointRequest MethodStabilityParameter Description
Image2Video(omni 3)
POST
Stable
View Details
omni3 main data
GET
Stable
View Details
Fetch (Retrieve task results)
GET
Stable
View Details

API Pricing

$
ModelDescription302.AI Price

baseVideo command transformation

std

$0.252/second

baseVideo command transformation

pro

$0.336/second

referVideo video reference

std

$0.252/second

referVideo video reference

pro

$0.336/second

referImage picture reference

std-audio off

$0.084/second

referImage picture reference

std-audio on

$0.112/second

referImage picture reference

pro-audio off

$0.224/second

referImage picture reference

pro-audio on

$0.228/second

firstTail:-First and last frames

std-audio off

$0.168/second

firstTail:-First and last frames

std-audio on

$0.252/second

firstTail:-First and last frames

pro-audio off

$0.224/second

firstTail:-First and last frames

pro-audio on

$0.336/second

omni 3 main data

-

$0/call