AI Image Editing Benchmark

v5.5 - Comprehensive Model Comparison All Tests Complete

AI画像生成・編集モデルの性能を比較評価するための総合ベンチマークスイートです。同一の入力画像・プロンプトに対する各モデルの出力結果を、スタイル別・難易度別に一覧比較できます。

テストケース

評価モデル

スタイル

難易度レベル

7,700

生成画像

テストカテゴリ

Level A (Basic): 色変更、部分スタイル変更など基本的な編集（7テスト）
Level B (Transform): アウトペイント、カメラアングル変更、時間・季節変更（16テスト）
Level C (Reasoning): 時間推論、アノテーション理解、物理的推論（9テスト）
Level D (Document): スライド生成、4コマ漫画、ストーリーボード、マンガ（16テスト）

使い方

下のボタンからビューワーを開きます
左パネルでレベル・スタイル・モデルをフィルタリング
画像をクリックすると拡大表示
矢印キーまたはサムネイルで画像を切り替え

テスト一覧 (Overview) を開く

注意事項

本テストはkamuicode搭載の画像生成モデルの性能について簡易的な参考指標を得ようとしているものです。
テストプロンプトはおもに自然文を用い、モデルごとに同一のものを入れています。モデルごとのプロンプティングのベストプラクティスは考慮していないため、最良の性能を引き出せていない可能性があります。
テスト・評価とも一発出しのため、ランダム性によるブレ、外れ値が混じっている可能性があります。
一部日本語プロンプト（レベルD）を使用しているため、モデルに日本語プロンプトの解釈能力がない場合正確なテストとなっていない場合があります。
現時点では主に画像編集にとくにフォーカスした内容となっているため、text2imageは特殊な推論を要求するD1-1〜D2-2でしか実施していません。
一部モデルは調査対象外としています。

モデル制約による未実施テスト

一部モデルはAPI仕様上の制約により特定テストで実行不可能です。該当テストは評価対象外としています。

Qwen系 (Qwen Image 2 / 2 Pro / Max): プロンプト長 800バイト制限により、長文プロンプトの Level D (D1〜D2系) の大半を除外
Qwen Image Max (D3-2 のみ): ベース画像解像度 2048×2048 超過 (1792×2400) により除外
HY-Wu Edit (D3-1, D3-3): 参照画像最大3枚制限のため、4枚参照のマンガ系テストで除外
Hunyuan Image V3 / Grok Imagine (D3-1, D3-3): 同様のモデル制約で除外
Kling Image O1 (D3-1, D3-3): 参照画像構造の制約で除外
Kling Image O3 / V3 (D2-3, D3-3): プロンプト 2500文字制限により D2-3 (3,072) / D3-3 (4,191) で除外
Reve Edit / Remix (D3-3): プロンプト 2560文字制限により D3-3 (4,191) で除外
Wan v2.6 (D3-1, D3-3): image_urls 最大3枚制限のため、4枚参照のマンガ系テストで除外
Wan 2.5 Preview (D3-1, D3-3): 同上 (image_urls 最大3枚制限)
Wan v2.7 / v2.7 Pro: プロンプト 2000バイト制限により D1-1〜D1-4、D2-1、D2-3、D3-1、D3-3 を除外
Vidu Q2 Reference (D3-1〜D3-4): aspect_ratio が 16:9 / 9:16 / 1:1 のみ対応で、D3 マンガ系 (3:4) を除外
DreamOmni2 (全テスト): 2枚以上の参照画像必須 (マルチ画像スタイル転写専用) のため、単一画像ベンチマークと構造的に不適合で全除外
Emu 3.5 Image (C3-1〜C3-5、D3-1、D3-3): i2i の image_url が単数のみで、base+annotation 2画像必要な C3 系および 4枚参照の D3-1/D3-3 を除外。推論時間も長く (~13分/枚)、評価非効率
GPT Image 2 (除外なし): 全 176 セル完走、kamui MCP 経由でサブスク内

番号未割当 (汎用ベンチ対象外モデル)

kamui MCP には登録されているが、汎用ベンチマークの趣旨と合わないため、はじめから採番せず比較対象から外したモデル群。用途特化系・派生 LoRA・別名重複が中心。

同一モデルの別名 (重複)

Gemini 2.5 Flash Image (t2i+i2i) = Nano Banana の変名
Gemini 3 Pro Image Preview (t2i+i2i) = Nano Banana Pro の変名

特殊用途モデル (画像生成ベンチに不適合)

Patina / Patina Material / Patina Material Extract: 3Dモデル用テクスチャ・材質マップ生成
Z Image Turbo ControlNet: ControlNet 制御専用 (非CN版と同一モデル)
Recraft V4 Vector / V4 Pro Vector: SVG ベクター画像生成
Qwen Image Edit 2511 Multiple Angles: マルチアングル生成専用
Qwen Image Layered: レイヤー分離生成
Qwen Lighting Restore: ライティング修復専用
Ideogram V3 Layerize Text / Character Base / Character Remix: テキストレイヤー化・キャラクターベース生成
Image Apps V2 Outpaint: アウトペイント専用
SAM 3 Image: セグメンテーション
Easel AI Fashion Size Estimator: ファッションサイズ推定
Image2Pixel: ピクセルアート変換
Pixelcut Background Removal: 背景除去

アップスケーラー (画像生成ではなく超解像)

Aura SR / Bria Aesthetics Upscaler / Crystal Upscaler / ChronoEdit LoRA Gallery Upscaler: 既存画像を高解像度化するモデル群

汎用 LoRA・特化 Gallery バリアント

ベースモデルと UNet 共通で、学習済み LoRA の適用が可能な汎用バリアント、または特定ユースケース専用の Gallery 派生。ベースモデル評価で代替できるため対象外。

汎用 LoRA: ChronoEdit LoRA / Flux 2 LoRA (t2i, i2i edit) / Flux Krea LoRA / Flux Kontext LoRA / Qwen Image Edit Plus LoRA
Flux 2 LoRA Gallery: Apartment Staging / Ballpoint Pen Sketch
ChronoEdit LoRA Gallery: Paintbrush
Qwen Image Edit Plus LoRA Gallery: Add Background / Face to Full Portrait / Group Photo / Integrate Product / Next Scene