AI Image Editing Benchmark
v5.3 - Comprehensive Model Comparison All Tests Complete
AI画像生成・編集モデルの性能を比較評価するための総合ベンチマークスイートです。
同一の入力画像・プロンプトに対する各モデルの出力結果を、スタイル別・難易度別に一覧比較できます。
テストカテゴリ
- Level A (Basic): 色変更、部分スタイル変更など基本的な編集(7テスト)
- Level B (Transform): アウトペイント、カメラアングル変更、時間・季節変更(16テスト)
- Level C (Reasoning): 時間推論、アノテーション理解、物理的推論(8テスト)
- Level D (Document): スライド生成、4コマ漫画、ストーリーボード、マンガ(16テスト)
使い方
- 下のボタンからビューワーを開きます
- 左パネルでレベル・スタイル・モデルをフィルタリング
- 画像をクリックすると拡大表示
- 矢印キーまたはサムネイルで画像を切り替え
注意事項
- 本テストはkamuicode搭載の画像生成モデルの性能について簡易的な参考指標を得ようとしているものです。
- テストプロンプトはおもに自然文を用い、モデルごとに同一のものを入れています。モデルごとのプロンプティングのベストプラクティスは考慮していないため、最良の性能を引き出せていない可能性があります。
- テスト・評価とも一発出しのため、ランダム性によるブレ、外れ値が混じっている可能性があります。
- 一部日本語プロンプト(レベルD)を使用しているため、モデルに日本語プロンプトの解釈能力がない場合正確なテストとなっていない場合があります。
- 現時点では主に画像編集にとくにフォーカスした内容となっているため、text2imageは特殊な推論を要求するD1-1〜D2-2でしか実施していません。
- 一部モデルは調査対象外としています。
モデル制約による未実施テスト
一部モデルはAPI仕様上の制約により特定テストで実行不可能です。該当テストは評価対象外としています。
- Qwen系 (Qwen Image 2 / 2 Pro / Max): プロンプト長 800バイト制限により、長文プロンプトの Level D (D1〜D2系) の大半を除外
- Qwen Image Max (D3-2 のみ): ベース画像解像度 2048×2048 超過 (1792×2400) により除外
- HY-Wu Edit (D3-1, D3-3): 参照画像 最大3枚制限のため、4枚参照のマンガ系テストで除外
- Hunyuan Image V3 / Grok Imagine (D3-1, D3-3): 同様のモデル制約で除外
- Kling Image O3 / V3 (D2-3): プロンプト制約で除外
- Wan v2.7 / v2.7 Pro: プロンプト 2000バイト制限により D1-1〜D1-4、D2-1、D2-3、D3-1 を除外