📊 Test Overview

v5.3 — 47 tests × 61 models

AI Image Editing Benchmark · v5.3 · kamuicode

画像生成AI、61モデル並べました。
·

Beyond pixels, towards reasoning. ── 描く力を超えて、考える力へ。

47 テストを見る ↓
Loading…
Loading overview data…
テストカテゴリの説明
  • Level A (Basic): 色変更、部分スタイル変更など基本的な編集 (7テスト)
  • Level B (Transform): アウトペイント、カメラアングル変更、時間・季節変更 (16テスト)
  • Level C (Reasoning): 時間推論、アノテーション理解、物理的推論 (8テスト)
  • Level D (Document): スライド生成、4コマ漫画、ストーリーボード、マンガ (16テスト)
注意事項
  • 本テストは kamuicode 搭載の画像生成モデルの性能について簡易的な参考指標を得ようとしているものです。
  • テストプロンプトはおもに自然文を用い、モデルごとに同一のものを入れています。モデルごとのプロンプティングのベストプラクティスは考慮していないため、最良の性能を引き出せていない可能性があります。
  • テスト・評価とも一発出しのため、ランダム性によるブレ、外れ値が混じっている可能性があります。
  • 一部日本語プロンプト (レベルD) を使用しているため、モデルに日本語プロンプトの解釈能力がない場合正確なテストとなっていない場合があります。
  • 現時点では主に画像編集にとくにフォーカスした内容となっているため、text2image は特殊な推論を要求する D1-1〜D2-2 でしか実施していません。
  • 一部モデルは調査対象外としています。
モデル制約による未実施テスト

一部モデルは API 仕様上の制約により特定テストで実行不可能です。該当テストは評価対象外としています。

  • Qwen系 (Qwen Image 2 / 2 Pro / Max): プロンプト長 800バイト制限により、長文プロンプトの Level D (D1〜D2系) の大半を除外
  • Qwen Image Max (D3-2 のみ): ベース画像解像度 2048×2048 超過 (1792×2400) により除外
  • HY-Wu Edit (D3-1, D3-3): 参照画像 最大3枚制限のため、4枚参照のマンガ系テストで除外
  • Hunyuan Image V3 / Grok Imagine (D3-1, D3-3): 同様のモデル制約で除外
  • Kling Image O3 / V3 (D2-3): プロンプト制約で除外
  • Wan v2.7 / v2.7 Pro: プロンプト 2000バイト制限により D1-1〜D1-4、D2-1、D2-3、D3-1 を除外