- Level A (Basic): 色変更、部分スタイル変更など基本的な編集 (7テスト)
- Level B (Transform): アウトペイント、カメラアングル変更、時間・季節変更 (16テスト)
- Level C (Reasoning): 時間推論、アノテーション理解、物理的推論 (8テスト)
- Level D (Document): スライド生成、4コマ漫画、ストーリーボード、マンガ (16テスト)
一部モデルは API 仕様上の制約により特定テストで実行不可能です。該当テストは評価対象外としています。
47テスト × 61モデル × 該当スタイル の組み合わせを、すべて同条件・同プロンプトで生成し、 VLM (Vision-Language Model) で自動評価したベンチマークの全体像です。
各テストごとに「全モデル × 該当スタイル」を投入。スタイル数はテスト種別で異なります (Level A-C は 5、Level D は 1)。一部モデルは API 制約で除外されているため、単純な掛け算より少なくなります。
photo (写実) / anime_flat / anime_cg / watercolor / business の5種。同一プロンプトを異なるスタイル基底で投入し、モデルがどれだけスタイル特性を活かせるかを比較します。Level D は 1スタイル (misc) のみ。
各画像を VLM (Gemini 2.5 Flash) で 5 軸 0-5 点評価:
※ テスト・評価とも一発出しのため、ランダム性によるブレ・外れ値が混じる可能性あり。
kamuicode に搭載されている画像生成・編集モデル群が対象 (一部 API 制約や調査範囲外で除外あり)。 I2I (画像編集) / T2I (テキスト生成) / R2I (参照画像生成) の3カテゴリ。