AI Image Editing Benchmark
v5.3 - Comprehensive Model Comparison All Tests Complete
AI画像生成・編集モデルの性能を比較評価するための総合ベンチマークスイートです。
同一の入力画像・プロンプトに対する各モデルの出力結果を、スタイル別・難易度別に一覧比較できます。
テストカテゴリ
- Level A (Basic): 色変更、部分スタイル変更など基本的な編集(7テスト)
- Level B (Transform): アウトペイント、カメラアングル変更、時間・季節変更(15テスト)
- Level C (Reasoning): 時間推論、アノテーション理解、物理的推論(7テスト)
- Level D (Document): スライド生成、4コマ漫画、ストーリーボード、マンガ(5テスト)
使い方
- 下のボタンからビューワーを開きます
- 左パネルでレベル・スタイル・モデルをフィルタリング
- 画像をクリックすると拡大表示
- 矢印キーまたはサムネイルで画像を切り替え
注意事項
- 本テストはkamuicode搭載の画像生成モデルの性能について簡易的な参考指標を得ようとしているものです。
- テストプロンプトはおもに自然文を用い、モデルごとに同一のものを入れています。モデルごとのプロンプティングのベストプラクティスは考慮していないため、最良の性能を引き出せていない可能性があります。
- テスト・評価とも一発出しのため、ランダム性によるブレ、外れ値が混じっている可能性があります。
- 一部日本語プロンプト(レベルD)を使用しているため、モデルに日本語プロンプトの解釈能力がない場合正確なテストとなっていない場合があります。
- 現時点では主に画像編集にとくにフォーカスした内容となっているため、text2imageは特殊な推論を要求するD1-1〜D2-2でしか実施していません。
- 一部モデルは調査対象外としています。