【devlog #02】生成 AI でドット絵を試した結果、結局自力で打つことにした話 ―「AIみ」が抜けないので

サガサバイバーズのドット絵を生成 AI でなんとかしようと、ここしばらく色々試してました。ChatGPT の画像生成、NanoBanana、Midjourney、Stable Diffusion。

結論から言うと、どれもスーパーファミコン時代のスクウェア全盛期みたいなドット絵は出ませんでした。それで、結局自力でちまちまドットを打っています。

今回はその試行錯誤と、途中で考えたことを書いておきます。

4 ツールを試した結果

ChatGPT（画像生成）：プロンプト追従はそこそこ。ただ「ドット絵風」を依頼すると、ピクセルがちゃんとグリッドに揃わない・色数が多すぎる・ジャギーがイラスト的にスムージングされる、という現象が出やすい
NanoBanana Pro：今回試した中では一番マシ。特に 「参考にしたいドット絵を、リファレンスとして渡して生成する」 方法だと、それなりの完成度まで持っていけた。やっぱり「目指してるトーン」を AI に直接見せるのは効きます。ただし後述するとおり、出てきたものをそのまま使えるかというと別の話
Midjourney：絵としては綺麗。ただ「ドット絵」と頼んでも、色数の多いピクセルアート風イラストが出てくる傾向。クロノトリガーやロマサガみたいな色制限が効いた絵にはならない
Stable Diffusion：lora で寄せれば近づけるが、結局「寄せている」感じで、SFC 時代の手打ち独特の選択（このピクセルだけ違う色にする等）は出ない

共通する違和感は、「ピクセルアート風のイラスト」は出ても、「ドット絵」は出ないこと。違いを言葉にするのは難しいんですが、渋谷員子さんが描いた FF の歩きキャラとか、ロマサガのキャラチップに感じる、「このピクセル 1 つでキャラの個性を作っている」みたいな、職人が手で打ったときの計算が、まだ出ない気がします。

現時点で一番マシな手順：NanoBanana Pro にリファレンスを大量投入

4 ツール比較した範囲で、いちばん作品クオリティに近づけられたのは、NanoBanana Pro に「目指したいドット絵のサンプル」をリファレンスとして渡せるだけ渡してから生成する 方法でした。テキストだけで「SFC 時代のドット絵風」と書くより、参考画像を見せて「これに寄せて」と頼む方が、結果のトーンは確実に近づきます。

とはいえ、これでもそのままアセットとして使えるレベルにはなりません。 結局、1 ドット単位の調整は必須。リファレンスのおかげで「全体の雰囲気」は近づくけど、ピクセル粒度で見ると、相変わらず色数が多すぎたり、ジャギーが不自然だったり、目線の位置が惜しかったりする。だから「下絵としては有用、最終素材としては未完」が現実的な評価です。

「AIみ」が抜けない

これは画像だけの話じゃなくて、最近わりと感じていることなんですが、生成 AI で作ったものには「AIみ」みたいなものが残る。ブログの文章でもそうで、読んでいて「あ、これ AI 生成だな」と気づくことがけっこうあります。気づいた瞬間、ちょっとさめる。

これは自分が作ったものでも例外じゃなくて、自分で AI に書かせた文章とか、AI に出させたサムネを後で見返すと、「AIみ」がちゃんと残っていて、自分でさめます。

Midjourney や Stable Diffusion でがっつり生成してみたことがある人なら、たぶん YouTube 動画のサムネを見て「あ、これ生成 AI だな」とか、「これは Anything あたりの lora かな？」とか分かるようになってるとおもいます。そうやって気づいた時点で、何かが冷める。

ちなみに私は AI じゃない画像でも「あ、この画像 PIXTA にあったな」って気づいてクリエイティブ的にさめることもあります。これは AI とは別の話で、ストックフォト系の見覚え。同じ素材使ってる別記事の記憶と繋がって、その瞬間に作り手の手触りが消える。

なぜさめるのか、を考える

結局これって、「誰かが何らかの想いを、何らかの手法で乗せたか」が見えるかどうかなんだと思います。

SFC 時代の手打ちドット絵には、ドッターが「ここでこのキャラの目線を 1 ピクセル右にずらすかどうか」を悩んだ痕跡が残っている。だから 32 × 32 ピクセルの小さなキャラでも、ちゃんと「このキャラはこの性格だ」「この人物だ」と分かる。生成 AI のピクセルアート風イラストには、その「悩んだ痕跡」が無いんだとおもいます。
Stable Diffusionが生成したAI美女をみて、Soraが生成したAI美女をみて恋をするのか。私はしない。だけど私は電影少女のもえみちゃんには恋をしていた。

これは技術の問題というより、「人間が選択した」という事実が見えるかどうかの問題な気がします。AI も将来そのレベルに行くかもしれないけど、現状の出力は「平均的に綺麗」「破綻が少ない」方向に最適化されていて、人間の不均衡な選択を再現しにくい。

2025〜2026 にかけて生成 AI の熱がやや冷めてるように見えるのも、同じ構造かもしれない。出るのは早いし綺麗だけど、誰かの想いが乗ってる感じはしない。だから消費されて、流される。

Unity でゲーム作る楽しさは別物だった

面白いのは、生成 AI で絵を出すのは「便利だけど何か冷める」のに対して、Unity でゲームを作っているときは普通に楽しいということ。Claude Code に書いてもらったコードを試しに動かしてみたら、思いついた改善を実現できたら、ちゃんと楽しい。

違いを考えると、たぶん「自分の判断を毎フレーム挟んでる」かどうかな気がします。Unity 上で実機を動かして、感想を返して、調整して、もう一回動かす、というループのどこかに自分の判断が入る。コードを書くのは AI でも、何を作るか・何が気持ちいいかを決めるのはテストプレイしている自分。だから出来上がったものに自分の想いが乗る。

一方、画像生成 AI に「ドット絵のキャラを出して」と頼むと、出てきたものに自分の判断が入る余地が少ない。せいぜい「採用 / 不採用」の二択を繰り返すだけで、それは「想いを乗せる」とは違う作業。だから出来上がりに自分の手触りが残らない。

これは AI が悪いんじゃなくて、使い方の問題なんだと思います。AI に「全部」をやらせると、出力から自分が消える。AI に「一部」をやらせて、自分の判断を挟みながら仕上げると、自分が残る。サガサバイバーで、コードは Claude Code に任せて、ストーリーと「願い」は自分で書くと決めているのは、これと同じ理由です。

結局、ドットは手で打つことにした

そういうわけで、サガサバイバーズのキャラドット絵は、自力で打っています。下絵には NanoBanana Pro + リファレンス大量投入の方法を使うことが多いです。が、出てきたものをそのまま乗せるんじゃなくて、ピクセル単位の判断は最終的に手でやる。その手間で私の想いを乗せて、AIみをすこしでも薄めたい。

正直、下絵があるだけでもめちゃくちゃ時間短縮にはなっています。手を抜いてあの時代のドッターのレベルにはもちろん全然届かない。せめて「このピクセルは自分がここに置いた」と言えるところまで、AIみを消すためにドットを打ちたい。

「このゲーム、AI が作ってるな」とプレイヤーに思われた瞬間に、プレイヤーがさめてしまう。私は冷めてしまう。それが自分にとっての最悪のフィードバックなので、ピクセル単位の作業は、しんどくても自分でやる方が、結果的に伝わるものが残ると思っています。

【devlog #01】『サガサバイバー』を作りはじめました — 連載の宣言記事
ヴァンサバライクはもう「ジャンル」じゃなく「フォーマット」になってきた — ヴァンサバ系全体の動向

カテゴリー

ハッシュタグ