【MV制作】『伝説のレジェンドポーズ』制作秘話（セルフ考察）

『伝説のレジェンドポーズ』は、レジェンドポーズというGOバトルリーグ（GBL）の象徴に惹かれた一人のトレーナーの憧れと執念を描くと同時に、

筆者自身にとっても、「この曲をどう映像として成立させるか？」という長い試行錯誤の末に生まれた作品でもある。

楽曲そのものは2024年12月には完成していたが、当初から本作は“ミュージックビデオ”というフォーマットに落とし込んで初めて完成と考えていたため、映像表現の出口が見つかるまでは、未完成の状態のまま眠らせていた。

本記事では、その制作過程を振り返りながら、『伝説のレジェンドポーズ』という作品の構造、演出意図、そしてAIアニメをどのような表現として捉えているかについて、セルフ考察として整理してみたい。

『伝説のレジェンドポーズ』映像化までの試行錯誤

曲はできていた。しかし、作品はまだ生まれていなかった

『伝説のレジェンドポーズ』の楽曲自体は、2024年12月にはすでに完成していた。

当時は SunoAI がバージョン3.5から4へ移行するタイミングで、

もともと映像畑の筆者からすると、遂に音楽も自然言語から自作できる時代に突入し、“最後のピースがそろった”という感覚があった。

なぜなら、筆者の思想を、テキストやイラスト、映像だけでなく、楽曲と映像の両面から一つの作品として設計できる手段が、ようやく整ったとも言えたからだ。

つまり、ミュージックビデオという表現形式が射程に入ってきたのである。

しかし、ここで新たな問題もはっきりした。

今度はその楽曲を、筆者が理想とする完成度のミュージックビデオへ落とし込むには、圧倒的に人的リソースが足りない課題が前面に出てきたのである。

ミュージックビデオの映像は、アニメーションで表現することは決定していたが、

それを従来のTVアニメーション制作に近い発想で組み立てようとすると、筆者があと100人必要か、制作時間が100倍必要になってしまうという課題である。

映像化の方法だけが、長く見つからなかった

人的リソース不足という課題を解決するため、当時、一気に時代の潮流となっていた動画生成AIに着目するのは、タイミング的にも自然な流れだった。

日進月歩であらゆる分野のAIが進化していく中、動画生成AI界隈も例外ではなかったからだ。

当時、有力候補として見ていたのが、Midjourney で原画を作り、Runway で動画化するルートだったが、調査を進めるうちに、筆者が求めていた方向性と品質にはまだ及ばないという結論に至った。

まず、当時の Runway があまりアニメ調の動画生成を得意としておらず、

更に、当時の Midjourney では、キャラクターの一貫性にどうしても難があった。

ストーリー性のあるアニメーション制作を動画生成AIで実現するには、原画の品質が鍵を握るのだが、当時の画像生成AIでは技術的にその点がまだ厳しかった。

そこで別のアプローチとして浮上したのが、Blender による自作3Dモデルと3DCGアニメーションである。

3Dモデルであれば、従来の手描きアニメーションのように、一枚一枚、画をすべて描き起こす必要はなく、

一度モデルを構築してしまえば、キーフレームとキーフレームの中割りは自動補完されるため、作画負担という観点では、大幅に人的リソース不足を解決できそうだったが、ここにも別種の負荷があった。

3DCGアニメーションの、ボーンを操作してキーフレームごとにポーズを指定していく工程は、

高価な機材を用いたモーションキャプチャーのように、自然な動きを自動的に取得できるわけではないので、結局のところ細かな試行錯誤が不可欠になる。

しかも、ボーン操作と自然なモーション作成には、3DCG特有の知識と感覚を要求し、従来のアニメーション制作とは別種のリソース負担が発生する事となった。

こうして、動画生成AIも、3DCGアニメーションも、それぞれ可能性はあったが、どちらもまだ筆者の求める表現と、それを現実的に制作可能かの、その両方を同時に満たすには至らなかった。

『伝説のレジェンドポーズ』の映像化は、しばらくの間、決定的な手段を見出せないまま停滞することになる。

技術の進化が、眠っていた構想を解凍した

そうした停滞を大きく動かしたのが、画像生成AIの革命的進化だった。

Nano Banana Pro の登場である。

Nano Banana Pro は、Gemini 3 を搭載したことによって、複雑なプロンプトへの追従性が一気に高まり、これまでなら到底不可能だった表現を可能にした。

特に革命的だったのが、複数の参照画像を用いたキャラクターの一貫性、高度なテキスト描写、カメラアングルの制御、画像修正の編集精度であろう。

これは、単に「綺麗な画像が生成できる」という話ではなく、アニメーション制作という文脈においては、“優秀な原画マン”が自分のチームに参画したと同義に等しい。

原画の完成度がほぼ筆者の理想に到達したことで、残る課題は、アニメ調の動画生成を得意とする動画生成AIの選定となった。

この段階で候補として強く意識していたのが、DomoAI と Vidu である。

Vidu はアニメ調の動画生成に強く、特に Reference to Video、すなわち複数画像を参照しながら一貫性を保った動画生成ができるという点に、大きな関心があった。

ストーリー性のあるアニメにおいて、キャラクターの一貫性、破綻を抑えられそうな機能は、非常に魅力的な候補だったと言える。

しかし最終的に選んだのは、DomoAI だった。

まず、DomoAI もまたアニメ調の動画生成を得意としていた。

加えて、DomoAI はAIアバターによるリップシンクにも定評があったからだ。ミュージックビデオにおいて、歌と口の動きの同期は作品の説得力を大きく左右する。

そして、最終的な決め手になったのが、Proプランから使える「リラックスモード」による無制限生成。

動画生成にはどうしてもガチャ的な側面があり、狙った演出が再現できているか、動きや一貫性に破綻がないかの成功率には、一定の試行回数を要する。

そうした中で、リラックスモードによって回数を気にせず生成を重ねられることは、制作上、非常に大きな安心材料となった。

これは画像生成においても同様で、原画の完成度を突き詰めるには、やはり相応の試行回数が必要になり、Nano Banana Pro も DomoAI なら、リラックスモードで無制限に使えるのはかなり大きい。

さらに2026年は、ポケモンGOが10周年を迎える節目の年でもあるため、

技術的な条件と、作品を世に出す文化的なタイミングが重なったことで、眠っていたプロジェクト（『伝説のレジェンドポーズ』のMV）が一気に前進する事となったのである。

『伝説のレジェンドポーズ』セルフ考察

そもそも何故、ミュージックビデオなのか？

筆者の最大の目的である“思想の具現化”を実現する手段は、様々なフォーマットが存在するが、ストーリーをアニメで表現するルートが筆者にとっては、相性の良い組み合わせだと考えた。

それは、筆者の経歴やスキル、嗜好性との方向性とも合致する。

「ストーリーをアニメで表現する」最も王道のルートは、やはりTVアニメ的な形式なのだが、

ナレーションのような用途であれば、すでに実用的な水準に達してきている音声生成AIでも、

演技のついた台詞をキャラクターに喋らせ、会話劇として物語を成立させるには、当時はもちろん、この記事の執筆時点（2026年春）で見ても、なお理想の品質には、届いていないと考えている。

ストーリーアニメに必要な、感情の機微を伴った演技、台詞の間、芝居としての説得力まで含めて考えると、現実の声優の演技に比肩するには、まだまだ発展途上という印象が強かった。

一方で、歌という形式においては事情が異なる。

歌唱であれば、感情表現や発音も含めて、すでに作品として成立しうるレヴェルに達していた。

ストーリー性のあるアニメを目指しながらも、TVアニメ的な会話劇ではなく、ミュージックビデオ形式を選択したのは、技術の進捗と思想の具現化をチューニングした結果だったといえる。

歌詞はMVを前提に作詞した

『伝説のレジェンドポーズ』歌詞

[Verse]
レイドバトルの待機画面一発で心奪われた
ひときわ異彩を放つそのポーズ後から知った
あれがレジェンドポーズ
絶対欲しくてレート戦デビューしたけれど
ボッコボコに打ちのめされた
[Verse 2]
テンプレパを用意して PvPの知識やスキルを磨いた
メンタル管理が一番大事と聞いて瞑想も始めた
やれることは全部やったのにどうしても届かない
[Chorus]
選ばれし者に与えられる最強の称号
いつか手にしたいレジェンドポーズ
みんなの憧れ絶対につかみ獲る
伝説に俺はなる待ってろレジェンドポーズ
[Verse 3]
テンプレパを用意して PvPの知識やスキルを磨いた
メンタル管理が一番大事と聞いて瞑想も始めた
やれることは全部やったのにどうしても届かない
[Bridge]
実戦経験が足りないのは分かってる
それでも力の差がこんなにあるなんて
こんなに遠い届かない高く聳えるレジェンドの壁
ウジウジすんな分かってんだろ
できることはただ一つ諦めないこと
[Chorus]
選ばれし者に与えられる最強の称号
いつか手にしたいレジェンドポーズ
みんなの憧れ絶対につかみ獲る
伝説に俺はなる待ってろレジェンドポーズ
Lyrics：BENRONcenter

本作の歌詞は、最初からミュージックビデオを前提に作詞している。

つまり、映像化した際に、ストーリー性を歌詞からも想起できる組み立てが必要だった。

とはいえ、映像に全振りした歌詞では、楽曲としての完成度が犠牲になる可能性もあり、

それでは、MVとしては本末転倒になりかねない。

楽曲単体でも魅力的であるには、やはり音楽理論的にも破綻のないようにするのが大前提となる。

そのため、音楽に関しては専門外の筆者としては、斬新さや型破りを狙うのではなく、徹底的に王道のテンプレートから崩さないように心がけた。

構成としては、

[Verse] → [Verse 2] → [Chorus] → [Verse 3] → [Bridge] → [Chorus] を採用した。

[Verse] [Verse 2] [Verse 3] パートで状況を説明し、物語を前に進める。

[Chorus]パートでテーマの明確化とタイトル回収。

[Bridge]パートで視点や感情を切り替え、ラスサビを単なる反復ではなく、“意味の更新された再提示”にするための橋渡しにする。

[Chorus]（ラスサビ）パートでは、同じ歌詞が繰り返されるが、[Bridge]を経ることで、一段深いテーマとして受け取れる。

歌詞の流れをこのフレームにハメ込むことで、コード進行やメロディ、BPMといった音楽理論的にも、[Chorus]（ラスサビ）に向けて盛り上がっていく構成になるため、

歌詞の「憧れ → 挫折 → 努力 → 壁 → 決意」という努力物語の感情の流れとも完全に一致する。

MVではリフレインの演出が肝

一般的なストーリーアニメでは、基本的に出来事が順番に積み重なり、時間軸に沿ってストーリーが進行していく。

一方、ミュージックビデオでは、ストーリーを牽引するのは、歌詞と曲であり、これらは音楽的に“リフレイン（反復）”が多用される。

同じフレーズ、同じメロディ、同じ感情、同じ象徴の繰り返しが、音楽という文法においては自然に反復されるのが普通なので、

このリフレインを演出に組み込むことが、

ストーリー性のあるアニメをミュージックビデオというフォーマットで表現する意味となる。

一例として『伝説のレジェンドポーズ』では、[Verse 2]と[Verse 3]で、下記の歌詞がリフレインする。

テンプレパを用意して PvPの知識やスキルを磨いた
メンタル管理が一番大事と聞いて瞑想も始めた
やれることは全部やったのにどうしても届かない
Lyrics：BENRONcenter

「PvPの知識やスキルを磨いた」シーン

音楽的には同じ歌詞がリフレインしているシーンだが、

[Verse 2]と[Verse 3]の映像では、PvPの知識やスキルを磨くためのノートやメモの数が大幅に増えており、時間の経過と地道に努力を重ねている変化が、映像的には見て取れる。

「瞑想も始めた」シーン

メンタル管理のために“瞑想”を始めるというのは、リアルなGBLの“あるあるネタ”というよりは、

少し大袈裟な表現にすることで、風刺も込めた小ボケというシーンになっている。

作中には随所でリフレインを活用した演出を施しているが、その変化が些細な箇所も多い。

しかし、この瞑想シーンは、リフレインでエスカレートさせる際も、画的に派手な変化にしているため、

このシーンをきっかけに、歌詞のリフレインが単純なバンクシーンではなく、リフレインを活用した演出になっている点に気づく視聴者も多いだろう。

また、時間経過や、この後の感情の流れも考慮して、[Verse 2]と[Verse 3]では、天候も分かりやすく「晴れ」→「嵐」へ変えている。

DomoAI（動画生成AI）の簡易レビュー

DomoAI

下記のリンクには10%割引のクーポン自動付与

公式サイトで確認する

ポチップ

リラックスモードで生成ガチャの成功率を上げる

DomoAI は、Nano Banana Pro で制作した原画を動画化する工程で使用した。

しかも DomoAI のProプラン以上であれば Nano Banana Pro 自体もリラックスモードで無制限に使えるため、原画作成から動画作成までを一気通貫で回せる点はかなり大きかった。

生成AIにはどうしてもガチャ的な側面がある。

画像生成でも動画生成でも、一定水準以上のクオリティを確保するには、最終的に試行回数そのものが、ものを言う場面が少なくない。

そうした中で、制作期間にある程度余裕があり、クレジットを節約したい場合、このリラックスモードは非常に心強い。

生成AIの不確実性を、試行回数で乗り越えられるからである。

ただし、注意点として、Nano Banana Pro を複数レーンでリラックスモードを使って大量に生成しすぎると、異常に待ち時間が長くなる簡易BAN的な挙動も見られた。

試行回数も大事だが、無茶をさせすぎない節度もリラックスモード利用には求められる。

もう一つ DomoAI 経由で Nano Banana Pro を使用するメリットとして、

Google謹製の Flow でも、無制限ではないにしろ「0クレジット」で Nano Banana Pro は使用できるが、Flow だとポリシー違反で生成が失敗するようなケースでも、DomoAI 経由なら成功するケースがあった。

恐らく、APIのパラメータ設定で、DomoAI 経由の Nano Banana Pro は、性能をフルで発揮できる可能性が高い。

意外な発見としては、ブラウザベースでも使えるサービスと、リラックスモードとの相性の良さである。

これは、高性能なPCの前に張り付いていなくても、学生であれば学業の合間、社会人であれば仕事の合間など、

空き時間にスマホからリラックスモードで生成指示を出しておけば、別タスクとリラックスモードの生成待ち時間を相殺できて、無駄時間を有効活用できる。

アニメ調の動画生成とリップシンク

DomoAI のアニメ調の動画生成能力については、確かに前評判通り、安定してアニメルックの動画生成ができた。

日常系のシーンや、かわいい系の仕草は特に得意領域のように感じた。

一方で、激しいアクションシーンのような複雑な動きは、DomoAI の得意領域とは言い難い側面がある。

AIアバターによるリップシンクに関しては、ハマればかなり高品質の動画ができる。

例えば、ボーカル一人がバストアップで歌唱しているようなカットでは、比較的、成功しやすい。

ただし、傾向としては、原画に忠実にリップシンクを適用させるというよりは、学習元の影響を受けやすい印象があり、

アニメルックを維持できずに実写寄りになってしまったり、原画のキャラデザを保持できずに、瞳を大きくしたり、美肌にしたりと、加工強めの美化フィルターがかかるような画作りになる傾向がある。

また、例えば、バンド形式で複数のメンバーが演奏しながら、その中でボーカルを歌わせるようなシーンでは、リップシンクが破綻するケースが多かった。（そもそもそのようなシーンのリップシンクを、執筆時点では仕様として推奨していない）

このあたりは、単に「できるか」「できないか」ではなく、どの条件なら安定して成立するかを見極める必要がある。

そのため、苦手なシーンを無理に DomoAI だけで再現しようとするのではなく、別の手段に切り替える判断が重要になる。

例えば、口の動きが破綻しやすい場面では、CLIP STUDIO PAINT EX のアニメーション作成機能を用いて、従来方式のセル（フレーム）単位による口パクを手描きで対応する必要があった。

つまり、生成AIだけで全てを完結させるのではなく、必要な場面では従来の制作手法を併用する方が、結果として作品全体の完成度は高くなる。

生成AIとの向き合い方

きっかけは人的リソースの課題を解決するために、生成AIを活用してきたが、使っていくうちに、生成AIへの期待値が上がり、

生成ガチャが失敗すると、「お前（生成AI）の実力はこんなもんじゃない、もっと本気出せ！」と、必要以上に固執して、無駄に試行回数を重ねる事態も生じた。

しかし、これは生成AIとの向き合い方としては、正しい方向性ではない。

頭の中にある構想を、そのまま一字一句違わず完璧に実現させようとするのは、現時点での技術ではどうしても限界がある。

本来、そのような無茶振りは、生成AIを使わなくても困難なことのはずなのに、生成AIなら、あたかもそれが「実現できてしまうかもしれない」という、幻想を抱かせるからであろう。

何度プロンプトを工夫しても、原画を調整しても構想通りの動画が生成されない場合は、

演出プランそのものを変更したり、生成された動画を編集で対応できないか検討するなど、固執するよりは、柔軟に向き合う方が、結果的に良い方向性に向かうことが多かった。

生成AIを使う上で、

「細けぇこたぁ、気にしねぇ」という精神が、

生成AIとの向き合い方としては正しいのであろう。

AIアニメは漫画のコマ割りに近い

漫画のコマ割りとは？

前提知識として、日本の漫画のコマ割りは、

“空間”よりも、“時間”の切り取りに重心がある。

特に日本の漫画で特徴的なのが、セリフのないコマ、風景だけのコマ、空のコマといった、

「間」をコマで表現する、時間的余白を意図的に設計する部分であろう。

もう一つの大きな特徴としては、「出来事」より「感情」の流れをコマ割りで重視するケースが多く、

読者の体感時間を遅くしたい場合は、コマ数を増加させたり、

感情の盛り上がりに応じて見開きの大ゴマを展開したりと、

コマ割りは、感情の波形を視覚化しているともいえるため、

感情の流れを楽譜に落とし込む音楽的な構造にも近いといえる。

アニメと漫画の時間設計の違い

	アニメ	漫画
時間	時間は物理的にフレームとして存在する	時間は読者の頭の中で補完される
間	アニメの間は「再生時間を使う」	漫画の間は「読者の想像時間を使う」
情報密度	アニメは展開メディア	漫画は圧縮メディア

漫画のコマ割りが“時間を分解”しているのに対し、

アニメーションでは“時間を生成”しているので、

そもそも、時間設計の思想に決定的な差があるといえる。

漫画では、作者が、「どこを切るか」「どこを飛ばすか」「どこを止めるか」を設計し、

時間は「省略」と「跳躍」によって整理され、

この時間の再生には、読者の脳内で補完する必要がある。

一方、アニメーションでは、原画でキーフレームを設計し、

原画と原画の間を、動画（中割り）で埋めている。

この時間の再生には、実時間を1：1で消費して補完する必要がある。

AIアニメは、TVアニメの代替ではなく、動くコマ割り

AIアニメがしばしば「紙芝居的」と揶揄やゆされるのは、現在のAIアニメを、TVアニメと同じ評価軸で見てしまうからであろう。

しかし筆者の見立てでは、現時点のAIアニメは、そもそもTVアニメの代替として捉えるべきものではなく、

構造的には、むしろ“漫画のコマ割りに近い”と考える。

前述した通り、従来のアニメーションでは、キーフレームとなる原画と原画の間を、中割りで埋めることで、キーフレームAからキーフレームBへ、時間的にも要素的にも正確な連続性を確保している。

一方、AIアニメの場合、一般的には一枚の画像（原画）から、プロンプトで制御しながら生成ガチャで動きを作る。

最近だと、開始フレームと終了フレームを指定して、中割り的な発想で動画を生成する機能も実装されつつあるが、キーフレーム同士の正確な連続性が確保できているかは、やはり生成ガチャになってしまうのが現状だ。

つまり、TVアニメの模倣としてAIアニメを使ってしまうと、ただの下位互換という評価になるのも当然だと言える。

そうではなく、現状の技術では、キーフレーム同士の連続性が弱いことは認め、

どんなに密度が濃い原画からでも、圧倒的な速さで断片的な動画を生成することが可能な、AIアニメの特性を活かす方が正しい方向性だろう。

そこで重要になってくるのが、アニメーションの文法ではなく、

漫画のコマ割り文法をAIアニメに適用するという発想だ。

漫画のコマは、静止画でありながら、前後のコマとの関係、コマの数や大きさ、間を使って、時間や感情の流れを制御し、

読者は、コマとコマの間を自ら補完しながら物語を読んでいる。

AIアニメもまた、断片的なカットの連なりと、カット数や間を使って、カットとカットの間を視聴者が補完することで成立する。

だから筆者は、AIアニメを「動くコマ割り」と捉えている。

そう考えると、AIアニメは、TVアニメでもなく、漫画でもない、

第三の新フォーマットであるとも言えるだろう。

さらに興味深いのは、この形式が日本文化と相性の良い可能性を持っていることだ。

日本の表現文化には、間の文化、省略の文化、補完の文化がある。

すべてを滑らかに説明し尽くすのではなく、あえて飛ばし、切り、観る側に補完させることで成立する美学がある。

筆者は、この新しい形式は、むしろ日本的な感性の中で成熟しやすいのではないかと考えている。

【MV制作】『伝説のレジェンドポーズ』制作秘話（セルフ考察）