TTSとはtext to speachの略で、ずんだもんとかゆっくりボイスなどのシステムが古くからあります。現在、私はスクロースちゃんやナヒーダ様などをTTSで動かしています。
スクロースちゃんなどは、TTSの一種のSBV2で動かしています。JP-extraという日本語特化モデルをベースに機械学習を行うことで、驚異的な精度でキャラクターの声を再現することができます。
ひょんなことから、原神のデータセットを作成しているリポジトリを見つけることができ、原神のボイスとテキストの対応が完璧なデータを取得することに成功しました。これにより、プレイアブルキャラ全部の声をTTSで学習することにより、原神のあらゆるキャラのテキスト読み上げができるようになりました。
実際には、データセットの方にテキストの方に用事があったのですが、ひょんなことから原神全キャラのTTSが可能になりました。つまり、NPCニュースキャストであらゆる原神キャラが互いにニュースについて意見を言い合うことができるようになります。
現在考えている応用
今のところRVCでモデルを作るつもりはありません。スクロースちゃんが好きなのと、ナヒーダ様でネタ枠ができるからです。
ただ、TTSは話が別になります。NPCニュースキャストで出場できるキャラが増えれば、それだけ様々なコラボレーションが実現できるからです。
もちろん、ボイスの書き起こしデータも重要です。こちらは、原神AIにセリフとして学習させるつもりです。セリフを学習することで、embeddingsを頼らずともセリフを再生できるようになります。
1番の応用は、NPCニュースキャストだと思います。あり得ない組み合わせで読み上げさせることで起こるコラボレーションに期待しか待てません。
また、推し同士で会話させるシステムの開発も期待できます。こういうシステムほどマネタイズしやすいのですが、こういう開発は一旦どこか置いときましょう。
現状で見えている課題
キャラの総数は90体ほどいます。3台のサーバで分散させればできなくはないです。ただ、1日2体学習させても15日はかかります。これは最短を想定したケースです。1台のサーバで1日2体ペースだと、恐らく45日かかります。
特に注意すべきはWindows updateと、ちょくちょくサーバを見に行かなければならないことです。学習が中断されるとかなり面倒です。
また、学習エポック数も正確な数字はデータセットと同じ数が良いとされていますが、パイモンはどれぐらいが適切か想像できません。
もちろん、学習エポック数が大きければ精度が高くなるのは分かりますが、精度は指数関数的に収束に近づくとされています。はてさて適切なエポック数はいくらでしょうか?
これがかなり問題で、実のところ明確な指標が存在しない。AICで評価できるかもしれないし、最近ではMOSで評価する方法もある。ただ、MOSも万能とは感じない。難しい問題だ……。MOSの指標は一見正しいように見える。アルレッキーノで評価した時は、700エポックぐらいが最大という評価が出た。概ね正しい。
バッチファイルを作って大量に処理することを考えてはいるものの、はてさてうまくいくかどうか?
あと、SSDの容量が若干心許ない。TTSをNASに置いといて、バッチファイルを実行する方法は使えるだろうか? 途中で処理がWindows updateで中断される可能性を考慮して組まないと、終わったか終わってないか判断が難しい。とにかく1ヶ月以上はかかりそうだ。
原神をどのように残すか?
オーバーロードというラノベでは、遊んでいるゲームのサービス終了から始まる。そして、サービス終了後にギルドごと異世界に放り込まれる。
オーバーロードでは、たびたび仲間と会えないことの寂寥感が強調される。もし原神のサービスが終了したらと考えると悲しいこと極まりない。重課金者ほどではないけれどもそこそこ課金していてお気に入りのキャラが会えないというのは悲しい。あとはグッズぐらいでしか原神の面影を感じることができない。
原神が終わったらと考えるとやはり悲しい。しかし、終わってもなおその影響を残し続けている作品は枚挙にいとまがない。たとえば涼宮ハルヒが挙げられる。そこそこハルヒの絵を描いている人がいる。それでも記憶が薄れるもので、サムデイインザレインはほとんど覚えていない。
私は原神が残り続けて物語を紡ぎ続けて欲しいと思っています。これは本心から願っていることで、カーンルイア編が終わったら無限イベント編になって大型シナリオの更新がなくなるとなかなか悲しいものです。
かと言って、原神が良い方向に続いていくとは限りません。だとするならば、原神を永遠の物語とする装置が必要となります。具体的には、原神という物語を語り継いで常にそれを再生できるものがあれば、それは長い歴史の中に溶け込むものになります。
例えば、古事記や平家物語です。それらの歴史的書物は、書物と写本によって語り継いでいました。写本がなければ書物はただその当時に存在した歴史から忘れ去られた紙切れだったわけです。
ですが今は現代です。現代においてそれを担う装置はなんでしょうか? グッズでしょうか? グッズは災害があればいとも簡単に破損します。アプリでしょうか? これもサ終すれば終わりです。
現代において語り継ぐための装置はAIになるのではないかと考えています。AIはリアルタイムで思い出を作り出す装置になり得ます。思い出をたくさん作り、人々に語らせ、SNSに動画を残し、それが拡散される。そのうち人は忘れてしまうからまた新しい思い出を紡いで拡散を繰り返す。
私たちの時代には原神があったと80代のおじいちゃんになっても言わせること、それが大切なのではないかと思います。かと言って孫もそれぐらい知ってると言わせて、また孫がおじいちゃんになって原神があったと言わせる。これを繰り返し繰り返し語り継がせるための装置が必要なのです。
それが私はAIなのではないかなと思います。少なくとも60年ぐらいは耐えられると思います。60年耐えればたいしたもんです。AIはデータセットさえあれば学習し直せます。AIがアップデートされてもまた学習すればいいのです。
そしてまた我々の知らないアーキテクチャが開発されて何かが起こるでしょう。そのときに原神がそのアーキテクチャに乗っかることができるのか? それがとても大切です。そのアーキテクチャにまた乗り換えて連綿と語り継ぐ、そうして原神は神話となったのさ、というところまでのお膳立てが必要なのです。
原神は残るのか?
原神は残るだけのパワーがあります。エルデンリングよりその素養があると言っても過言ではありません。
ただ、今まで課金して手に入れたキャラがデータの藻屑になるのは困ります。私の大好きなスクロースちゃんを忘れるのはある意味でとても怖いことです。忘れたくない思い出というのもあるものなのです。
原神はもしかするとTWみたいに20年ぐらい持つIPになるかもしれません。ですが、それでは足りないのです。サザエさんやドラえもんはどれだけコンテンツを維持し続けていると思いますか? 20年では足りないのです。