うねp

Live2dモデル一旦完成とその後の（声問題で）活用できないことへの考察

Added 2021-12-12 21:23:08 +0000 UTC

ひとまず上着入れた動きまでつけて、モデル出力まで出来ました。結局動きだけで1月半もかかってしまいましたね。。。そのモデルを今スタンダードらしいVtube Studioに取り込み、フェイストラッキングで動かすところまではたどり着けたのが最後の動画ですね（若干表情とかの制御や動きの制御に微妙なところがあるので、調整とか必要ですが）。2つ目の動画は賢そうに見せるための眼鏡オプションパーツ。むしろこっちの方が可愛いのでは？と思ったりいずれにしろ、ここまでは3年前にlive2dモデル作った時もFacerigで動かすことまでは出来てたので、時間がかかって大変ということだけを除けば基本的には可能なことはわかっている内容となりますが。問題は、結局動かせても何の活用方法もないってことなんですよね。自分が使うという上では、声問題がどうしても解決できず3年前はお蔵入りとなったわけです。当時は恋声とか使ってみたけど、地声がある程度良くないと無意味ってことが分かっただけに終わりました。元から声のいいVのママに成れというご意見もありましたが、弱小の私が作ったので活動してくれる奇特な人はおらんので、まあそれ以外の方針で考えていくことになるわけですねこの状況は現在も変わってないらしくて、結局自分の声鍛えろとかいう才能者の精神論に堕しているのが現状っぽい。そうなるといくつか方法を考えるわけすが、どれも一長一短で現実的に出来るかも不明なところ 1.voce changer+声を鍛えて（笑）対応する -> やるだけなら一番楽。望む結果に達せられないということを別にすればね。あとはここまでは知恵と技術で乗り越えてきたのにここに来て肉体のスペックと精神論に頼るしかないというところが自身のポリシーに合わない 2. speech to text API -> text to speech API などがあるクラウドAPIを使う。研究から民間来たあとは、某クラウドに労働で親しんでいる（棒）のでのAI系APIを時々触る機会があり、それらの組み合わせで出来ないか？という案。ただ、結局お堅いBtoB向けが主なので、天下のGoogle様のWeveNetを使った音声生成でも、抑揚無しでちょっとこれはなぁといった感じ（しかも女性声でも可愛くない）。さらに、一度テキスト化するという冗長な処理をしているため誤変換系の問題が多く生じる点も問題 3. 音声認識＋Voiceloid のらきゃっと氏でも実績のある手法。2と同じく誤認識は避けられないが、声はたどたどしくも可愛い声が実現できる。。。かもしれない。自分がこの方面に疎いため、どれほどうまく出来るかというのが未知数というのが最大の課題（音声認識も含めて） 4 ニューラルネットを使った力押し圧倒的な精度で次世代を狙った方法がこれではあり。。。当然、ニューラルネットを使った解法というのはみんな挑戦はしています。個人から企業までありますが、企業の手法の場合は事前学習済みモデルも実装コードもGitHubにリポジトリが無いという状態なので（画像や言語系は学習済みモデルも結構オープンなことが多いので、かなり特殊な気がする）、ふつうに試すのはかなり厳しい。元実装コードだけはGitHubにあっても、データが日本語じゃないとかなので、データ集めるという点でも個人では多大なハードルがあって厳しいという状態。日本語のちょうどいいコーパスも門外漢が入手するのは望み薄という感じっぽい。。。モデルとしては、CycleGAN-VC3とかがよさそうだけど、当然日本語の事前学習済みモデルは無し。データ問題と合わせて、かなり沼という感じがある。 https://github.com/jackaduma/CycleGAN-VC3 あとはStarGan-VC2 とか https://github.com/SamuelBroughton/StarGAN-Voice-Conversion-2 一応、パラレルデータを作れれば、そこまで計算リソースもデータリソースも消費しないで出来るかもという以下の実装はあり、最も手軽に出来るのはこの辺かと思われる。 https://blog.hiroshiba.jp/realtime-yukarin-introduction/ https://github.com/Hiroshiba/realtime-yukarin 難点は、パラレルデータ作成が大変ということ、教師データがVoiceloidなので、Voicelod自体の不自然さは取り除けないこと、上記を見ると、一旦1. ボイスチェンジャーに再び挑戦してみて、まあ案の定ダメだったら、3, 4に共通してボイスロイドを考慮するというのがあるので、ボイスロイド購入して慣れていてから次のアクションを考えるのがリアリスティックな方針なのかもしれない。素人がいきなり音声変換のスペシャリストにはなれないのだから。。。