【限】現状のみなとの頭の中で考えていること
Added 2022-03-28 18:06:49 +0000 UTC自分で頭の中を整理するためというのも含めています。
ーーーーーーーーーーーーーーーーーーーー
◯なぜトークソフトウェア用音声を、先ず先に録ったのか?
最近(先月末~今月頭)私はITAコーパスというものと、ROHAN4600という、TTS(Text-to-Speech、喋り音声合成)向けの音声を録りました。
なぜかというと、
水音ラルの使い方解説は
①動画で、
②水音ラルに、
HowToを解説してほしいと思いませんか?私は思いました。
なので先に歌唱音源より先に注力して優先させました。
・また、例えば「神っぽいな」の喋り部分などをお気楽に生成できると楽…というのもあったりします。
・現在niconicoでは、ボイロやVOICEVOXなど、今トークソフトウェアがホット、というのもあります。
(また、既に現時点でROHAN4600を使用したモデルで音声合成をできるようにしてくださった方がいます。イントネーション情報は使っていないので、2個目のやつはスキャットみたいになります。(それはそれでDTMで使えそうとか思ったりした))
https://colab.research.google.com/drive/1VqrxXQS2koUlE8Y7weMlx5n6apXyW9AG?usp=sharing
ーーーーーーーーーーーーーーーーーーーー
◯立ち絵について
現状、どういうものが必要なのかを、未だ情報を収集できていない現状です。
トークソフトウェアとして運用させるならPSDtoolKit対応させると便利なのか…?
わからん…
ーーーーーーーーーーーーーーーーーーーー
◯NNSVS(ENUNU)ライブラリ(AI合成)
AI合成が結構クオリティが上がってきている気配があるので、昔(4年前)録ったUTAUで使うにはくそ使いづらいCVVC音源を原音設定してテストしてみています。
まぁまぁモチベーションはありますが、現状でクオリティは可も不可も微妙なラインなので、ポシャる可能性は高いです。
(というか、収録量が尋常ではないです。連続音15音階くらいでようやく連続音1音階分のクオリティ…という印象です。でも自動でええ感じに勝手に調整されてくれるので、未来はあるというか…)
(執筆時点での、NNSVS公式のクオリティはこれくらいです)
https://soundcloud.com/r9y9/20220323-kiritan-test-svs-digimon
ーーーーーーーーーーーーーーーーーーーー
◯UTAU音源
・収録済みで配布できていないもの
└嗄(1音階)(原音設定が未だ)
微妙なクオリティな音源なので、FANBOX限定の音源の予定です。
・収録中
└TryParse
新しいマイクでの、Parse再現音源です。
多分Parse2と大して変わらない音源になると思うので、こちらもFANBOX限定の音源の予定です…が、声質が微妙いのでこのままお蔵入りするかもしれないです。
(このカバーで使っていた音源です)
https://www.nicovideo.jp/watch/sm40071704
・テスト段階
└英語
収録リストが、未だに制定できなくて進んでいません。
有気音と無気音の区別ができるリストとして区別したいところと思っているんですが、自分のニーズと周りのニーズとARPABETの都合の折り合いと、「英語って自由すぎね??」って問題で、リストが作れていない…
└中国語
録ってたんですが、マイクが新しくなったので再収録になりました。
わりとモチベーションはあるものの、かなりカロリーが重いので録音が苦行すぎてモチベーションが上がらない…
(中国語CVVC1音階録るのなら、日本語の連続音10音階録った方がマシ、というレベルの苦行です)
・構想段階
こちらで言っていた、「floatにヴァ行を追加する」
https://minelaru.fanbox.cc/posts/1948285
というのは、マイクが新しくなったため、根本的に新しい日本語リストで弱い発声の音源を新音源としてリリースする方が現実的かと思っています。
ただ、それなりに先かかな、と思っています。
しかも更に、マイクが新しくなった関係で再び14音階連続音相当のものを録ろうか…、とも片隅で考えています。
大変ですね
・構想未満
逆にいうと、これ以上に他に何かUTAU音源で録る必要性を感じるものが無いため、アイデアが無いです。
ーーーーーーーーーーーーーーーーーーーー
◯Mac対応
・なんか手動でprefixを入力しないと動かない
WindowsのUTAUとUTAU-Synthが謎に仕様が違うせいでノートに「a#3a き」みたいにフルで全部入力しないと動かないらしいです。
(UTAU-Synthは自動連続音が効くらしいんですが、その辺の仕様でprefix.mapが適用されないししかも自動で連続音にならないっていう地獄になってるようです。
いやほんと「prefix.map」(接頭辞)って名前してるのにも関わらず、UTAUでのなぜかprefixを考慮してない関連ソフトが多くて困りあげます。
僕個人としては、[ToneName][preVowel](space)[Lyric][Variation]という形の方がスマートだと思っているので頭に置きたいのです。)
・圧縮方法
圧縮率を考えて音源をrarを指定してるのですが、いかんせんこれもWindows寄りです。
*解決策
・prefix.mapと全部のoto.iniを変更したものを用意する
└正直、1個1個変えるのめんどいから一括で変換できるプログラムを用意したいところ…(「a#3a き2」→「a き2a#3」にして、prefix.mapの指定をprefixではなくsuffix指定に変更したデータを用意する。)
・圧縮を7zとかにする
ーーーーーーーーーーーーーーーーーーーー
◯ホームページ
正直、他のことで手一杯、HTML/CSS/Javascript系の勉強のモチベーションが上がらなくて全く構築のビジョンが無いです…(◞‸◟)
前述のHowToの整備が進んだらついでに整備することになるか…、という部分もありますが、やはり音源・ラベリングでタスクが手一杯なところが多分にあってだいぶ無理になっている状態です。
ーーーーーーーーーーーーーーーーーーーー
◯ソフトウェア
・ResamplerOverWriter
こちらで考えていた、原音設定を強制できる機能を追加したい…と思っている…
強制的にディープな各パラメータを維持れるようになることで、UTAU上から原音設定を魔改造した状態で音源を使えるようになります…
つまり、連続音で「a き」ってノートで「i か」を鳴らせるようになるような技術
…ですが、この例がよくわからんという感じの人にとってはちんぷんかんぷんな機能になるので、優先度はかなり低め…
ーーーーーーーーーーーーーーーーーーーー
このさきはもっとしんどいぞ(^言^)
●トークソフトウェアを作れる…
ROHAN4600にすべてフルコンテキストラベルを、"ほぼ全手動で"ラベリングして、イントネーション情報も与えてNNSVSで学習させれば、
VOICEVOX互換(イントネーション・音長がいじれる)の音声合成ができてしまうのではないのか…というのが全私の中で話題になっています。
ーーーーーーーーーーーーーーーーーーーー
●NNSVSライブラリで楽?に英語音源ができるのでは…
AI合成には「ファインチューニング」という概念があるのですが、
たくさん(連続音100音階くらい)日本語音源を録った上で学習させて、少しの英語(ないし中国語)音声を録って、それを適用すれば、「多音階の英語音源」をいい感じにAI合成できてしまうのではないか、というのも全私の中で話題になっています。
苦渋を味わいながら無理に外国語音源の多音階を録るよりも、1回英語を録るだけでいい感じ合成してくれたら楽じゃないですか?
やりかたわかんないけど^~