The myukkurivoice from taku-o

AquesTalk10対応

"クリアな音質、高い明瞭性、各種パラメータで様々な声質に調整が可能"
"基本素片：女声２種，男性1種から選択(複数可）+ パラメータで各種調整"
https://www.a-quest.com/products/aquestalk.html

試してみないとどのようなものかはわからない。

aq10-F1 で『記録』を使った後に f1 等のAquesTalk1の声が使えなくなる

0.6.5 において、
aq10-F1女声1（新ゆっくり）で音源をiCloudに記録した後にf1 女声1（ゆっくり）等のAquesTalk1の声が使えなくなります。
再現方法は以下になります。

１．iCloudにバックアップを作る設定のデスクトップや書類フォルダなどに『aq10-F1女声1（新ゆっくり）』を用いて『記録』ボタンで保存（ファイル名は名称未設定.wav）する。
２．『aq10-F1女声1（新ゆっくり）』のまま『再生』ボタンで再生
３．『f1 女声1（ゆっくり）』に音源を変更、再生
４．エラー表示

テストに使ったOSは10.13.1（HighSierra）です。

AquesTalk1は数字のタグの処理ができない？

<NUMK VAL="5" COUNTER="にん">/イル？

がAquesTalk1でエラーになる

次の拡張内容の候補の選出

自分が必要とする機能は取り込んだ。
他に必要な機能はあるか。上ほど優先度高。

世間の一般的なゆっくりの声を出力したい
- ゆっくりキンキン声問題 http://n.xxad.net/mylist/30109109
SRT字幕ファイルの生成

エコー
- 動画向けに使うにはパターンを多数用意する必要がある。UIをどうするかの考慮が要る。
- 動画編集ソフトで対応できるので、少し優先度低。
音声の編集機能
- 音声の調音用
音声のグラフを表示したい
- 音声の編集機能とセットで。
- 動画編集ソフトでいくらか対応できる。
波形表示
avi形式で出力する
- 音声 + テキスト + 透過背景
生成wavファイルの関連付けを変更
- iTunesが立ちあがらないようにする
字幕画像の生成
設定データ変更時、バックアップ

mp3で出力
- 要るのか？
声種f2対応 → 無理では？
SSML取り込み出力
- フォーマットのパースがかなり厳しい
- 導入する利点が無い、のではないか？

常時

高速化 → 手段はあるのか？

AquesTalk10の使用ライセンスキーの切替機能が要る？

Youtubeで広告付きの動画を投稿するには使用者ライセンスが必要。

AquesTalk1、AquesTalk2は使用者ライセンスを購入後、
OS、アプリ名、使用声種を連絡する。

AquesTalk10は使用者ライセンスのキーを設定する。
AquesTalk10用の機能が必要。

選択中のヘルプのアイコンが、active・非アクティブで表示がかわらない

非アクティブ時は灰色になる予定だった

音の調整機能、機能が多すぎるのでいくつか削る

音のフィルター、こんなに必要か
エコーは強すぎるかも？動画に使うならもう少し弱く

ドラッグアンドドロップ機能関連の問題

重い
- 想定する使用場面が、動画編集ソフト立ち上げてる想定で、実際にその状況だとドラッグが重い
重い環境で?、アプリに音声ファイルをドロップできてしまう時がある
- 相当重い環境でないと発生しない？

macOS High Sierraは32bitアプリをサポートする最後のmacOS

AquesTalk1が32bitである。
ライブラリが更新されない場合、次のOSで動かなくなる可能性がある。

アプリケーションを置くディレクトリのパスに空白が含まれていると、AquesTalk1の音声再生がエラーになる

アプリケーションフォルダに置くのであれば問題無いが、
"test a"のように空白スペースの入ったディレクトリにアプリケーションを置くと、
AquesTalk1ベースの音声再生がエラーになる

再生録音をWeb Audio APIベースに変更＋いくつか機能追加

優先

Web Audio API ベースに変更
音量
ピッチ

次の候補

ハイパス、ローパス
距離

環境設定画面を開いて、設定を変更すると、AquesTalk10の音声再生がエラーになる

環境設定画面を開いて、設定を変更する
すると、AquesTalk10ライセンスキーのデータとして空文字が入力されて(?)
音声再生、音声録音がエラーになる

ffiでAquesTalkの音声データを取得したら、managedにコピーすると、即リリースできる

より良い処理に

音声ファイル、ドラッグアンドドロップ機能

MYukkuriVoiceの画面からFinal Cut Pro Xに直接音声ファイルをドラッグアンドドロップできるようにする
- 録音したファイルのリンクを画面に表示
- ドラッグアンドドロップ対応

声が違う気がする

aq_yukkuri.phont がいわゆる"ゆっくり"の声なのだけれど、
"ゆっくり"の声とは違う。

そこで、他のゆっくりボイス系アプリのソースを覗いてみたのだけれど(失礼)、
phontファイルが間違っている、ということではないらしい。

つまり、音声の再生に問題がある？

ソースコードが巨大化してトップページが見づらくなったので、GitHub Pagesが欲しい

electron-packagerのignoreオプションが巻き込みすぎる

electron-packagerのignoreオプションが正規表現マッチ。
部分一致でも拾う
ルートディレクトリにファイルがなくても拾う
ignoreに短いファイル名も指定しており
よって、事故が起こりやすい
なんとかする

AquesTalk10ライセンスキーをどのように管理するか、という問題

ライセンスキーをどのように管理するか。
アプリに埋め込むか、動的に持ってくるか。

開発ライセンスキーを設定。音声波形を生成する前に一度呼び出すことで、以降、製品版とし動作し、評
価版の制限がなくなる。
構文 int AquesTalk_SetDevKey(const char *key)
 
使用ライセンスキーを設定。音声波形を生成する前に一度呼び出すことで、以降、合成音声データに含ま
れる透かしが使用ライセンス無しから取得済みに変化する。
構文 int AquesTalk_SetUsrKey(const char *key)

開発版とプロダクト版でソース公開して共有しやすくなったが、
そこはAquesTalk1、AquesTalk2が入っているので、MYukkuriVoiceにはあまり影響がない(´・ω・｀)

連続でAPIコールが来た時に、音声が切れる。

初見さんが来た時の返答とかが問題
もちろん、被って発声するのもNG
キューを管理する必要がある

マリサボイス(f2)を実現する

はたして、どうやって出力すれば良いのか
- AquesTalk1、カスタム版、というのが存在するらしい

公式サイトで配布しているAquesTalkとAquesTalk2はいずれも世間的に「ゆっくりボイス」と呼ばれるものではない

なるほどなるほど！

そして補足ですが、実はアクエスト社が公式サイトで評価版を配布しているAquesTalkとAquesTalk2はいずれも世間的に「ゆっくりボイス」と呼ばれるものではありません。ニコ動等でデファクトスタンダードとして使われているのはSofTalkなどに同梱された古いライブラリセットなので、評価版の声質を聞いて「なんか違う…」と思った方はSofTalkに同梱のAquesTalk.dllを代わりに使って試してみましょう。ちなみにSofTalkに同梱されたAquesTalkは現在アクエスト社が公式ページで配っているAquesTalkとライセンスが違うので、そこも要注意ということで。

http://www.baku-dreameater.net/archives/761

AquesTalkのライブラリの署名が通らなくて、Mac AppStoreリリースできない

AquesTalkのライブラリの署名が古くて、
署名成功しない？

音声録音の時間がかかるようになった

Web Audio APIベースにしてから
バックグラウンドで録音して、作業が止まらないようにする
前の軽い実装も需要があるか

AquesTalk10 ボイス設定変更機能の実装案

ボイス選択の横にカスタマイズボタン
AquesTalk10の時だけ表示
押すと、設定画面に移動
設定画面では、追加、変更、削除できる
追加すると、ボイス設定の最後に追加
UI
- 名前
- 6パラメータ
- 追加/変更、削除
DB
- voice.json

アルファベットが再生できない

具体的には

test

Web Audio APIでサンプリングレート8000Hzで出力したい

音源が8000Hzなので
Web Audio APIを通した時点で44.1kHzになってしまう
- Web Audio APIのサンプルレート変換はあやしい
- サンプリングレート変更は未サポート
- 実装が出てくれば都合が良い
Web Audio APIを通す前にサンプリングレートを変更する？
- こちらも現実的か
- ただし、過去の実験では上手く行かなかった

security issue lodash/lodash

lodash/lodashに修正の必要な問題が見つかる

音声ファイルにtext情報も含めてほしい

VOICELOIDソフトのように、音声とテキストファイルを一緒に書き出す(一つのファイルの中に音声とテキストを入れる)機能を追加してほしいです。

0.3.23からアプリのサイズが跳ね上がっている

少し調べたところ、zipファイルを作る処理で差異がある。

それはピッチではない。再生速度だ

SSRCのMac版のソースコードが見つからない

将来、問題になる可能性がある
また、現在、そのままではMacでソースコードをビルドできない。アプリを継続提供できなくなる可能性がある。

機能一覧

ヘルプ、READMEあたりに追加したい

macOS High Sierraの動作確認

動作確認できるMacが無い。
今使っていないMacも持ってないこともないけれど。

electronのアップグレード

少し古い。
現時点ではアップグレードにより利用できる機能が増えたりしないので、
少しやりにくい。

npm outdated -g
> Package            Current  Wanted  Latest  Location
> electron            1.4.12   1.7.9   1.7.9
> electron-osx-sign    0.4.2   0.4.7   0.4.7
> electron-packager    8.4.0   9.1.0   9.1.0
> electron-prebuilt   1.4.12  1.4.13  1.4.13
> node-gyp             3.4.0   3.6.2   3.6.2
> npm                 3.10.9   5.5.1   5.5.1

npm view electron dist-tags
> { latest: '1.7.9', beta: '1.8.2-beta.1' }

npm install [email protected] -g

サンプリングレートを変換、および補完処理する

これをしないと音がこもる、らしい？

ニコ生コメントビューアプリから連続でリクエストが飛んできたとき、順序よく再生するのは読み上げ側の責任

音声再生不可な音声記号に変換するケースがある

、/アイエエ'エエ？シ'ンテ、レ'ラカ、ー'ル_ス、シャコージョー/ホーソー、ナ'ンバー/<NUMK VAL="1296">、ソウセ'ンキョ？ソウセンキョナ'ンテ？カ/カイシサレマ'シタ/ダ'ブリュー

acceptFirstMouseの設定を切替時、再起動無しに設定を有効にする

今の所、インスタンスを破棄する以外に、これを実現する方法は無いかな？
setAcceptFirstMouse function待ち

AquesTalk1で音声再生に失敗するパターンがある

echo "フ\'/ロ\'トヨリ/<NUMK VAL=\"2\" COUNTER=\"バイ\" MODE=\"AaE\">/ツヨ\'イノワ/クサハ\'エタ、クラ\'ッ_チ。" | VOICE=0 SPEED=100 /Users/taku-o/Desktop/myukkurivoice/vendor/maquestalk1

ショートカットキー
- ArrowKeyが通らない
メニュー
- Not Supported

ニコビューアプリのviqoから読み上げを呼び出せるようにしたい

どのように実現するか？
開発者モードが有効であれば、

var scope = angular.element(document.querySelector('div')).scope();
var ctrl = angular.element(document.querySelector('div')).scope().ctrl;
scope.yinput.source = 'test';
scope.$apply();
ctrl.play();

で指定テキストを読み上げられる、が。

ボイス設定をリセットした直後に、音量、声種などの設定が(見た目上)リセットされていない。

内部のデータとしてはリセットされているが、
表示している情報が更新されていない。

音声録音時に、最後の方が少し切れる

録音ファイルに出力すると、最後の方の音が欠ける
ひとまず、以下のような対応をいれたが、根本的な解決方法は別に探す

// source
var in_sourceNode = audioCtx.createBufferSource();
in_sourceNode.buffer = decodedData;
in_sourceNode.onended = function() {
  // onendedのタイミングでは出力が終わっていない
  setTimeout(function(){
    recorder.end();
    MessageService.info('音声ファイルを保存しました。path: ' + wav_file_path);
    d.resolve('ok');
  }, 100);
};

テキストファイルでまとめて音声ファイル作成UIを追加したい

今考えているUIは左メニューの一番下に切替用のメニューを用意する。
出力ファイルの命名パターンと、出力先ディレクトリを設定する。
テキストファイルを渡す → その後、再生 or 録音ボタンで連続処理。

+--------------------+
|                    |
+----+---------------+
|    |               |
|    |               |
|    |               |
|    |               |
+----+               |
|here|               |
+----+---------------+

音声のパターンは左のボイス設定に従う
テキストファイルのパターンはこんな感じか

0:こんにちわ
1:おはよう

最新のWeb Audio APIにメモリリークがあるらしい？

AudioContext.decodeAudioData()の箇所で発生
使用したメモリが解放されないらしい
バージョンアップ時に要調査

対応としては、

audioSource.disconnect();
audioCtx.close();

と終了処理を入れれば良いらしい。
(使い回せなくはなる)

https://qiita.com/zprodev/items/7fcd8335d7e8e613a01f

taku-o / myukkurivoice Goto Github PK

myukkurivoice's Introduction

Hi there 👋

myukkurivoice's People

Contributors

Stargazers

Watchers

Forkers

myukkurivoice's Issues

優先

次の候補

Recommend Projects

Recommend Topics

Recommend Org