Speechz Text to speech 1.0

ライセンス: 無料 ‎ファイルサイズ: N/A
‎ユーザー評価: 0.0/5 - ‎0 ‎投票

スピーチテキストからスピーチへ

音声合成は、人間の音声の人工的な生産です。この目的に使用されるコンピュータ システムは、音声シンセサイザーと呼ばれ、ソフトウェアまたはハードウェア製品に実装できます。テキスト読み上げ (TTS) システムは、通常の言語テキストを音声に変換します。他のシステムは、音声表記のような象徴的な言語表現を音声にレンダリングします。[1] 合成音声は、データベースに格納されている録音された音声の断片を連結することによって作成できます。システムは、格納された音声ユニットのサイズが異なります。携帯電話やダイフォンを格納するシステムは、最大の出力範囲を提供しますが、明確さを欠いている可能性があります。特定の使用領域では、単語や文全体を保存することで、高品質の出力が可能になります。あるいは、シンセサイザーは、声道のモデルや他の人間の音声特性を組み込んで、完全に「合成」音声出力を作成することができます。[2] 音声シンセサイザーの品質は、人間の声との類似性と理解能力によって判断されます。分かりやすいテキスト読み上げプログラムは、視覚障害や読書障害を持つ人々が自宅のコンピュータ上で書かれた作品を聞くことを可能にします。多くのコンピュータオペレーティングシステムは、1990年代初期から音声シンセサイザーを含んでいます。

一般的な TTS システムの概要

自動アナウンス メニュー0:00 スウェーデンに到着する列車を発表する合成の声。 このファイルの再生に問題がありますか?メディアのヘルプを参照してください。

マイクロソフトサムのサンプル メニュー0:00 Microsoft Windows XPのデフォルトの音声シンセサイザーの声は、「素早い茶色のキツネは怠惰な犬を1,234,567,890回飛び越えます。ソイ" このファイルの再生に問題がありますか?メディアのヘルプを参照してください。 音声合成システム(または「エンジン」)は、フロントエンドとバックエンドの2つの部分で構成されています。フロントエンドには、2 つの主要なタスクがあります。まず、数字や略語などの記号を含む生のテキストを、書き出された単語と同等に変換します。この処理は、テキストの正規化、前処理、またはトークン化と呼ばれることがよくあります。フロントエンドは、各単語に発音表記を割り当て、フレーズ、句、文などのプロソディック単位にテキストを分割してマークします。音声文字を単語に割り当てるプロセスは、テキストから音韻、またはグラフと音と音の変換と呼ばれます。音声変換とプロソディ情報は、フロントエンドによって出力される象徴的な言語表現を構成します。バックエンド—しばしばシンセサイザー&mdashと呼ばれ、シンボリック言語表現をサウンドに変換します。特定のシステムでは、この部分にはターゲットプロソディ(ピッチ輪郭、音素の持続時間)の計算が含まれ、[4]出力音声に課されます。

バージョン履歴

  • バージョン 1.0 に転記 2013-10-06

プログラムの詳細