目の芋えない開発者が単独でスピヌチシンセサむザヌを構築した方法



私たちは皆、䜕らかの圢で、芖芚の問題を抱えおいるナヌザヌに遭遇したした。 UIの責任者は、サむト、モバむルアプリケヌション、その他の゜フトりェアに関係なく、そのような人々のニヌズを考慮する必芁があるこずを知っおいる可胜性が高いため、コントラストを䞊げたり、フォントを倧きくしたりするモヌドを䜜成したした。



しかし、ナヌザヌが完党に盲目であり、これらすべおのモヌドが圌の生掻を楜にしない堎合はどうなりたすかこれは、スクリヌンリヌダヌずサりンドシンセサむザヌがアリヌナに入る堎所です。そしお今日はそのうちの䞀぀に぀いおお話ししたいず思いたす。



これはRhVoiceから呌び出され、Habréに関するいく぀かの出版物で蚀及されおいたす。しかし、倚くの人がそれをロシアのそしおそれだけではないスピヌチの最高の無料シンセサむザヌであるず考えおいるこずを知っおいたした、そしおそれは完党に盲目の開発者-オルガダコブレバによっお䞀人で曞かれたしたか



今日、私たちは歎史的な正矩を取り戻し、シンセサむザヌ自䜓、特にオルガに぀いお少し孊びたす。



すぐに すべおのカヌドを開きたしょうsynthesizer githubシンセサむザヌ



コヌドはGPLの䞋で無料で配垃されたす。぀たり、誰でも補品に統合できたす。Windows、Linux、Androidの3぀のプラットフォヌムで利甚できたす。Olgaは開発者だけであり、Linuxで動䜜したす。ロシア語のスピヌチのオヌプン゜ヌスの最高のシンセサむザヌは、ナヌザヌ自身によっお考慮されおおり、これらは芖力の悪い人々だけではありたせん。その䜜業では、シンセサむザヌは統蚈的パラメトリック合成を䜿甚し、HTSなどの既存のプロゞェクトの開発に基づいおいたした、および公開された科孊的研究。これは、隠されたマルコフモデルで動䜜するハむブリッドディヌプニュヌラルネットワヌクです。このようなネットワヌクのタスクは、芳枬可胜なものに基づいお未知のパラメヌタを解決するこずです。これは最も単玔なベむゞアンネットワヌクであるず考えるこずができたす。 HTS自䜓は、別のプロゞェクトであるHTKの開発に基づいおいたした。しかし、ここでは、アルゎリズムや適甚された手法の説明など、いく぀かの開発が無料で公開されおいるこずに最も関心がありたす。



シンセサむザヌ自䜓は、日垞業務のツヌルずしお䜍眮付けられおいたす。それは本を鳎らすようなより創造的な目的に䜿甚するこずができたすが、人々が話しおいるずきはそれでもより良いです。



オルガは、ほが10幎前にプロゞェクトを開始したした。そのずき、圌女はLinuxの研究を始め、そこで自分にずっお䟿利なシンセサむザヌを芋぀けられたせんでした。圌女は、このための特別なBrailleディスプレむを䜿甚しお、すべおのコヌドを自分で䜜成したす。これは、テキスト情報を6぀のドットブレむル文字の圢匏で衚瀺するように蚭蚈された特別なデバむスです。圌女はたた、その歎史をDOSにさかのがり、芖芚障害者の積極的な参加によっお䜜成されたスクリヌンリヌダヌであるJAWSも䜿甚しおいたす。



玹介が終わったので、スピヌチシンセサむザヌの䞖界をもう少し深く掘り䞋げおみたしょう。



スピヌチシンセサむザヌずは䜕ですか䜕が含たれおいたすか



埓来、シンセサむザヌは、蚀語コンポヌネントず音声信号生成コンポヌネントの2぀の郚分で構成されおいるず考えられおいたした。蚀語コンポヌネントは、スクリヌンリヌダヌから受信したテキストを分析したす。そのタスクは、テキストを文に、文をフレヌズ、単語、音節に分割するこずです。最埌に、すべおの単語の文字起こしが䜜成され、そこから音のマップが䜜成されたす誰もが知っおいるように、それが垞に曞かれおいる、たたは蚀われおいる方法ではありたせん。この分析は、さたざたな研究の深さで行うこずができたす。たずえば、RhVoiceには、文や音声の䞀郚での圹割の定矩などの耇雑な操䜜のためのリ゜ヌスが䞍足しおいたす。ただし、いずれの堎合も、解析の最埌に、事前に録音されたサりンドのベヌスを䜿甚しお音声信号生成コンポヌネントで組み立おる必芁のあるサりンドのセットを取埗したす。各コンポヌネントに぀いおは、埌で詳しく説明したす。





シンセサむザヌでの䜜業のデモンストレヌション



オルガの物語



オルガはチェボクサリヌに䜏み、チュバシュ州立倧孊の数孊郚を卒業し、プログラマヌずしお働いおいたす。すべおの盲人のように、圌女は専門孊校で勉匷したした。圓初、ニゞニヌ・ノノゎロドの孊校には6぀のクラスがありたした。圓時、チェボクサリヌには完党に盲目の子䟛を受け入れる堎所がなかったためです。しかし6幎埌、圌女はただ故郷に戻るこずができ、オルガはチェボクサリヌでの勉匷を終えたした。同じ孊校で、オルガは数孊に倢䞭になり、埌に数孊郚に入孊するこずができたした。ある時点で、圌女はIWTに入るこずを考えおいたしたが、ここでは圌女自身の胜力の䞍確実性が圱響を及がしたした。はい、そしお数孊郚の卒業生の䞭には䜕人かの盲人がいたした、そしお玹介むンタビュヌで、孊郚長は圌らのプログラマヌがICTよりもさらによく準備されおいるず蚀いたした。



オルガは、孊校ではなく倧孊でコンピュヌタヌを䜿った最初の経隓をしたした。図曞通では、JAWSプログラム1989幎以来歎史をリヌドしおきたスクリヌンリヌダヌがむンストヌルされた、芖芚障害者甚の特別なコンピュヌタヌを賌入したした。そこで圌女はサラ・モヌリヌの有名なWindows95の教科曞を孊びたした。おそらく、あなたは今、驚くでしょう。あなたが聞いたこずがないような有名な教科曞は䜕ですか答えはその名前にありたす「芖芚障害者のためのWindows95」..。そのような教科曞ず私たち党員に銎染みのある教科曞ずの䞻な違いは、さたざたなオブゞェクトずそれらを管理するためのオプションを説明するこずに重点を眮いおいるこずです。目の䞍自由な人にずっおは、「ドロップダりンリストをクリックしお目的のメニュヌ項目を遞択する」ずいうフォヌムの指瀺はやや圹に立たないからです。画面やマりスカヌ゜ルなどは衚瀺されたせん。りィンドりずドロップダりンリストがどのように衚瀺されるかはわかりたせん。ちなみに、このため、別の非自明なニュアンスが発生したす-盲目の人々は、䜿甚されるシンセサむザヌのビットの人質である可胜性がありたす。そのため、5幎前のWindows 8ぞの移行䞭に、倚くの人が音声シンセサむザヌからの64ビットアプリケヌションのサポヌトの欠劂に盎面し、このサポヌトがすでに実装されおいるRhVoiceに切り替えたした。



しかし、オルガが自分で新しい゚リアを探玢し始めたばかりの時代に戻りたしょう。圓時のスピヌチシンセサむザヌは、ニコラむの声によるディガロプログラムでした。これは非垞に暙準的なバンドルであるため、その䜜業の結果は、オンラむンにアクセスしたすべおの人に聞かれたした。圌の声は「ロボット」ずいう蚀葉の代名詞ず芋なすこずができるため、圌はむンタヌネット文化にしっかりず参入し、YouTubeの無数のビデオで䜿甚されたした。これがおそらく、絶察的な倧倚数がディガロがニコラむの姓であるず確信しおいる理由です。 





ディガロニコラむの栄光



自分のプロゞェクトを始める



オルガのシンセサむザヌの䞖界ぞの旅は、フェスティバルシンセサむザヌ甚のNVDANonVisual Desktop Accessドラむバヌの開発から2010幎頃に始たりたした。 NVDAは無料のスクリヌンリヌダヌで、芖芚障害者や芖芚障害者がコンピュヌタヌを完党に操䜜できるようにしたす。同様のクラスのプログラムには、音声シンセサむザヌずブレむルディスプレむに出力する機胜が含たれおいたす。



フェスティバルのおかげで、オルガはスピヌチシンセサむザヌの䞖界に飛び蟌み、営利䌁業だけでなく、コンピュヌタヌに話をさせたい人もいるこずを発芋したした。圓時、すでにいく぀かのオヌプンスピヌチシンセサむザヌがあり、それらは䞻にスピヌチ合成技術を研究しおいる科孊者によっお配垃されおいたした。



そのため、オルガは同じフェスティバルで経隓豊富な同僚の䜜品に基づいお最初の実隓を行いたした。これは、1995幎にAlanBlackが率いる科孊者のグルヌプによっお䜜成されたアカデミックスピヌチシンセサむザヌです。圌らは合成の方法を開発し、圌らの研究に基づいお圌ら自身のシンセサむザヌを䜜りたした。それはもずもず圌らの仕事の結果の単なるデモンストレヌションでした。時が経぀に぀れ、同様に重芁なプロゞェクトFestVoxが远加され、新しい人工的な声を生成できるようになりたした。さらに、かなり優れたドキュメントが远加されたした。その時、フェスティバルはすでにかなり良いスピヌチベヌスでアレクサンダヌのロシアの声を持っおいたした。



スピヌチベヌスずは䜕ですかRhVoiceの堎合、これらは1000以䞊の特別な文であり、明確で感情のない発音で話者によっお読たれたす。これらの文は、すべおのダむフォン、぀たり2぀の電話のすべおの組み合わせが含たれるように遞択する必芁がありたす。そしお、より倧きな倉動性のためにそれぞれ数回あればいいでしょう。蚘憶によるず、最初のバヌゞョンでは玄600のフレヌズが䜿甚されおいたした。さらに、シンセサむザヌはこれらの音から任意の単語を圢成するこずができたす。この方法は英語ではナニット遞択ず呌ばれ、我が囜ではスピヌチナニットの遞択方法ずしお知られおいたす。はい、最もファッショナブルで若々しいわけではありたせんが、アむアンのように確実に機胜したす。各文はデヌタベヌスに入力され、分析されたす。音が決定され、音節、単語、文での䜍眮が決定されたす。個々の電話番号は分類され、盞互の盞察的な䜍眮など。逆の操䜜、぀たり音声合成䞭に、文字起こしから取埗した各電話番号に぀いお、デヌタベヌスから最も適切な読み取り閉じる䟋を遞択するだけです。厳密な察応を芋぀けるこずが可胜な堎合もあれば、最も類䌌したものに満足しなければならない堎合もありたす。哲孊者の䞖界では、これは理論的および実甚的な音声孊ず呌ばれ、昚日発明されたせんでした。したがっお、音声孊の教科曞を読たずに音声合成装眮を䜿甚するこずは䞍可胜です。ちなみに、モスクワ州立倧孊では特に優れた教科曞が出版されたした。哲孊者の䞖界では、これは理論的および実甚的な音声孊ず呌ばれ、昚日発明されたせんでした。したがっお、音声孊の教科曞を読たずに音声合成装眮を䜿甚するこずは䞍可胜です。ちなみに、モスクワ州立倧孊では特に優れた教科曞が出版されたした。哲孊者の䞖界では、これは理論的および実甚的な音声孊ず呌ばれ、昚日発明されたせんでした。したがっお、音声孊の教科曞を読たずに音声合成装眮に埓事するこずは䞍可胜です。ちなみに、モスクワ州立倧孊では特に優れた教科曞が出版されたした。



そしお、これらのオファヌはどこで入手できたすか自分で曞くこずもできたすが、これはかなり難しい䜜業であり、2぀の代替方法がありたす。事前に誰かが曞いた文章をずるこずはできたすが、著䜜暩を䟵害したり、個人のお金がかかる堎合がありたす。したがっお、䞀郚の声の䜜者はWikipediaのテキストを䜿甚しおいたす。英語やロシア語などの倧きな蚀語の堎合、必芁な䟋を簡単に芋぀けるこずができたす。この意味で、小さな蚀語は幞運ではありたせん。たずえば、このトリックはベラルヌシのりィキペディアでは機胜したせんでした。



蚀語ず声の違いは䜕ですか結局のずころ、7幎前にはただりクラむナ人やタタヌル人のアナりンサヌはいたせんでした。それらはシンセサむザヌでどのように衚瀺されたすか



スピヌチシンセサむザヌの声



それはすべお、この蚀語の音声システムが正匏に蚘述されおいるデヌタベヌスを䜜成するこずからなる蚀語の分析から始たりたす。そのような基地はすでに誰かによっお䜜られ、垂堎で売られるこずができたす非垞に良いお金で。それ以倖の堎合は、自分で行う必芁がありたす。各蚀語の分析のために、個別のプログラムが開発されおおり、蚀語の耇雑さにもよりたすが、これには最倧1幎半の䜜業が必芁になる堎合がありたす。たずえば、むタリア語は音声合成の点で非垞に単玔ですが、アラビア語や䞭囜語などの蚀語は非垞に耇雑です。しかし、平均しお、蚀語アナラむザヌは1幎で䜜成されたす。準備ができた埌、すでに声が曞かれおいたす。これには玄3か月かかりたした。スタゞオでのボむスオヌバヌやその他の䜜業の録音には、2〜3週間かかりたす。これは事実によるものです話者は1日玄4時間、質の高い矎しさで話すこずができたす。それから圌は疲れお、もはや十分にきれいに聞こえたせん。これが愚かだず思うなら、いいえ-これらの蚘録の品質には非垞に深刻な芁件が課せられたす。営利䌁業は、声の䞻芳的な矎しさだけでなく、可胜であれば、シンセサむザヌの特定の蚀語に特定の声を䜿甚しお、党䜓のキャストを行いたす。



次に、レコヌドはデヌタベヌスに埓っおチャンクにセグメント化され、蚀語アナラむザヌを䜿甚しお、これらのチャンクが結合されたす。぀たり、これは名詞であり、動詞であり、この隣にあるずいう分析が行われたす。぀たり、このように聞こえ、最も近い電話番号が眮き換えられたす。したがっお、アナラむザヌの圹割は非垞に重芁です。぀たり、単語内の音節の配眮だけでなく、文内の単語の配眮や句読点も考慮に入れる必芁がありたす。これはすべお発音に圱響したす。䞀郚の蚀語では、同じ単語が名詞であるか動詞であるかによっお、発音が異なる堎合がありたす。



しかし、これは商甚補品のルヌトであり、その䜜成者はそのような詳现な調査のためのリ゜ヌスを持っおいたす。独立した開発者は、より単玔なオプションを䜿甚したす。音声の䞀郚による完党な分類はありたせんが、たずえば、独立した単語/前眮詞/結合などのレベルでのみ䜿甚されたす。オルガはさらに独自の道を歩み、教科曞や音声孊に関する蚘事に基づいお蚀語モゞュヌルを䜜成したした。幞いなこずに、このトピックに関しおは十分な数の研究が発衚されおいたす。



ほずんどのシンセサむザヌが最初に女性の声を持っおいるこずに気づきたしたかこれは䜜者の奜みによるものではなく、女性の声の発達の耇雑さによるものです。女性の声は圓然高く、高い呚波数は䜎い呚波数よりも凊理が困難です。そしお、あなたがなんずか女性の声を䜜るこずができれば、男性の声は間違いなくうたくいくでしょう。しかし、それどころか、事実ではありたせん。





オルガの堎合、これはトピックに察する個人的な情熱であり、必需品ですらありたす。商業開発はどうですか远加する蚀語ず远加しない蚀語をどのように決定したすかすべおぞの答えはお金です。最初の明癜なオプションは、新しい声の可胜な販売垂堎を分析するこずです。簡単に蚀えば、囜の経枈氎準はどのくらいで、䜏民は補品を賌入するお金を持っおいるかどうかです。 2番目のむンセンティブはすでにもっず興味深いものです。特定の蚀語の音声合成を䜜成するこずは、政府たたは他の組織の芁望です。したがっお、音声シンセサむザヌは、誰かがこれを凊理し、開発にお金を割り圓おたずいう理由だけで、非垞に小さな蚀語甚に䜜られたした。そしお、䟋えば、スカンゞナビア諞囜では、すべおの曞かれた文曞が芖芚障害者や芖芚障害者にアクセス可胜でなければならないずいう法埋がありたす。したがっお、発行された新聞には独自の音声バヌゞョンが必芁です。



そしお、䟡栌の順序を理解するために民間䌁業からの新しい声の開発は、蚀語の耇雑さに応じお、玄1䞇から4䞇ナヌロの費甚がかかりたす。アナラむザヌモゞュヌルの開発には䜕倍もの費甚がかかりたす。 RhVoiceに関しお、Olgaは原則的な立堎にありたす-圌女のプロゞェクトは垞に無料です。では、アナりンサヌのお金はどこから来るのでしょうか。初期の段階では、助けを提䟛するボランティアがいたした。圌らは独自のスタゞオを持っおいお、アナりンサヌにお金を払うこずを申し出たので、オルガはボむスオヌバヌの提案のリストしか送るこずができたせんでした。これは、いく぀かの新しい蚀語がRhVoiceに登堎した方法です。それから圌らは特定の芁求で圌女に目を向け始めたした。



しかし、さらなる開発の運呜は、無料アクセスで必芁なリ゜ヌスを芋぀けるこずにかかっおいたす。たずえば、以前はりクラむナ語のストレスのオヌプン蟞曞はなく、ストレスがどのように配眮されおいるかを知らずにシンセサむザヌを構築するこずは䞍可胜です。珟圚はすでに远加されおいたすが、倚くの䜜業が行われおいたす。ロシア語は、資料の入手可胜性の点ではるかに幞運です。そしお、カノンボむス「アレクサンダヌ」はその䜜成者によっお公開されたした。そのおかげで、オルガはスピヌチシンセサむザヌの䜜成に関する最初の実隓を開始するこずができたした。



蚀語がたったくわからない堎合、どうすればシンセサむザヌを䜜成できたすか埓来、あなたはロシア語ず英語を知っおいたすが、アラビア語を開発するように求められおいたすか技術的な制限はありたせん。䞻なこずは、蚀語やその構造に関する蚘事や資料をむンタヌネットで芋぀けたり、哲孊者に盞談したりするこずです。これは、最初の音声シンセサむザヌを開発するのに十分かもしれたせん。実際、抂しお、開始情報の量は暙準的です音韻のリスト、文字衚珟から発音たでの転写芏則、音声の補助郚分に関する詳现など。䞻な問題は、開発者がネむティブスピヌカヌの参加なしに圌の仕事の結果を確認できないこずです。そしお、ネむティブスピヌカヌは明確で理解できないフィヌドバックを䞎えるだけでなく、䜕かがうたくいかなかった堎所のすべおの埮劙なニュアンスを説明する必芁がありたす。 RhVoiceの堎合、Tatarは非垞に難しい蚀語になっおいたす。哲孊者はオルガを倧いに助け、圌女はこれらの仕事を始めた盲人ず芖芚障害者のためのカザン図曞通の代衚者ず぀ながりたした。シンセサむザヌの䜜業の過皋で、ロシア語から借甚した単語の正しい発音の別の蟞曞が線集されたした。そのため、借甚はロシア語ではなく、タタヌル語の芏則に埓っお正確に聞こえたす。そしお、そのような蟞曞がプロの哲孊者によっお線集されたのは良いこずです。たずえば、Kyrgyzにはそのような蟞曞はなく、技術的にはただ発芋されおいない問題領域、解決方法がたくさんありたす。シンセサむザヌの䜜業の過皋で、ロシア語から借甚した単語の正しい発音の別の蟞曞が線集されたした。そのため、借甚はロシア語ではなく、タタヌル語の芏則に埓っお正確に聞こえたす。そしお、そのような蟞曞がプロの哲孊者によっお線集されたのは良いこずです。たずえば、Kyrgyzにはそのような蟞曞はなく、技術的にはただ発芋されおいない問題領域、解決方法がたくさんありたす。シンセサむザヌの䜜業の過皋で、ロシア語から借甚した単語の正しい発音のために別の蟞曞が線集されたした。そのため、借甚はロシア語ではなく、タタヌル語の芏則に埓っお正確に聞こえたす。そしお、そのような蟞曞がプロの哲孊者によっお線集されたのは良いこずです。たずえば、キルギスにはそのような蟞曞はなく、技術的にはただ発芋されおいない問題領域、解決方法がたくさんありたす。



別の問題はストレスの配眮です。䞀郚の蚀語では、ストレスの堎所を予枬できたすが、同じロシア語ずりクラむナ語では、蟞曞なしでは実行できたせん。さらに、これらの蟞曞に基づくストレス予枬アルゎリズムがありたす。しかし、基本的な語圙を持たずにこれを行うこずは䞍可胜です。



将来は䜕ですかむしろ、ナヌザヌが最も頻繁に求める新機胜や既存の機胜の改善は䜕ですかここで議論の䜙地のないリヌダヌは、1぀たたは別の蚀語を远加する芁求です。新しい蚀語での䜜業が進行䞭ですが、䞊蚘のように、これはそれほど速くはなく、倖郚の専門家の助けに䟝存しおいたす。たた、より自然に近づけるために音質の改善を求める声も倚く聞かれたす。ただし、Olgaで利甚可胜なツヌルを䜿甚するず、ここで劇的な改善はありたせん。確かに、バヌゞョンごずに、サりンドの倉曎は匕き続き行われたす。



珟圚、Olgaは、モバむルデバむスで十分なパフォヌマンスを提䟛できる䜎レベルのCのような蚀語で蚘述されたニュヌラルネットワヌク甚の既補のコンポヌネントがあるこずを望んでいたす。たた、携垯電話で起動するず、他のプラットフォヌムでも動䜜したす。そのようなプロゞェクトはすでに開発されおおり、その埌、圌女はシンセサむザヌを䜜り盎すこずができるようになりたす。解決すべきもう1぀の重芁な問題は、RhVoiceに独自の蚀語ず音声を远加する簡単で盎接的な方法がないこずです。この䜜品にお金を払う準備ができおいる人もいたすが、問題ぱルクラシコです。倚くのリク゚ストがあり、オルガはその1぀です。ほずんどの楜しいプロゞェクトず同様に、コヌドベヌスは魔法の森なので、䜜成者以倖の誰かがそれを理解するのは臎呜的な䜜業です。 ..。これらのプロゞェクトのほずんどで、開発者は垌望する人に䞀連のツヌルずドキュメントを提䟛したす。これにより、蚀語の音声孊を知り、残りの知識を持っお、独自の蚀語モゞュヌルを䜜成できたす。これたでのずころ、オルガにはどちらもありたせん。しかし、そうする蚈画がありたす。



結論ずしお、このように、1人の熱心な人のおかげで、非垞に良い仕事が長幎にわたっお行われおいるず蚀いたいず思いたす。オルガ、ありがずうございたした。



オルガの利己的な仕事に感謝したり、RhVoiceの開発に参加したり、知識、ベストプラクティス、スポンサヌシップでプロゞェクトを支揎したりする堎合は、圌女のgithubからオルガに連絡しおください。





All Articles