未来を予枬するニュヌロコンピュヌタヌの音声認識モデル





人間のスピヌチずは䜕ですかこれらは単語であり、その組み合わせにより、この情報たたはその情報を衚珟できたす。疑問が生じたす。ある単語が終わり、別の単語が始たるずき、どうやっお知るのでしょうか。質問は奇劙で、倚くの人が考えるでしょう。誕生から私たちは呚りの人々のスピヌチを聞いお、私たちは話したり、曞いたり、読んだりするこずを孊ぶからです。もちろん、蓄積された蚀語知識の荷物は重芁な圹割を果たしたすが、それに加えお、音声の流れを構成芁玠の単語や音節に分割する脳のニュヌラルネットワヌクがありたす。今日は、ゞュネヌブ倧孊スむスの科孊者が、単語ず音節を予枬するこずにより、音声埩号化のニュヌロコンピュヌタモデルを䜜成した研究に぀いお孊びたす。どの脳のプロセスがモデルの基瀎になったか、倧きな蚀葉「予枬」が意味するものは、䜜成されたモデルはどの皋床効果的ですかこれらの質問ぞの答えは、科孊者のレポヌトで私たちを埅っおいたす。行け。



研究の基瀎



私たち人間にずっお、人間の発話は理解可胜で明瞭ですほずんどの堎合。しかし、マシンの堎合、これは単なる音響情報のストリヌムであり、理解する前にデコヌドする必芁がある固䜓信号です。



人間の脳はほずんど同じように機胜したすが、それは非垞に迅速に発生し、私たちには気付かれたせん。科孊者たちは、このプロセスや他の倚くの脳プロセスの基盀は、特定のニュヌロンの振動ずそれらの組み合わせであるず信じおいたす。



特に、音声認識はシヌタずガンマ振動の組み合わせに関連付けられおいたす。これは、音韻の持続時間ず時間的起源の事前の知識なしに、音節の音玠の゚ンコヌディングを階局的に調敎できるためです。アップストリヌム凊理*リアルタむム。
* (bottom-up) — , .
自然な音声認識は、文脈信号に倧きく䟝存しお、音声信号の内容ず時間構造を予枬したす。以前の研究では、連続スピヌチの知芚䞭に重芁な圹割を果たすのは予枬メカニズムであるこずが瀺されおいたす。このプロセスはベヌタ版の振動に関連しおいたす。



脳が絶えず環境のメンタルモデルを生成および曎新する堎合、音声認識のもう1぀の重芁なコンポヌネントは予枬コヌディングず呌ばれたす。このモデルは、実際のタッチ入力ず比范されるタッチ予枬を生成するために䜿甚されたす。予枬信号ず実際の信号を比范するこずで、メンタルモデルを曎新および修正するために圹立぀゚ラヌを特定できたす。



蚀い換えれば、脳は垞に䜕か新しいこずを孊び、垞にその呚りの䞖界のモデルを曎新しおいたす。このプロセスは、音声信号の凊理においお重芁であるず考えられおいたす。



研究者たちは、倚くの理論的研究が音声凊理ぞのボトムアップずトップダりン*の䞡方のアプロヌチをサポヌトしおいるこずに泚意しおいたす。
トップダりン凊理*トップダりン-リバヌス゚ンゞニアリング手法を䜿甚しお構成サブシステムのアむデアを取埗するためのシステムのコンポヌネントぞの分析。
以前に開発されたニュヌロコンピュヌタヌモデルは、珟実的なシヌタずガンマ興奮性/抑制性ネットワヌクの接続を含み、音声を前凊理しお、正しくデコヌドできるようにしたした。



予枬コヌディングのみに基づく別のモデルでは、個々の音声芁玠単語たたは単䞀の音声芁玠ずしお衚瀺される堎合は党文などを正確に認識するこずができたす。



したがっお、どちらのモデルも、異なる方向で機胜したした。 1぀は音声分析のリアルタむムの偎面に焊点を圓お、もう1぀は孀立した音声セグメントの認識に焊点を圓おたした分析は䞍芁。



しかし、これらの根本的に異なるモデルの基本原理を1぀に結合するずどうなるでしょうか。私たちが怜蚎しおいる研究の著者によるず、これにより、パフォヌマンスが向䞊し、ニュヌロコンピュヌタヌ音声凊理モデルの生物孊的リアリズムが向䞊したす。



圌らの研究では、科孊者たちは予枬コヌディングに基づく音声認識システムが神経振動のプロセスから䜕らかの利益を埗るこずができるかどうかを確認するこずを決定したした。



圌らは、予枬笊号化構造に基づいおニュヌロコンピュヌタモデルPrecoss予枬笊号化ず音声の振動からを開発し、自然な音声の連続的な性質に察凊するためにシヌタおよびガンマ振動関数を远加したした。



この研究の具䜓的な目暙は、予枬コヌディングず神経振動の組み合わせが、自然文の音節構成芁玠の運甚䞊の識別に有益であるかどうかずいう質問ぞの回答を芋぀けるこずでした。特に、シヌタ波が䞊流および䞋流の情報ストリヌムず盞互䜜甚できるメカニズムが怜蚎され、この盞互䜜甚が音節埩号化プロセスの効率に及がす圱響が評䟡されたした。



アヌキテクチャPrecossモデル



モデルの重芁な機胜は、連続音声に存圚する時間信号/情報を䜿甚しお、音節の境界を決定できる必芁があるこずです。科孊者たちは、時間的予枬を含む内郚生成モデルがそのような信号から利益を埗るはずであるこずを瀺唆しおいたす。この仮説ず、音声認識䞭に発生する反埩プロセスを説明するために、連続予枬コヌディングモデルが䜿甚されたした。



開発されたモデルは、「䜕を」ず「い぀」を明確に分離したす。 「䜕」-音節のアむデンティティずそのスペクトル衚珟䞀時的なものではなく、スペクトルベクトルの順序付けられたシヌケンスを指したす。 「い぀」は、音節のタむミングず持続時間を予枬するこずを指したす。



結果ずしお、予枬は2぀の圢匏を取りたす。thetaモゞュヌルによっお通知される音節の始たりです。ガンマ同期単䜍シ​​ヌケンスの持続時間を定矩する倖因性/内因性シヌタ振動によっお通知される音節持続時間䞋の図。





画像1



Precossは、生成モデルを参照しお、その゜ヌスの内郚衚珟からセンサヌ信号を抜出したす。この堎合、タッチ入力は、音声信号の遅い振幅倉調ず、モデルが4぀のコンポヌネントから内郚的に生成する完党な自然文の6チャネル聎芚スペクトログラムに察応したす。



  • シヌタスむング;
  • シヌタモゞュヌルの遅い振幅倉調のブロック;
  • 音節単䜍のプヌル自然な玹介文にあるのず同じ数の音節、぀たり4から25たで;
  • スペクトル時間モゞュヌルの8぀のガンマ単䜍のバンク。


䞀緒に、音節の単䜍ずガンマ波圢は、入力スペクトログラムに関するトップダりン予枬を生成したす。8぀のガンマ単䜍はそれぞれ、音節の1぀の䜍盞を衚したす。それらは順次アクティブ化され、アクティブ化シヌケンス党䜓が繰り返されたす。したがっお、音節の各単䜍は、それぞれ6぀の成分呚波数チャネルごずに1぀を持぀8぀のベクトルガンマ単䜍ごずに1぀のシヌケンスに関連付けられおいたす。個々の音節の音響スペクトログラムは、音節の持続時間党䜓を通しお、音節の察応する単䜍をアクティブにするこずによっお生成されたす。



シラブルブロックは特定の音響パタヌンを゚ンコヌドしたすが、ガンマブロックは、シラブルの期間䞭、察応するスペクトル予枬を䞀時的に䜿甚したす。シラブルの長さに関する情報は、その瞬間的な速床がガンマシヌケンスの速床/持続時間に圱響するため、シヌタ波によっお䞎えられたす。



最埌に、目的の音節に蓄積されたデヌタは、次の音節を凊理する前に削陀する必芁がありたす。これを行うために、音節の最埌の郚分を゚ンコヌドする最埌の8番目のガンマブロックは、すべおの音節単䜍を党䜓的に䜎い掻性化レベルにリセットし、新しい蚌拠を収集できるようにしたす。





画像2



モデルのパフォヌマンスは、ガンマシヌケンスが音節の先頭ず䞀臎するかどうか、およびその持続時間が音節の持続時間ず䞀臎するかどうかによっお異なりたす50〜600 ms、平均= 182 ms。



シラブルのシヌケンスに察するモデルの評䟡は、シラブルのナニットによっお提䟛されたす。これは、ガンマナニットずずもに、導入スペクトログラムず比范される予想されるスペクトル時間パタヌンモデルの結果を生成したす。モデルは、生成されたスペクトログラムず実際のスペクトログラムの差を最小限に抑えるために、珟圚の音節に関する掚定を曎新したす。掻動レベルは、スペクトログラムが感芚入力に察応する音節単䜍で増加し、他の単䜍では枛少したす。理想的には、リアルタむムで予枬゚ラヌを最小化するず、入力音節に察応する音節の1぀の異なる単䜍でのアクティビティが増加したす。



シミュレヌション結果



䞊蚘のモデルには生理孊的に動機付けされたシヌタ振動が含たれおいたす。これは、音声信号の䜎速振幅倉調によっお制埡され、音節の始たりず持続時間に関する情報をガンマ成分に送信したす。



このシヌタずガンマの関係は、内郚的に生成された予枬ず入力デヌタから芋぀かった音節の境界ずの時間的敎合を提䟛したす画像3のオプションA。





画像3



遅い振幅倉調に基づく音節同期の関連性を評䟡するために、モデルAをオプションBず比范したした。この堎合、シヌタ掻動は振動によっおモデル化されたせんが、ガンマシヌケンスの自己反埩から生じたす。



モデルBでは、ガンマシヌケンスの継続時間は、シヌタ振動によっお倖因的に倖郚芁因により制埡されなくなり、内因的に内郚芁因によりシヌケンスが繰り返されるず、内郚シヌタリズムの圢成に぀ながる優先ガンマ速床を䜿甚したす。シヌタ振動の堎合のように、ガンマシヌケンスの持続時間は、シヌタ範囲の奜たしい速床を持ち、可倉音節持続時間に適応する可胜性がありたす。この堎合、ガンマシヌケンスの繰り返しから生じるシヌタリズムをテストできたす。



シラビック単䜍で环積デヌタを合成およびダンプするシヌタガンマの特定の効果をより正確に評䟡するために、以前のモデルAおよびBの远加バヌゞョンが䜜成されたした。



オプションCずDは、奜たしいガンマ線照射率がないこずで区別されたした。オプションEおよびFは、音節の环積デヌタをリセットしない点で、オプションCおよびDずはさらに異なりたした。



モデルのすべおのバリアントのうち、Aのみが真のシヌタガンマ関係を持ち、ガンマ掻動はシヌタモゞュヌルによっお決定されたすが、Bモデルでは、ガンマレヌトは内因的に蚭定されたす。



モデルのどのバリアントが最も効果的であるかを確立する必芁がありたした。そのバリアントの䜜業の結果は、共通の入力デヌタ自然文の存圚䞋で比范されたした。䞊の画像のグラフは、各モデルの平均パフォヌマンスを瀺しおいたす。



オプション間には倧きな違いがありたした。モデルAおよびBず比范しお、モデルEおよびF平均23およびCおよびD15ではパフォヌマンスが倧幅に䜎䞋したした。これは、新しい音節を凊理する前に、前の音節に関する蓄積デヌタを消去するこずが、自然音声での音節ストリヌムの笊号化における重芁な芁玠であるこずを瀺しおいたす。



オプションAおよびBずオプションCおよびDを比范するず、刺激Aたたは内因性Bのいずれであっおも、シヌタガンマの関連付けにより、モデルのパフォヌマンスが倧幅に向䞊したす平均8.6。



䞀般的に蚀っお、モデルのさたざたなバヌゞョンを䜿った実隓では、音節のスペクトル構造に関する内郚情報に基づいおガンマナニットの各シヌケンスの埌に音節ナニットがリセットされたずき、およびガンマレヌトがシヌタガンマカップリングによっお決定されたずきに最適に機胜するこずが瀺されたした。



したがっお、自然な文章を䜿甚したモデルのパフォヌマンスは、刺激によるシヌタ振動による音節の開始の正確なシグナリングにも、シヌタ-ガンマ関係の正確なメカニズムにも䟝存したせん。



科孊者自身が認めおいるように、これはかなり意倖な発芋です。䞀方、刺激駆動型ず内因性シヌタガンマリンクの間にパフォヌマンスの違いがないこずは、自然な発話における音節の持続時間がモデルの期埅に非垞に近いずいう事実を反映しおいたす。この堎合、入力デヌタによっお盎接駆動されるシヌタ信号には利点がありたせん。



そのような予期せぬ出来事のタヌンをよりよく理解するために、科孊者は別の䞀連の実隓を行いたしたが、圧瞮された音声信号x2およびx3を䜿甚したした。行動研究が瀺すように、x2倍に圧瞮されたスピヌチの理解は実質的に倉化したせんが、3倍に圧瞮されるず倧幅に䜎䞋したす。



この堎合、刺激されたシヌタガンマリンクは、音節の解析ずデコヌドに非垞に圹立ちたす。シミュレヌション結果を以䞋に瀺したす。





画像4



予想通り、圧瞮率が䞊がるず党䜓的なパフォヌマンスが䜎䞋したした。 x2を圧瞮するために、刺激ず内因性シヌタガンマリンケヌゞの間にただ有意差はありたせんでした。しかし、圧瞮x3の堎合には倧きな違いがありたす。これは、シヌタガンマリンクを駆動する刺激䞻導のシヌタりォブルが、内因的に蚭定されたシヌタ速床よりも音節゚ンコヌディングプロセスに有益であるこずを瀺唆しおいたす。



したがっお、比范的固定された内因性シヌタゞェネレヌタを䜿甚しお自然な音声を凊理できたす。しかし、より耇雑な入力音声信号の堎合぀たり、音声レヌトが垞に倉化しおいる堎合は、制埡されたシヌタゞェネレヌタヌが必芁です。これにより、ガンマ゚ンコヌダヌに音節に関する正確なタむミング情報音節の開始ず音節の持続時間が提䟛されたす。



モデルが入力文の音節を正確に認識する胜力は、さたざたな比范モデルの倉動する耇雑さを考慮しおいたせん。したがっお、ベむゞアン情報量基準BICが各モデルに察しお評䟡されたした。この基準は、モデルの正確さず耇雑さの間のトレヌドオフを数倀化したす画像5。





画像5番の



オプションAが最も高いBIC倀を瀺したした。モデルAずモデルBの以前の比范では、それらのパフォヌマンスを正確に区別できたせんでした。ただし、BIC基準のおかげで、バリアントAは、刺激によるシヌタ振動のないモデルモデルBよりも自信を持っお音節認識を提䟛するこずが明らかになりたした。



研究のニュアンスの詳现に぀いおは、科孊者のレポヌトずそれに远加の材料。



゚ピロヌグ



䞊蚘の結果を芁玄するず、モデルの成功は2぀の䞻な芁因に䟝存するず蚀えたす。最初に最も重芁なのは、音節の内容この堎合は、そのスペクトル構造に関するモデル情報に基づいお蓄積されたデヌタをダンプするこずです。2番目の芁玠は、シヌタずガンマプロセスの関係です。これにより、ガンマ掻動がシヌタサむクルに含たれ、音節の予想される期間に察応したす。



開発されたモデルの䞭心は、人間の脳の機胜を暡倣したものです。システムに入る音は、神経掻動を連想させるシヌタ波によっお倉調されたした。これにより、音節の境界を定矩できたす。さらに、より速いガンマ波は音節の゚ンコヌドに圹立ちたす。その過皋で、システムは可胜な音節を提䟛し、必芁に応じお遞択を調敎したす。システムは第1レベルず第2レベルシヌタずガンマの間をゞャンプしお、正しいバヌゞョンの音節を怜出し、次の音節のプロセスを開始するためにれロ蚭定したす。



実地テストでは、2888音節の解読に成功したした自然音声220文、英語が䜿甚されたした。



この研究は、2぀の察立する理論を組み合わせ、それらを単䞀のシステムずしお実践するだけでなく、脳が音声信号をどのように認識するかをよりよく理解するこずも可胜にしたした。私たちはスピヌチを「珟状のたた」、぀たり 耇雑なサポヌトプロセスなし。ただし、シミュレヌションの結果を考えるず、神経シヌタずガンマ振動により、脳が、どの音声認識が圢成されるかに基づいお、どの音節を聞くかに぀いお小さな予枬を行うこずができるこずがわかりたす。



誰もが䜕を蚀っおも、人間の脳は時々、探査されおいない宇宙の隅々や䞖界の海の絶望的な深さよりもはるかに神秘的で䞍可解なように芋えたす。



ご静聎ありがずうございたした。奜奇心旺盛で、良い週をお過ごしください。:)



䞀郚の広告



い぀もご利甚いただきありがずうございたす。私たちの蚘事は奜きですかもっず面癜い資料を芋たいですか泚文や友人に掚薊するこずにより、私たちをサポヌトしおいたす、$ 4.99からご開発者向けクラりドVPS、あなたのための私達によっお発明された゚ントリヌレベルのサヌバのナニヌクなアナログ VPSKVME5-2697 v3の6぀のコア10ギガバむトDDR4 480ギガバむトSSDの1Gbpsに぀いお党䜓の真実19ドルから、たたはサヌバヌを正しく分割する方法はRAID1およびRAID10、最倧24コア、最倧40GB DDR4で利甚可胜なオプション。



Dell R730xdは、アムステルダムのEquinix Tier IVデヌタセンタヌで2倍安いですかオランダでは199ドルのIntel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TVが2぀だけありたすデルR420-2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB-$ 99からむンフラストラクチャビルディングの構築方法に぀いおお読みください。サヌバヌを䜿甚するクラスDell R730xd E5-2650 v4は1ペニヌで9000ナヌロかかりたすか



All Articles