機械孊習でフォトニックテクノロゞヌを䜿甚するための新しいアプロヌチ

Applied PhysicsReviewの蚘事「PhotonicProcessorsEnable More Performance Machine Learning」の䞭で、米囜ゞョヌゞワシントン倧孊電気コンピュヌタ工孊科の著者MarioMiskulloずVolkerSorgerは、ニュヌラルネットワヌク蚈算を実行するための新しいアプロヌチに぀いお説明しおいたす。グラフィックスプロセッシングナニットGPUの代わりにフォトニックテン゜ルカヌネルを䜿甚した機械孊習。



Miscuglio


Mario Miskulloは、ゞョヌゞワシントン倧孊の電気およびコンピュヌタヌ工孊科の助教授です。マリオは、Volcker J.Sorger博士が率いるOPENLabニュヌロモヌフィックコンピュヌティングチヌムのサブグルヌプリヌダヌです。マリオは、ハヌバヌド/ MITで研究者ずしお働いおいる間、トリノ工科倧孊で電気およびコンピュヌタヌ゚ンゞニアリングの修士号を取埗したした。圌は、囜立研究所の分子鋳造所で研究助手ずしお働いおいる間、むタリア工科倧孊のゞェノア倧孊でオプト゚レクトロニクスの博士論文を擁護したした。バヌクレヌのロヌレンス。圌の関心は、ナノ光孊ず光ず物質の盞互䜜甚、メタサヌフェス、フヌリ゚光孊、フォトニックニュヌロモヌフィックコンピュヌティングなどの科孊ず工孊にたで及びたす。



著者らは、このアプロヌチの結果ずしお、光デヌタストリヌムの凊理パフォヌマンスがGPUの凊理パフォヌマンスよりも2〜3桁高くなる可胜性があるこずを瀺唆しおいたす。著者はたた、フォトニックプロセッサが5Gネットワ​​ヌクの呚蟺機噚で非垞にうたく機胜するず信じおいたす。



research-highlight-volker-sorger-007-2


— , (OPEN) . , .



, , - . — , , PMAC/s . , (PECASE), AFOSR , . - , OSA , OSA , SPIE . - IEEE, OSA SPIE.




研究䞭のアプロヌチでは、フォトンテン゜ルカヌネルがマトリックス乗算を䞊行しお実行するこずにより、深局孊習の速床ず効率が向䞊したす。ニュヌラルネットワヌクは、制埡されおいない決定を実行し、目に芋えないデヌタの分類を構築する方法を孊ぶ方法を孊びたす。ニュヌラルネットワヌクがデヌタを凊理するようにトレヌニングされるず、オブゞェクトやパタヌンを認識しお分類し、デヌタ内の眲名を芋぀けるこずを掚枬できたす。



TPU Photonic Processorは、光メモリを効率的に読み曞きできる電気光孊接続を䜿甚しおデヌタを䞊列に保存および凊理し、PhotonicTPUは他のアヌキテクチャず盞互䜜甚したす。



「光メモリを内蔵したフォトニックプラットフォヌムは、テン゜ルプロセッサず同じ操䜜を実行できるこずがわかりたした。同時に、それらはより少ない゚ネルギヌを消費し、はるかに生産的です。それらを䜿甚しお、光の速床で蚈算を実行できたす」ず、開発者の1人であるMarioMiskullo氏は述べおいたす。



ほずんどのニュヌラルネットワヌクは、人間の脳の働きを暡倣するために、盞互接続されたニュヌロンの耇数の局を解明したす。これらのネットワヌクを衚す効率的な方法は、行列ずベクトルを乗算する耇合関​​数です。このビュヌにより、行列乗算などのベクトル化された操䜜に特化したアヌキテクチャを介しお䞊列操䜜を実行できたす。



Photonic-tensor-core-and-dot-product-engine


出兞 MarioMiskulloずVolkerSorgerによる蚘事。



a Photonic Tensor CorePTCは、16個のラむトガむドで構成されおおり、その性質䞊、ラむンごずの乗算ずポむントごずの环積を独立しお実行したす。



b . WDM, (, -) . J- . , , (MRR), ( ), , , MAC.



タスクが難しく、予枬粟床の芁件が高いほど、ネットワヌクは耇雑になりたす。このようなネットワヌクでは、蚈算に倧量のデヌタが必芁であり、そのデヌタを凊理するためにより倚くの電力が必芁です。グラフィックス凊理ナニットGPUやテン゜ル凊理ナニットTPUなど、深局孊習に適した最新のデゞタルプロセッサは、必芁な電力のために、耇雑で高粟床の操䜜を実行するのに制限がありたす。たた、プロセッサずメモリ間の電子デヌタの転送が遅いためです。



この蚘事の開発者ず著者は、TPUのパフォヌマンスが電気TPUのパフォヌマンスよりも2〜3桁高くなる可胜性があるこずを瀺しおいたす。フォトンは、5Gなどのネットワヌクの゚ッゞで高垯域幅のむンテリゞェントタスクを実行するコンピュヌティングネットワヌクおよびノヌ​​ド間操䜜に最適です。監芖カメラ、光孊センサヌ、およびその他の゜ヌスからのデヌタ信号は、すでにフォトンの圢匏である可胜性がありたす。



「フォトニック専甚プロセッサは、応答ず凊理時間を短瞮するこずで、膚倧な量の゚ネルギヌを節玄できたす」ずMiskullo氏は付け加えたした。゚ンドナヌザヌにずっお、これは、この堎合、デヌタの倧郚分が前凊理されるため、デヌタがはるかに高速に凊理されるこずを意味したす。぀たり、䞀郚のデヌタのみをクラりドたたはデヌタセンタヌに送信できたす。



光孊的および電気的デヌタ䌝送のための新しいアプロヌチ



この蚘事では、機械孊習タスクを実行するための光ルヌトを遞択する䟋を瀺したす。盞互接続されたニュヌロン/ノヌドの耇数のレむダヌを公開するほずんどのニュヌラルネットワヌクNNでは、各ニュヌロンずレむダヌ、およびネットワヌク自䜓の接続が、ネットワヌクがトレヌニングされたタスクにずっお重芁です。怜蚎䞭の接続局では、ニュヌラルネットワヌクはベクトル行列の数孊的挔算に倧きく䟝存しおおり、入力デヌタず重みの倧きな行列が孊習プロセスに埓っお乗算されたす。耇雑な倚局ディヌプニュヌラルネットワヌクは、効率ず速床を犠牲にするこずなく倧芏暡なマトリックス乗算を実行するために必芁な操䜜を満たすために、かなりの垯域幅ず䜎遅延を必芁ずしたす。



これらの行列をどのように効率的に乗算したすか汎甚プロセッサでは、マトリックス操䜜が順番に実行されるため、キャッシュメモリぞの垞時アクセスが必芁になり、フォンノむマンアヌキテクチャにボトルネックが生じたす。 GPUやTPUなどの特殊なアヌキテクチャは、いく぀かの匷力な機械孊習モデルを有効にするこずで、これらのボトルネックを軜枛するのに圹立ちたす。



GPUずTPUは、CPUよりも特に䟿利です。ただし、ディヌプニュヌラルネットワヌクのトレヌニングに䜿甚しお、画像などの倧芏暡な2次元デヌタセットの掚論を実行するず、倚くの゚ネルギヌを消費し、より長い蚈算時間数十ミリ秒以䞊を必芁ずする可胜性がありたす。それほど耇雑でない掚論タスクのマトリックス乗算は、䞻にさたざたなメモリ階局ぞのアクセス制限ずGPUの各呜什の埅ち時間が原因で、䟝然ずしお埅ち時間の問題に悩たされおいたす。



この論文の著者は、この文脈を考えるず、行列代数が氞続的なメモリアクセスに䟝存する最新の論理コンピュヌティングプラットフォヌムの運甚パラダむムを研究し、再発明する必芁があるこずを瀺唆しおいたす。この点で、光の波の性質ず、干枉や回折などの関連する固有の操䜜は、ニュヌロモヌフィックプラットフォヌムの消費電力を削枛しながら、蚈算スルヌプットを向䞊させる䞊で重芁な圹割を果たすこずができたす。



開発者は、将来のテクノロゞヌが、独自の物理操䜜を䜿甚しお、時倉入力のドメむンで蚈算タスクを実行する必芁があるこずを想定しおいたす。この芳点から、フォトンは分散ネットワヌクの蚈算に理想的であり、デヌタ信号がフォトンの圢匏たずえば、ビデオ監芖カメラ、光孊センサヌなどですでに存圚しおいる可胜性があるネットワヌク゚ッゞたずえば、5Gでビッグデヌタに察しおむンテリゞェントタスクを実行したす。 。したがっお、デヌタセンタヌおよびクラりドシステムに向けるこずができるデヌタトラフィックの量を事前にフィルタリングし、むンテリゞェントに調敎したす。



ここで、トレヌニングされたカヌネルを䜿甚しお4x4マトリックスの乗算ず环積を1぀のステップで぀たり、繰り返しではなく実行できるPhotonic Tensor KernelPTCを䜿甚しお新しいアプロヌチを打ち砎りたす。蚀い換えるず、トレヌニング埌、ニュヌラルネットワヌクの重みは4ビットのマルチレベルフォトニックメモリに保存され、チップに盎接実装されたす。远加の電気光孊回路や動的ランダムアクセスメモリDRAMは必芁ありたせん。フォトニックメモリは、平面化された導波路䞊に配眮されたG2Sb2Se5導䜓に基づく䜎損倱の䜍盞倉化ナノフォトニック回路を備えおおり、電熱スむッチングによっおアップグレヌドできるため、完党に光孊的に読み取るこずができたす。電熱スむッチングは、䜍盞倉化メモリPCMセンサヌず通信するタングステン加熱電極を䜿甚しお実行されたす。



テヌブル。テン゜ルカヌネルのパフォヌマンスの比范。

画像


出兞 MarioMiskulloずVolkerSorgerによる蚘事。



電子的に䟛絊されるフォトニックテン゜ルコアPTC巊の列は、NvidiaのT4およびA100よりもスルヌプットが2〜8倍向䞊し、光孊デヌタカメラなどの堎合、倍率は玄60倍面積です。埮小回路は1぀の結晶〜800 mm2に制限されおいたす。



テストによるず、フォトニックチップの性胜は珟圚垂販されおいるものの2〜3倍です。それらのデヌタ凊理速床は毎秒2ペタフロップに達する可胜性がありたすが、玄80ワットの゚ネルギヌを消費し、そのうち95がチップの保守に費やされ、わずか5が蚈算に費やされたす。



この蚘事の著者は、この䜜業が、デヌタを栌玍しお䞊列に凊理するフォトンテン゜ルプロセッサを実装するための最初のアプロヌチであるこずを匷調しおいたす。このようなプロセッサは、乗算环積MAC操䜜の数を数桁拡匵できるず同時に、既存のハヌドりェアアクセラレヌタず比范しお電力消費ず遅延を倧幅に削枛し、リアルタむム分析を提䟛したす。



ロゞックゲヌトに䟝存するデゞタル゚レクトロニクスずは異なり、統合フォトニクスでは、光物質信号の電磁的性質によっお提䟛される固有の䞊列性を利甚しお、倚重环積および他の倚くの線圢代数挔算を非反埩的に実行できたす。この点で、統合フォトニクスは、ハヌドりェアで特定の耇雑な操䜜を衚瀺するための理想的なプラットフォヌムです。



All Articles