ディヌプラヌニングのために賌入するもの個人的な経隓ずGPUのヒント

TimDettmers博士によるDeepLearning and Natural Language Processing



NLP Deep LearningDLは、コンピュヌティング胜力に察する需芁が高い分野であるため、GPUの遞択によっお、この分野での経隓が基本的に決たりたす。しかし、新しいGPUを賌入する際に考慮すべき重芁なプロパティは䜕ですかメモリ、コア、テン゜ルコアお金の䟡倀の芳点から最良の遞択をする方法はこの蚘事では、これらすべおの質問、よくある誀解を詳现に分析し、GPUを盎感的に理解できるようにするずずもに、正しい遞択を行うためのヒントをいく぀か玹介したす。



この蚘事は、GPUに぀いおのいく぀かの異なるレベルの理解を提䟛するために曞かれおいたす。 NVIDIAの新しいAmpereシリヌズ。遞択肢がありたす



  1. GPUの詳现、GPUを正確に高速化する理由、およびNVIDIA RTX 30 Ampereシリヌズの新しいGPUの独自性に興味がない堎合は、蚘事の冒頭をスキップしお、速床ず1ドルあたりの速床のグラフ、および掚奚事項のセクションに進むこずができたす。これがこの蚘事の栞心であり、最も䟡倀のあるコンテンツです。
  2. 特定の質問に興味がある堎合は、蚘事の最埌の郚分で最も頻繁に取り䞊げたした。
  3. GPUずTensorCoreがどのように機胜するかを深く理解する必芁がある堎合は、この蚘事を最初から最埌たで読むこずをお勧めしたす。特定の䞻題に関する知識に応じお、1〜2章をスキップできたす。


各セクションの前には、党䜓を読むかどうかを刀断するのに圹立぀短い芁玄がありたす。



コンテンツ





GPU?

GPU,









/ L1 /

Ampere

Ampere

Ampere



Ampere / RTX 30









GPU

GPU

GPU

11 ?

11 ?



GPU-

GPU

GPU?



PCIe 4.0?

PCIe 8x/16x?

RTX 3090, 3 PCIe?

4 RTX 3090 4 RTX 3080?

GPU ?

NVLink, ?

. ?

?

?

Intel GPU?

?

AMD GPU + ROCm - NVIDIA GPU + CUDA?

, – GPU?

,





この蚘事は次のように構成されおいたす。たず、GPUを高速化する理由を説明したす。プロセッサずGPUの違い、テン゜ルコア、メモリ垯域幅、GPUメモリ階局、およびそれらすべおがGOタスクのパフォヌマンスにどのように関連するかに぀いお説明したす。これらの説明は、必芁なGPUパラメヌタヌをよりよく理解するのに圹立぀堎合がありたす。次に、GPUパフォヌマンスの理論的掚定倀ず、バむアスのない信頌性の高いパフォヌマンスデヌタを取埗するための、いく぀かのNVIDIA速床テストずの察応に぀いお説明したす。賌入時に考慮すべきNVIDIARTX 30AmpereシリヌズGPUの独自の機胜に぀いお説明したす。次に、1〜2チップ、4、8、およびGPUクラスタヌのGPUに関する掚奚事項を瀺したす。次に、Twitterで尋ねられたよくある質問ぞの回答のセクションがありたす。たた、䞀般的な誀解を払拭し、クラりドずデスクトップ、冷华、AMDずNVIDIAなどのさたざたな問題を浮き圫りにしたす。



GPUはどのように機胜したすか



GPUを頻繁に䜿甚する堎合は、GPUがどのように機胜するかを理解しおおくず圹立ちたす。この知識は、GPUが遅い堎合ず速い堎合がある理由を理解するのに圹立ちたす。そしお、GPUが必芁かどうか、そしお将来どのハヌドりェアオプションがGPUず競合できるかを理解できたす。特定のGPUを遞択するための有甚なパフォヌマンス情報ず匕数が必芁な堎合は、このセクションをスキップできたす。GPUがどのように機胜するかに぀いおの最も䞀般的な説明は、Quoraの回答にありたす。



これは䞀般的な説明であり、GPUがプロセッサよりもGOに適しおいる理由の問題をよく説明しおいたす。詳现を調べるず、GPUの違いがわかりたす。



凊理速床に圱響を䞎える最も重芁なGPU特性



このセクションは、GOの分野でのパフォヌマンスに぀いおより盎感的に考えるのに圹立ちたす。この理解は、将来のGPUを自分で評䟡するのに圹立ちたす。



テン゜ルコア



抂芁



  • テン゜ルカヌネルは、乗算ず加算をカりントするために必芁なクロックサむクル数を16倍削枛したす。私の䟋では、32×32マトリックスの堎合は128から8クロックサむクルになりたす。
  • テン゜ルカヌネルは、メモリアクセスサむクルを節玄するこずにより、共有メモリぞの繰り返しアクセスぞの䟝存を枛らしたす。
  • テン゜ルカヌネルは非垞に高速であるため、蚈算はもはやボトルネックではありたせん。唯䞀のボトルネックは、それらぞのデヌタの転送です。


今日、安䟡なGPUが非垞に倚いため、ほずんどの人がテン゜ルコアを備えたGPUを賌入できたす。したがっお、私は垞にTensorCoreを備えたGPUをお勧めしたす。マトリックス乗算に特化したこれらの蚈算モゞュヌルの重芁性を理解するには、それらがどのように機胜するかを理解するこずが圹立ちたす。すべおの行列のサむズが32×32である行列乗算A * B = Cの簡単な䟋を䜿甚しお、テン゜ルカヌネルがある堎合ずない堎合の乗算がどのように芋えるかを瀺したす。



これを理解するには、最初にバヌの抂念を理解する必芁がありたす。プロセッサは1 GHzで動䜜しおいる堎合、それは10を行い91秒あたりのティック数。各クロックは蚈算の機䌚です。ただし、ほずんどの堎合、操䜜には1クロックサむクルより長い時間がかかりたす。パむプラむンが刀明したした。1぀の操䜜の実行を開始するには、最初に、前の操䜜を完了するために必芁な数のクロックサむクルを埅機する必芁がありたす。これは、遅延操䜜ずも呌ばれたす。



操䜜の重芁な期間たたは遅延をティック単䜍で次に瀺したす。



  • 最倧48GBのグロヌバルメモリぞのアクセス〜200クロックサむクル。
  • 共有メモリアクセスストリヌミングマルチプロセッサあたり最倧164 KB〜20クロック。
  • 耇合乗算-加算SUS4小節。
  • テン゜ルカヌネルでのマトリックス乗算1クロックサむクル。


たた、GPUのスレッドの最小単䜍32スレッドのパケットはワヌプず呌ばれるこずを知っおおく必芁がありたす。ワヌプは通垞同期しお機胜したす。ワヌプ内のすべおのスレッドは互いに埅機する必芁がありたす。すべおのGPUメモリ操䜜はワヌプ甚に最適化されおいたす。たずえば、グロヌバルメモリからのロヌドには、32 * 4バむト-32個の浮動小数点数が必芁です。ワヌプ内のスレッドごずに1぀のそのような数です。ストリヌミングマルチプロセッサGPUのプロセッサコアに盞圓では、最倧32のワヌプ= 1024スレッドが存圚する可胜性がありたす。マルチプロセッサリ゜ヌスは、すべおのアクティブなワヌプ間で共有されたす。したがっお、1぀のワヌプに倚くのレゞスタ、共有メモリ、およびテン゜ルコアリ゜ヌスが含たれるように、動䜜に必芁なワヌプが少なくなる堎合がありたす。



䞡方の䟋で、同じコンピュヌティングリ゜ヌスがあるず仮定したしょう。この32×32マトリックス乗算の小さな䟋では、8぀のマルチプロセッサRTX 3090の玄10ずマルチプロセッサで8぀のワヌプを䜿甚したす。



テン゜ルカヌネルを䜿甚しないマトリックス乗算



それぞれが32×32のサむズの行列A * B = Cを乗算する必芁がある堎合、アクセス遅延は玄10分の1であるため、垞にアクセスしおいるメモリから共有メモリにデヌタをロヌドする必芁がありたす 200バヌ、および20バヌ。共有メモリ内のメモリのブロックは、倚くの堎合、メモリタむル、たたは単にタむルず呌ばれたす。 2぀の32x32フロヌティングポむント番号を共有メモリタむルにロヌドするには、2 * 32ワヌプを䜿甚しお䞊行しお実行できたす。それぞれ8぀のワヌプを持぀8぀のマルチプロセッサがあるため、䞊列化のおかげで、グロヌバルメモリから共有メモリぞの1぀のシヌケンシャルロヌドを実行する必芁がありたす。これには200クロックサむクルかかりたす。



行列を乗算するには、共有メモリAず共有メモリBから32個の数倀のベクトルをロヌドし、CMSを実行しおから、出力をレゞスタCに栌玍する必芁がありたす。各マルチプロセッサが8぀のスカラヌ積32×32を凊理するように、この䜜業を分割したす。 Cの8぀の出力デヌタを蚈算したす。なぜそれらが正確に8぀あるのか叀いアルゎリズムでは-4、これは玔粋に技術的な機胜です。それを理解するには、ScottGrayの蚘事を読むこずをお勧めしたす。これは、共有メモリぞのアクセスが8回あり、それぞれ20サむクルのコストがかかり、8回のSLS操䜜32䞊列がそれぞれ4サむクルのコストになるこずを意味したす。合蚈で、コストは次のようになりたす



。200ティックグロヌバルメモリ+ 8 * 20ティック共有メモリ+ 8 * 4ティックCMS= 392ティック次に



、テン゜ルコアのこのコストを芋おみたしょう。



テン゜ルカヌネルによるマトリックス乗算



テン゜ルカヌネルを䜿甚するず、1サむクルで4×4の行列を乗算できたす。これを行うには、メモリをテン゜ルコアにコピヌする必芁がありたす。䞊蚘のように、グロヌバルメモリ200ティックからデヌタを読み取り、共有メモリに保存する必芁がありたす。32×32の行列を乗算するには、テン゜ルカヌネルで8×8 = 64の操䜜を実行する必芁がありたす。1぀のマルチプロセッサには8぀のテン゜ルコアが含たれおいたす。8぀のマルチプロセッサで、64のテン゜ルコアがありたす-必芁な数だけです共有メモリからテン゜ルコアに1回の転送20クロックサむクルでデヌタを転送し、これら64の操䜜すべおを䞊行しお1クロックサむクル実行できたす。これは、テン゜ルコアでのマトリックス乗算の総コストが次のようになるこずを意味したす



200クロックサむクルグロヌバルメモリ+ 20クロックサむクル共有メモリ+ 1クロックサむクルテン゜ルコア= 221クロックサむクル



したがっお、テン゜ルカヌネルを䜿甚するず、マトリックス乗算のコストを392から221クロックサむクルに倧幅に削枛できたす。簡略化した䟋では、テン゜ルカヌネルによっお共有メモリアクセスずSNS操䜜の䞡方のコストが削枛されたした。



この䟋は、テン゜ルカヌネルがある堎合ずない堎合の䞀連の蚈算ステップに倧たかに埓いたすが、これは非垞に単玔化された䟋であるこずに泚意しおください。実際の堎合、マトリックスの乗算には、倧きなメモリタむルず、わずかに異なる䞀連のアクションが含たれたす。



ただし、この䟋では、次の属性であるメモリ垯域幅がテン゜ルコアを備えたGPUにずっお非垞に重芁である理由が明らかになっおいるように思われたす。マトリックスにテン゜ルコアを乗算する堎合、グロヌバルメモリは最も高䟡なものであるため、グロヌバルメモリぞのアクセスの埅ち時間を短瞮できれば、GPUははるかに高速になりたす。これは、メモリクロック速床を䞊げる1秒あたりのクロックサむクルを増やすが、熱ず電力の消費量を増やすか、䞀床に転送できる芁玠の数バス幅を増やすこずによっお実行できたす。



メモリ垯域幅



前のセクションでは、テン゜ルカヌネルの速床に぀いお説明したした。それらは非垞に高速であるため、ほずんどの時間アむドル状態になり、グロヌバルメモリからのデヌタが到着するのを埅ちたす。たずえば、非垞に倧きなマトリックスが䜿甚されたBERT Largeプロゞェクトのトレヌニング䞭テン゜ルカヌネルの堎合は倧きいほど良い、TFLOPSでのテン゜ルカヌネルの䜿甚率は玄30でした。これは、テン゜ルカヌネルがアむドル状態であった時間の70を意味したす。



これは、2぀のGPUをテン゜ルコアず比范する堎合、それぞれの最高のパフォヌマンス指暙の1぀がメモリ垯域幅であるこずを意味したす。たずえば、A100GPUの垯域幅は1.555GB / sですが、V100の垯域幅は900 GB / sです。簡単な蚈算によるず、A100はV100よりも1555/900 = 1.73倍高速になりたす。



共有メモリ/ L1キャッシュ/レゞスタ



速床制限芁因はテン゜ルコアのメモリぞのデヌタの転送であるため、GPUの他のプロパティに目を向ける必芁がありたす。これにより、それらぞのデヌタの転送を高速化できたす。これに関連するのは、共有メモリ、L1キャッシュ、およびレゞスタの数です。メモリ階局がデヌタ転送をどのように高速化するかを理解するには、GPUでマトリックスがどのように乗算されるかを理解するこずが圹立ちたす。



マトリックス乗算では、䜎速のグロヌバルメモリから高速のロヌカル共有メモリ、そしお超高速レゞスタぞず進むメモリ階局を䜿甚したす。ただし、メモリが高速であるほど、メモリは小さくなりたす。したがっお、マトリックスを小さなものに分割しおから、ロヌカル共有メモリでこれらの小さなタむルを乗算する必芁がありたす。そうすれば、それはストリヌミングマルチプロセッサPMにすばやく近くなりたす。これはプロセッサコアに盞圓したす。テン゜ルコアを䜿甚するず、もう1぀のステップを実行できたす。すべおのタむルを取埗し、それらの䞀郚をテン゜ルコアにロヌドしたす。共有メモリはマトリックスタむルをグロヌバルGPUメモリよりも10〜50倍速く凊理し、テン゜ルコアレゞスタはそれをグロヌバルGPUメモリよりも200倍速く凊理したす。



タむルのサむズを倧きくするず、より倚くのメモリを再利甚できたす。これに぀いおは、私の蚘事TPU vsGPUで詳しく説明したした。TPUでは、テン゜ルコアごずに非垞に倧きなタむルがありたす。TPUは、グロヌバルメモリからの新しい転送ごずに、より倚くのメモリを再利甚できるため、GPUよりもマトリックス乗算の凊理がわずかに効率的になりたす。



タむルサむズは、各PMのメモリ量によっお決たりたす。これはGPUのプロセッサコアに盞圓したす。アヌキテクチャに応じお、これらのボリュヌムは次のずおりです。



  • ボルタ96KB共有メモリ/ 32KB L1
  • チュヌリング64KB共有メモリ/ 32KB L1
  • アンペア164KB共有メモリ/ 32KB L1


Ampereにははるかに倚くの共有メモリがあるこずがわかりたす。これにより、より倧きなタむルを䜿甚できるようになり、グロヌバルメモリアクセスの数が枛りたす。したがっお、AmpereはGPUメモリ垯域幅をより効率的に䜿甚したす。これにより、パフォヌマンスが2〜5向䞊したす。この増加は、巚倧なマトリックスで特に顕著です。



アンペアテン゜ルカヌネルには別の利点がありたす。耇数のスレッドに共通する倧量のデヌタがありたす。これにより、レゞスタ呌び出しの数が枛りたす。レゞスタのサむズは、PMあたり64 k、たたはスレッドあたり255に制限されおいたす。 Voltaず比范しお、Ampere Tensor Coreは3分の1のレゞスタを䜿甚するため、共有メモリ内のタむルごずにより倚くのアクティブなTensorCoreがありたす。぀たり、同じ数のレゞスタで3倍のテン゜ルコアをロヌドできたす。ただし、垯域幅は䟝然ずしおボトルネックであるため、実際のTFLOPSの増加は、理論倀ず比范しおごくわずかです。新しいテン゜ルカヌネルにより、パフォヌマンスが玄1〜3向䞊したした。



党䜓ずしお、Ampereアヌキテクチャは、グロヌバルメモリから共有メモリタむル、テン゜ルコアレゞスタたで、改善された階局を通じおメモリ垯域幅をより効率的に䜿甚するように最適化されおいるこずがわかりたす。



GOにおけるAmpereの有効性の評䟡



抂芁



  • Ampere GPUのメモリ垯域幅ず改善されたメモリ階局に基づく理論䞊の掚定では、1.78〜1.87倍の加速が予枬されたす。
  • NVIDIAは、TeslaA100およびV100GPUの速床枬定に関するデヌタをリリヌスしたした。圌らはよりマヌケティング的ですが、偏りのないモデルはそれらに基づいお構築するこずができたす。
  • 偏りのないモデルは、V100ず比范しお、Tesla A100は自然蚀語凊理で1.7倍、コンピュヌタヌビゞョンで1.45倍高速であるこずを瀺唆しおいたす。


このセクションは、AmpereGPUのパフォヌマンススコアを取埗する方法の技術的な詳现を詳しく調べたい方を察象ずしおいたす。興味がない堎合は、スキップしおも問題ありたせん。



理論䞊の速床の掚定



䞊蚘の議論を考えるず、テン゜ルコアを備えた2぀のGPUアヌキテクチャの違いは、䞻にメモリ垯域幅にあるはずです。远加の利点は、共有メモリずL1キャッシュの増加、およびレゞスタの効率的な䜿甚から埗られたす。



Tesla A100 GPUの垯域幅は、TeslaV100ず比范しお1555/900 = 1.73倍に増加しおいたす。たた、総メモリが倧きいために速床が2〜5向䞊し、テン゜ルコアが改善されたために1〜3向䞊するず予想するのも劥圓です。加速は1.78から1.87倍でなければならないこずがわかりたす。



Ampere



Ampere、Turing、VoltaなどのアヌキテクチャのGPUスコアが1぀あるずしたす。これらの結果を同じアヌキテクチャたたはシリヌズの他のGPUに倖挿するのは簡単です。幞い、NVIDIAは、コンピュヌタヌのビゞョンず自然な蚀語の理解に関連するさたざたなタスクに぀いお、A100ずV100を比范するベンチマヌクをすでに実斜しおいたす。残念ながら、NVIDIAは、これらの数倀を盎接比范できないように可胜な限りのこずを行っおいたす。テストでは、異なるデヌタパケットサむズず異なる数のGPUを䜿甚したため、A100は勝おたせんでした。したがっお、ある意味で、埗られたパフォヌマンス指暙は、䞀郚は正盎で、䞀郚は宣䌝です。䞀般に、A100のメモリが倚いため、デヌタパケットサむズの増加は正圓化されるず䞻匵できたすが、GPUアヌキテクチャを比范するには、同じデヌタパケットサむズのタスクで偏りのないパフォヌマンスデヌタを比范する必芁がありたす。



偏りのない芋積もりを取埗するには、2぀の方法でV100ずA100の枬定倀をスケヌリングできたす。デヌタパケットサむズの違いを考慮するか、GPUの数の違い1ず8を考慮したす。幞運なこずに、NVIDIAが提䟛するデヌタで、䞡方のケヌスで同様の芋積もりを芋぀けるこずができたす。



パケットサむズを2倍にするず、スルヌプットが1秒あたりの画像数で13.6増加したす畳み蟌みニュヌラルネットワヌク、CNNの堎合。 RTX TitanのTransformerアヌキテクチャを䜿甚しお同じタスクの速床を枬定したずころ、驚くべきこずに、同じ結果13.5が埗られたした。これは信頌できる芋積もりの​​ようです。



ネットワヌクの䞊列化を増やし、GPUの数を増やすず、ネットワヌクに関連するオヌバヌヘッドのためにパフォヌマンスが䜎䞋したす。ただし、A100 8x GPUは、V100 8x GPUNVLink 2.0ず比范しおネットワヌキングNVLink 3.0でのパフォヌマンスが優れおいたす。これも混乱を招く芁因です。 NVIDIAからのデヌタを芋るず、SNSを凊理するために、8番目のA100を備えたシステムのオヌバヌヘッドが8番目のV10000を備えたシステムよりも5少ないこずがわかりたす。぀たり、1番目のA10000から8番目のA10000ぞの遷移で7.0倍の加速が埗られた堎合、1番目のV10000から8番目のV10000ぞの遷移では6.67倍の加速しか埗られたせん。倉圧噚の堎合、この数倀は7です。



この情報を䜿甚しお、NVIDIAから提䟛されたデヌタから、特定のGOアヌキテクチャの加速を盎接芋積もるこずができたす。Tesla A100には、TeslaV100に比べお次の速床䞊の利点がありたす。



  • SE-ResNeXt1011.43回。
  • Masked-R-CNN1.47回。
  • トランスフォヌマヌ12局、機械倉換、WMT14 en-de1.70回。


したがっお、コンピュヌタビゞョンの堎合、数倀は理論䞊の掚定倀を䞋回っお取埗されたす。これは、テン゜ル枬定倀が小さいこず、img2colやFFTなどの行列乗算を準備するために必芁な操䜜のオヌバヌヘッド、たたはGPUを飜和させるこずができない操䜜結果のレむダヌが比范的小さいこずが倚いが原因である可胜性がありたす。たた、特定のアヌキテクチャグルヌプ化された畳み蟌みのアヌティファクトである可胜性もありたす。



倉圧噚の速床の実際的な評䟡は、理論的な評䟡に非垞に近いものです。おそらく、倧きな行列を操䜜するためのアルゎリズムが非垞に単玔だからです。GPUの費甚察効果を蚈算するために、実際の芋積もりを䜿甚したす。



芋積もりの​​䞍正確さの可胜性



䞊蚘はA100ずV100の比范評䟡です。これたで、NVIDIAは「ゲヌム」RTX GPUのパフォヌマンスを密かに䜎䞋させおいたした。テン゜ルコアの䜿甚率が䜎䞋し、冷华甚のゲヌムファンが远加され、GPU間のデヌタ転送が犁止されおいたした。RT30シリヌズもAmpereA100に察しお未知の障害を匕き起こした可胜性がありたす。



Ampere / RTX30の堎合に他に考慮すべきこず



抂芁



  • Ampereを䜿甚するず、スパヌスマトリックスに基づいおネットワヌクをトレヌニングできたす。これにより、トレヌニングプロセスが最倧2倍高速化されたす。
  • スパヌスネットワヌクトレヌニングはただめったに䜿甚されたせんが、そのおかげで、Ampereはすぐに時代遅れになるこずはありたせん。
  • Ampereには、䜎粟床の䜿甚をはるかに容易にする新しい䜎粟床デヌタタむプがありたすが、必ずしも以前のGPUよりも速床が向䞊するずは限りたせん。
  • 新しいファンの蚭蚈は、GPU間に空きスペヌスがある堎合に適しおいたすが、互いに近くに立っおいるGPUが効果的に冷华されるかどうかは明らかではありたせん。
  • RTX 3090の3スロット蚭蚈は、4぀のGPUビルドにずっお課題ずなりたす。考えられる解決策は、2スロットオプションたたはPCIe゚クスパンダを䜿甚するこずです。
  • 4぀のRTX3090は、垂堎に出回っおいる暙準のPSUが提䟛できるよりも倚くの電力を必芁ずしたす。


新しいNVIDIAAmpere RTX 30には、NVIDIA Turing RTX 20に比べお远加の利点がありたす。぀たり、スパヌストレヌニングずニュヌラルネットワヌクによるデヌタ凊理の改善です。新しいデヌタタむプなどの残りのプロパティは、単玔な利䟿性の向䞊ず芋なすこずができたす。远加のプログラミングを必芁ずせずに、Turingシリヌズず同じ方法で凊理を高速化したす。



スパヌスラヌニング



Ampereを䜿甚するず、スパヌスマトリックスを高速か぀自動的に乗算できたす。これは次のように機胜したす。マトリックスを取埗しお4぀の芁玠に分割するず、スパヌスマトリックスをサポヌトするテン゜ルカヌネルにより、これら4぀の芁玠のうち2぀をれロにするこずができたす。これにより、マトリックス乗算䞭の垯域幅芁件が半分になるため、2倍の速床向䞊が実珟したす。



私の研究では、たばらな孊習ネットワヌクを䜿甚しおきたした。特に、「ネットワヌクに必芁なFLOPSを枛らしたすが、GPUはスパヌス行列をすばやく乗算できないため、速床を䞊げない」ずいう事実に぀いお、この䜜業は批刀されたした。たあ-スパヌスマトリックス乗算のサポヌトは、テン゜ルカヌネル、私のアルゎリズム、たたは他のアルゎリズムリンク、link、link、linkは、スパヌスマトリックスを操䜜するため、トレヌニング䞭に実際に2倍の速床で動䜜できるようになりたした。



このプロパティは珟圚実隓的なものず芋なされおおり、スパヌスネットワヌクトレヌニングは普遍的に適甚されおいたせんが、GPUがこのテクノロゞヌをサポヌトしおいる堎合は、スパヌストレヌニングの将来に備えるこずができたす。



䜎粟床の蚈算



新しいデヌタタむプが私の仕事で忠実床の䜎い逆䌝播の安定性をどのように改善できるか をすでに瀺したした。これたでのずころ、16ビットの浮動小数点数を䜿甚した安定した逆䌝播の問題は、通垞のデヌタタむプがスパン[-65,504、65,504]のみをサポヌトするこずです。募配がこのギャップを超えるず、爆発しおNaN倀が生成されたす。これを防ぐために、通垞、逆䌝播する前に倀に小さな数を掛けお倀をスケヌリングし、募配の爆発を回避したす。



Brain Float 16BF16圢匏は指数に倚くのビットを䜿甚するため、可胜な倀の範囲はFP32ず同じです[-3 * 10 ^ 38、3 * 10 ^ 38]。 BF16の粟床は䜎くなりたす。重芁な桁数は少なくなりたすが、ネットワヌクをトレヌニングするずきの募配の粟床はそれほど重芁ではありたせん。したがっお、BF16を䜿甚するず、スケヌリングを行ったり、募配の爆発を心配したりする必芁がなくなりたす。この圢匏では、粟床がわずかに䜎䞋したすが、トレヌニングの安定性が向䞊するはずです。



これが意味するこずBF16の粟床はFP16の粟床よりも䞀貫しおいる可胜性がありたすが、速床は同じです。TF32の粟床により、ほがFP32のような安定性ず、ほがFP16のような加速が埗られたす。さらに、これらのデヌタタむプを䜿甚するず、コヌドを䜕も倉曎せずに、FP32をTF32に、FP16をBF16に倉曎できたす。



䞀般に、これらの新しいデヌタタむプは、叀いデヌタタむプず少しのプログラミング正しくスケヌリング、初期化、正芏化、Apexを䜿甚を䜿甚しおすべおの利点を埗るこずができるずいう意味で、怠惰ず芋なすこずができたす。したがっお、これらのデヌタタむプは加速を提䟛したせんが、トレヌニングで忠実床の䜎いものを䜿甚しやすくしたす。



新しいファンの蚭蚈ず熱攟散の問題



RTX 30シリヌズの新しいファン蚭蚈には、゚アブロヌファンず゚アプルファンがありたす。デザむン自䜓は独創的で、GPU間に空きスペヌスがある堎合は非垞に効率的に機胜したす。ただし、GPUが盞互に匷制された堎合にGPUがどのように動䜜するかは明確ではありたせん。ブロヌファンは他のGPUから空気を吹き飛ばすこずができたすが、その圢状が以前ずは異なるため、これがどのように機胜するかを刀断するこずはできたせん。 4぀のスロットがある堎所に1぀たたは2぀のGPUを配眮するこずを蚈画しおいる堎合は、問題はないはずです。ただし、3〜4個のRTX 30 GPUを䞊べお䜿甚する堎合は、最初に枩床条件に関するレポヌトを埅っおから、ファン、PCIe゚キスパンダヌ、たたはその他の゜リュヌションがさらに必芁かどうかを刀断したした。



いずれにせよ、氎冷はヒヌトシンクの問題を解決するのに圹立ちたす。倚くのメヌカヌがRTX3080 / RTX 3090カヌドにこのような゜リュヌションを提䟛しおいるため、4枚でも暖かくなりたせん。ただし、4぀のGPUを搭茉したコンピュヌタヌを構築する堎合は、ほずんどの堎合非垞に難しいため、既補のGPU゜リュヌションを賌入しないでください。ラゞ゚ヌタヌを配垃したす。



冷华の問題に察する別の解決策は、PCIe゚キスパンダヌを賌入し、ケヌス内にカヌドを配垃するこずです。これは非垞に効果的です-私ずバニントン倧孊の他の倧孊院生はこのオプションを䜿甚しお倧成功を収めおいたす。芋た目はあたり良くありたせんが、GPUは熱くなりたせんたた、このオプションは、GPUを収容するのに十分なスペヌスがない堎合に圹立ちたす。ケヌスに䜙裕がある堎合は、たずえば、3぀のスロットを備えた暙準のRTX 3090を賌入し、゚クスパンダヌを䜿甚しおケヌス党䜓に配垃できたす。したがっお、4぀のRTX3090のスペヌスず冷华の問題を同時に解決するこずが可胜





です。1PCIe゚キスパンダヌを備えた4 GPU



3スロットカヌドず電源の問題



RTX 3090は3぀のスロットを占有するため、NVIDIAのデフォルトのファンでそれぞれ4぀䜿甚するこずはできたせん。 350WのTDPが必芁なため、これは驚くべきこずではありたせん。 RTX 3080はわずかに劣っおおり、320WのTDPが必芁であり、4぀のRTX3080でシステムを冷华するこずは非垞に困難です。



350W = 1400Wの4枚のカヌドでシステムに電力を䟛絊するこずも困難です。 1600 Wの電源PSUがありたすが、プロセッサずマザヌボヌドには200Wでは䞍十分な堎合がありたす。最倧電力消費は党負荷でのみ発生し、HEの間、プロセッサは通垞軜負荷です。したがっお、1600WPSUは4぀のRTX3080に適しおいる可胜性がありたすが、4぀のRTX 3090には、1700W以䞊のPSUを探すこずをお勧めしたす。珟圚、そのようなPSUは垂堎に出回っおいたせん。サヌバヌPSUたたはクリプトマむナヌ甚の特別なブロックが機胜する堎合がありたすが、それらには異垞なフォヌムファクタヌがある堎合がありたす。



深局孊習におけるGPU効率



次のテストには、TeslaA100ずTeslaV100の比范だけでなく、このデヌタに適合するモデルを䜜成し、Titan V、Titan RTX、RTX 2080 Ti、RTX 2080をテストした4぀の異なるテストリンク、リンク、リンク、リンクを䜜成したした。



たた、テストデヌタポむントを補間するこずにより、RTX 2070、RTX 2060、QuadroRTXなどのミッドレンゞカヌドのベンチマヌク結果をスケヌリングしたした。通垞、GPUアヌキテクチャでは、このようなデヌタは、マトリックスの乗算ずメモリ垯域幅に関しお線圢にスケヌリングされたす。



FP32番号を䜿甚したトレヌニングを䜿甚する理由がないため、混合粟床のFP16トレヌニングテストからのみデヌタを収集したした。





図図2RTX 2080Tiによっお正芏化されたパフォヌマンスRTX2080 Ti



ず比范しお、RTX 3090は、畳み蟌みネットワヌクでは1.57倍、トランスでは1.5倍高速で動䜜し、コストは15高くなりたす。Ampere RTX 30は、Turing RTX20シリヌズ以降倧幅な改善を瀺しおいるこずがわかりたした。



コストあたりのGPUディヌプラヌニングレヌト



どのGPUがお金に芋合う最高の䟡倀でしょうかそれはすべお、システムの総コストに䟝存したす。高䟡な堎合は、より高䟡なGPUに投資するのが理にかなっおいたす。



以䞋は、PCIe 3.0䞊の3぀のアセンブリに関するデヌタです。これは、2぀たたは4぀のGPUを備えたシステムのコストのベヌスラむンずしお䜿甚したす。この基本コストを取埗しお、GPUコストを远加したす。私は埌者をAmazonずeBayからのオファヌ間の平均䟡栌ずしお蚈算したす。新しいAmpereの堎合、私は1぀の䟡栌のみを䜿甚したす。䞊蚘のパフォヌマンスデヌタず合わせお、これは1ドルあたりのパフォヌマンス倀を瀺したす。GPUが8぀あるシステムの堎合、RTXサヌバヌの業界暙準ずしおSupermicroベアボヌンを採甚しおいたす。衚瀺されおいるグラフには、メモリ芁件は含たれおいたせん。最初に必芁なメモリに぀いお考え、次にグラフで最適なオプションを探す必芁がありたす。メモリのヒントの䟋



  • 事前にトレヌニングされたトランスフォヌマヌを䜿甚するか、小さなトランスフォヌマヌを最初からトレヌニングする> = 11GB。
  • 研究たたは生産における倧芏暡な倉圧噚たたは畳み蟌みネットワヌクのトレヌニング> = 24GB。
  • ニュヌラルネットワヌクのプロトタむピングトランスフォヌマヌたたはコンボリュヌションネットワヌク> = 10GB。
  • Kaggleコンテストぞの参加> = 8GB。
  • コンピュヌタヌビゞョン> = 10GB。




図





図3RTX3080に察する正芏化されたドルのパフォヌマンス。図4RTX3080に察する正芏化されたドルのパフォヌマンス





。5RTX3080に察する正芏化されたドルのパフォヌマンス。



GPUの掚奚事項



繰り返しになりたすが、GPUを遞択するずきは、たず、タスクに十分なメモリがあるこずを確認しおください。GPUを遞択する手順は次のずおりです。



  • , GPU: Kaggle, , , , - .
  • , .
  • GPU, .
  • GPU - ? , RTX 3090, ? GPU? , GPU?


䞀郚の手順では、必芁なものに぀いお考え、同じこずをしおいる他の人が䜿甚しおいるメモリの量に぀いお少し調査する必芁がありたす。アドバむスはできたすが、この分野のすべおの質問に完党に答えるこずはできたせん。



11GBを超えるストレヌゞが必芁になるのはい぀ですか



倉圧噚を䜿甚する堎合は少なくずも11GBが必芁であり、この分野で研究を行う堎合は少なくずも24GBが必芁であるこずはすでに述べたした。以前の事前トレヌニング枈みモデルのほずんどは、非垞に高いメモリ芁件があり、少なくずも11GBのメモリを備えたRTX2080Ti以䞊のGPUでトレヌニングされおいたす。したがっお、メモリが11 GB未満の堎合、䞀郚のモデルの起動が困難になるか、䞍可胜になる可胜性がありたす。



倧量のメモリを必芁ずする他の領域は、医療画像、高床なコンピュヌタビゞョンモデル、およびすべお倧きな画像です。



党䜓ずしお、研究、産業甚アプリケヌション、Kaggleの競争など、競争をしのぐこずができるモデルの開発を怜蚎しおいる堎合は、メモリを远加するこずで競争力を高めるこずができたす。



11 GB未満のメモリでい぀問題を解決できたすか



RTX3070およびRTX3080カヌドは匷力ですが、メモリが䞍足しおいたす。ただし、倚くのタスクでは、その量のメモリは必芁ない堎合がありたす。



RTX 3070は、GOトレヌニングに最適です。ほずんどのアヌキテクチャの基本的なネットワヌキングスキルは、ネットワヌクを瞮小するか、より小さなむメヌゞを䜿甚するこずで習埗できたす。GOを孊ぶ必芁がある堎合は、RTX 3070を遞択したす。䜙裕があれば、RTX3070を遞択したす。



RTX 3080は、今日最も費甚効果の高いカヌドであるため、プロトタむピングに最適です。プロトタむピングには倧量のメモリが必芁であり、メモリは安䟡です。プロトタむピングずは、研究、Kaggleコンテスト、スタヌトアップのアむデアの詊行、研究コヌドの実隓など、あらゆる分野でのプロトタむピングを意味したす。これらすべおのアプリケヌションには、RTX3080が最適です。



たずえば、研究所やスタヌトアップを経営しおいる堎合、総予算の66〜80をRTX 3080マシンに費やし、信頌性の高い氎冷を備えたRTX 3090マシンに20〜33を費やしたす。 RTX 3080はより費甚効果が高く、Slurmからアクセスできたす。..。プロトタむピングはアゞャむルモヌドで実行する必芁があるため、より小さなモデルずデヌタセットで実行する必芁がありたす。そしお、RTX3080はそのために最適です。孊生/同僚が優れたプロトタむプモデルを䜜成したら、それをRTX 3090に展開しお、より倧きなモデルにスケヌルアップできたす。



䞀般的な掚奚事項



党䜓ずしお、RTX 30シリヌズモデルは非垞に匷力であり、絶察にお勧めしたす。前述のメモリ芁件、および電力ず冷华の芁件を考慮しおください。 GPU間に空きスロットがある堎合は、冷华に問題はありたせん。それ以倖の堎合は、RTX 30カヌドに氎冷、PCIe゚キスパンダヌ、たたは効率的なファン付きカヌドを提䟛したす。



党䜓ずしお、RTX3090を賌入できる人にはお勧めしたす。それは今あなたに合うだけでなく、次の3-7幎間非垞に効果的であり続けるでしょう。今埌3幎間でHBMメモリが倧幅に安くなる可胜性は䜎いため、次のGPUはRTX 3090よりも25だけ優れおいたす。5〜7幎埌には、おそらく安䟡なHBMメモリが衚瀺されたす。その埌、必ずフリヌトを曎新する必芁がありたす。 ..。



耇数のRTX3090からシステムを構築しおいる堎合は、十分な冷华ず電力を䟛絊しおください。



競争䞊の優䜍性に察する厳しい芁件がない限り、RTX 3080をお勧めしたす。これはより費甚効果の高い゜リュヌションであり、ほずんどのネットワヌクに迅速なトレヌニングを提䟛したす。必芁なメモリトリックを実行し、䜙分なコヌドを蚘述しおもかたわない堎合は、24GBネットワヌクを10GBGPUに詰め蟌むためのトリックがたくさんありたす。



RTX 3070は、GOトレヌニングやプロトタむピングにも最適なカヌドであり、RTX 3080よりも200ドル安いです。RTX3080を賌入できない堎合は、RTX3070を遞択しおください。



予算が厳しく、RTX 3070が高すぎる堎合は、eBayで䞭叀のRTX2070を玄260ドルで芋぀けるこずができたす。RTX 3060が発売されるかどうかはただ明確ではありたせんが、予算が厳しい堎合は埅぀䟡倀があるかもしれたせん。RTX2060およびGTX1060ず䞀臎する䟡栌の堎合、玄250ドルから300ドルであり、良奜に機胜するはずです。



GPUクラスタヌに関する掚奚事項



GPUクラスタヌのレむアりトは、その甚途に倧きく䟝存したす。1024 GPU以䞊のシステムの堎合、䞻なものはネットワヌクの存圚ですが、䞀床に32個以䞋のGPUを䜿甚する堎合、匷力なネットワヌクの構築に投資する意味はありたせん。



䞀般に、RTXカヌドは、CUDA契玄に基づくデヌタセンタヌでは䜿甚できたせん。ただし、倧孊はこの芏則の䟋倖ずなるこずがよくありたす。このような蚱可を取埗したい堎合は、NVIDIAの担圓者に連絡するこずをお勧めしたす。 RTXカヌドを䜿甚できる堎合は、Supermicroの暙準の8 GPU RTX3080たたはRTX3090システムをお勧めしたす冷华状態を維持できる堎合。 8぀のA10000ノヌドの小さなセットにより、特に8぀のRTX 3090を備えた冷华サヌバヌが䞍可胜な堎合に、プロトタむピング埌にモデルを効率的に䜿甚できたす。この堎合、A10000は非垞に費甚察効果が高く、すぐに叀くなるこずはないため、RTX 6000 / RTX8000よりもA10000をお勧めしたす。



GPUクラスタヌ256 GPU以䞊で非垞に倧芏暡なネットワヌクをトレヌニングする必芁がある堎合は、A10000を備えたNVIDIA DGXSuperPODシステムをお勧めしたす。 256のGPUから、ネットワヌキングが䞍可欠になりたす。 256 GPUを超えお拡匵する堎合は、暙準゜リュヌションが機胜しなくなる高床に最適化されたシステムが必芁になりたす。



特に1,024GPUスケヌル以䞊では、垂堎で競争力のある゜リュヌションはGoogle TPUPodずNVIDIADGXSuperPodだけです。この芏暡では、専甚のネットワヌクむンフラストラクチャがNVIDIA DGX SuperPodよりも芋栄えがよいため、Google TPU Podを奜みたす。ただし、原則ずしお、2぀のシステムはかなり近いです。アプリケヌションずハヌドりェアでは、GPUシステムはTPUよりも柔軟性がありたすが、TPUシステムはより倧きなモデルをサポヌトし、より適切に拡匵できたす。したがっお、どちらのシステムにも長所ず短所がありたす。



どのGPUを賌入しないほうがよいか



冷华の問題に察凊するPCIe゚クスパンダヌがない限り、䞀床に耇数のRTX FoundersEditionたたはRTXTitansを賌入するこずはお勧めしたせん。それらはただりォヌムアップし、グラフに瀺されおいるものず比范しお速床が劇的に䜎䞋したす。 4぀のRTX2080 Ti Founders Editionは、90°Cたで急速に加熱され、クロック速床が䜎䞋し、通垞冷华されおいるRTX2070よりも䜎速で動䜜したす。



Tesla V100たたはA100は、䌁業のデヌタセンタヌでの䜿甚が犁止されおいるため、極端な堎合にのみ賌入するこずをお勧めしたす。たたは、巚倧なGPUクラスタヌで非垞に倧芏暡なネットワヌクをトレヌニングする必芁がある堎合はそれらを賌入しおください-それらの䟡栌/パフォヌマンス比は理想的ではありたせん。



もっず良いものを買う䜙裕があるなら、GTX16シリヌズカヌドを買わないでください。テン゜ルコアがないため、GOでのパフォヌマンスが䜎䞋したす。代わりに、䞭叀のRTX 2070 / RTX 2060 / RTX 2060Superを䜿甚したす。予算が非垞に限られおいる堎合は借りるこずができたす。



新しいGPUを賌入しないほうがよいのはい぀ですか。



すでにRTX2080 Ti以䞊を所有しおいる堎合、RTX3090にアップグレヌドしおもほずんど意味がありたせん。 GPUはすでに優れおおり、取埗した電力ず冷华の問題ず比范しお、速床のメリットはごくわずかです。それだけの䟡倀はありたせん。



4぀のRTX2080Tiから4぀のRTX3090にアップグレヌドしたい唯䞀の理由は、蚈算胜力に倧きく䟝存する非垞に倧きな倉圧噚やその他のネットワヌクを研究しおいた堎合です。ただし、メモリに問題がある堎合は、最初にさたざたなトリックを怜蚎しお、倧きなモデルを既存のメモリに詰め蟌む必芁がありたす。



1぀以䞊のRTX2070を所有しおいる堎合、アップグレヌドする前に私があなたであるかどうかをよく考えたす。これらはかなり良いGPUです。他の倚くのGPUの堎合ず同様に、8GBでは䞍十分な堎合は、eBayで販売しおRTX3090を賌入するのが理にかなっおいるかもしれたせん。十分なメモリがない堎合は、曎新が行われおいたす。



質問や誀解ぞの回答



抂芁



  • PCIeレヌンずPCIe4.0は、デュアルGPUシステムには関係ありたせん。GPUが4぀あるシステムの堎合、実際にはそうではありたせん。
  • RTX3090およびRTX3080の冷华は困難です。りォヌタヌクヌラヌたたはPCIe゚キスパンダヌを䜿甚しおください。
  • NVLinkは、GPUクラスタヌにのみ必芁です。
  • 同じコンピュヌタヌで異なるGPUを䜿甚できたすがたずえば、GTX 1080 + RTX 2080 + RTX 3090、効率的な䞊列化は機胜したせん。
  • 3台以䞊のマシンを䞊行しお実行するには、Infinibandず50Gbpsネットワヌクが必芁です。
  • AMDプロセッサはIntelプロセッサよりも安䟡であり、Intelプロセッサにはほずんど利点がありたせん。
  • ゚ンゞニアの英雄的な努力にもかかわらず、AMD GPU + ROCmは、今埌1〜2幎でコミュニティず同等のテン゜ルコアが䞍足するため、NVIDIAず競合するこずはほずんどできたせん。
  • クラりドGPUは、䜿甚期間が1幎未満の堎合に圹立ちたす。その埌、デスクトップ版が安くなりたす。


PCIe 4.0が必芁ですか



通垞はそうではありたせん。PCIe4.0はGPUクラスタヌに最適です。8GPUマシンを䜿甚しおいる堎合に䟿利です。それ以倖の堎合、ほずんど利点がありたせん。䞊列化が改善され、デヌタが少し速く転送されたす。しかし、デヌタ転送はボトルネックではありたせん。コンピュヌタヌビゞョンでは、ボトルネックはデヌタストレヌゞである可胜性がありたすが、GPUからGPUぞのPCIeデヌタ転送ではありたせん。したがっお、ほずんどの人がPCIe4.0を䜿甚する理由はありたせん。これにより、4぀のGPUの䞊列化が1〜7向䞊する可胜性がありたす。



PCIe 8x / 16xレヌンが必芁ですか



PCIe 4.0ず同様に、通垞はそうではありたせん。PCIeレヌンは、䞊列化ず高速デヌタ転送に必芁ですが、これがボトルネックになるこずはほずんどありたせん。GPUが2぀ある堎合は、4行で十分です。4぀のGPUの堎合、GPUごずに8぀のラむンを䜿甚するこずをお勧めしたすが、4぀のラむンがある堎合、パフォヌマンスは5〜10しか䜎䞋したせん。



それぞれが3぀のPCIeスロットを䜿甚する堎合、4぀のRTX 3090をどのように適合させたすか



1぀のスロットに察しお2぀のオプションのいずれかを賌入するか、PCIe゚クスパンダを䜿甚しおそれらを配垃できたす。スペヌスに加えお、すぐに冷华ず適切な電源に぀いお考える必芁がありたす。どうやら、最も簡単な解決策は、専甚の氎冷华ルヌプを備えた4 x RTX 3090EVGAハむドロカッパヌを賌入するこずです。EVGAは長幎にわたっお銅補の氎冷バヌゞョンのカヌドを補造しおおり、GPUの品質を信頌できたす。おそらくもっず安いオプションがありたす。



PCIe゚キスパンダヌはスペヌスず冷华の問題を解決できたすが、ケヌスにはすべおのカヌドを収玍できる十分なスペヌスが必芁です。そしお、゚クステンダヌが十分に長いこずを確認しおください



4 RTX3090たたは4RTX 3080を冷华する方法は



前のセクションを参照しおください。



耇数の異なるGPUタむプを䜿甚できたすか



はい。ただし、䜜業を効果的に䞊列化するこずはできたせん。3 RTX 3070 + 1 RTX 3090を実行しおいるシステムを想像できたす。䞀方、モデルをそれらに詰め蟌むず、4぀のRTX3070間の䞊列化が非垞に迅速に機胜したす。そしお、それが必芁になるもう1぀の理由は、叀いGPUを䜿甚しおいるこずです。動䜜したすが、最速のGPUが同期ポむントで最も遅いGPUを埅機するため通垞は募配曎新時、䞊列化は効果的ではありたせん。



NVLinkずは䜕ですか必芁ですか



通垞、NVLinkは必芁ありたせん。耇数のGPU間の高速通信です。128以䞊のGPUのクラスタヌがある堎合に必芁です。その他の堎合、暙準のPCIeデヌタ転送に勝る利点はほずんどありたせん。



私はあなたの最も安い掚薊のためにさえお金を持っおいたせん。䜕をすべきか



間違いなく䞭叀GPUを賌入する。䜿甚枈みのRTX2070$ 400およびRTX 2060$ 300で問題ありたせん。それらを買う䜙裕がない堎合、次善の遞択肢は䞭叀のGTX 1070$ 220たたはGTX 1070 Ti$ 230でしょう。それが高すぎる堎合は、䞭叀のGTX 980 Ti6GB $ 150たたはGTX 1650 Super$ 190を芋぀けおください。それも高額な堎合は、クラりドサヌビスを䜿甚するこずをお勧めしたす。それらは通垞、GPUに時間たたは電力制限を提䟛し、その埌は料金を支払う必芁がありたす。独自のGPUを賌入できるようになるたで、サヌビスを亀換したす。



2台のマシン間でプロゞェクトを䞊列化するには䜕が必芁ですか



2台のマシン間で䞊列化しお䜜業を高速化するには、50Gbps以䞊のネットワヌクカヌドが必芁です。少なくずもEDRInfiniband、぀たり少なくずも50Gbpsの速床のネットワヌクカヌドをむンストヌルするこずをお勧めしたす。eBayのケヌブル付きの2枚のEDRカヌドは、500ドルを戻したす。



堎合によっおは、10 Gbpsむヌサネットでうたくいくこずもありたすが、これは通垞、特定のタむプのニュヌラルネットワヌク特定の畳み蟌みネットワヌクたたは特定のアルゎリズムMicrosoft DeepSpeedでのみ機胜したす。



スパヌスマトリックス乗算アルゎリズムは、スパヌスマトリックスに適しおいたすか



どうやらそうではありたせん。マトリックスは4぀の芁玠ごずに2぀のれロを持぀必芁があるため、スパヌスマトリックスは適切に構造化されおいる必芁がありたす。4぀の倀を2぀の倀の圧瞮衚珟ずしお凊理するこずでアルゎリズムをわずかに埮調敎するこずはおそらく可胜ですが、これは、Ampereによるスパヌスマトリックスの正確な乗算が利甚できないこずを意味したす。



耇数のGPUを実行するにはIntelプロセッサが必芁ですか



Kaggleコンテストプロセッサに線圢代数蚈算がロヌドされおいるでプロセッサに過負荷をかけおいる堎合を陀いお、Intelプロセッサの䜿甚はお勧めしたせん。そしお、そのような競争でも、AMDプロセッサは玠晎らしいです。AMDプロセッサは、GOにずっお平均しお安䟡で優れおいたす。4-GPUビルドの堎合、Threadripperが私の決定的な遞択です。私たちの倧孊では、そのようなプロセッサをベヌスにした数十のシステムを収集しおおり、それらはすべお問題なく完党に機胜したす。GPUが8぀あるシステムの堎合、補造元が経隓したプロセッサを䜿甚したす。8カヌドシステムのプロセッサずPCIeの信頌性は、速床やコスト効率よりも重芁です。



ケヌスの圢状は冷华に重芁ですか



番号。通垞、GPU間にわずかなギャップがある堎合でも、GPUは完党に冷华されたす。ハりゞングが異なるず1〜3°Cの差が生じ、カヌドの間隔が異なるず10〜30°Cの差が生じる可胜性がありたす。䞀般的に、カヌド間に隙間があれば、冷华に問題はありたせん。ギャップがない堎合は、適切なファンブロヌファンたたは別の゜リュヌション氎冷、PCIe゚キスパンダヌが必芁です。いずれにせよ、ケヌスの皮類ずそのファンは関係ありたせん。



AMD GPU + ROCmはNVIDIAGPU + CUDAをキャッチしたすか



今埌数幎ではありたせん。 3぀の問題がありたすテン゜ルカヌネル、゜フトりェア、コミュニティ。



AMDのGPUクリスタル自䜓は優れおいたす。FP16での優れたパフォヌマンス、優れたメモリ垯域幅です。ただし、テン゜ルコアたたはそれに盞圓するものがないため、NVIDIAのGPUず比范しおパフォヌマンスが䜎䞋したす。たた、ハヌドりェアにテン゜ルコアを実装しないず、AMDGPUが競争力を持぀こずはありたせん。噂によるず、2020幎にはテン゜ルコアに類䌌したデヌタセンタヌ甚のカヌドが蚈画されおいたすが、正確なデヌタはただありたせん。サヌバヌ甚のTensorCoreず同等のカヌドしかない堎合は、AMD GPUを賌入できる人がほずんどいないこずを意味し、NVIDIAに競争力を䞎えたす。



AMDが将来テン゜ルコアのようなものを備えたハヌドりェアを導入するずしたしょう。その埌、倚くの人がこう蚀いたす。「しかし、AMD GPUで動䜜するプログラムはありたせんどうすれば䜿えたすか」これは䞻に誀解です。 ROCmを実行するAMD゜フトりェアはすでに十分に開発されおおり、PyTorchでのサポヌトは適切に線成されおいたす。たた、AMD GPU + PyTorchの動䜜に関するレポヌトはあたり芋たこずがありたせんが、すべおの゜フトりェア機胜がそこに統合されおいたす。どうやら、任意のネットワヌクを遞択しお、AMDGPUで実行できたす。したがっお、AMDはこの分野ですでに十分に開発されおおり、この問題は実質的に解決されおいたす。



しかし、゜フトりェアの問題ずテン゜ルコアの欠劂を解決した埌、AMDはもう1぀、コミュニティの欠劂に盎面しおいたす。 NVIDIA GPUで問題が発生した堎合は、Googleで解決策を怜玢しお芋぀けるこずができたす。これにより、NVIDIAGPUぞの信頌が高たりたす。 NVIDIA GPUの䜿甚を容易にするむンフラストラクチャが登堎しおいたすGOが機胜するためのあらゆるプラットフォヌム、あらゆる科孊的タスクがサポヌトされおいたす。 NVIDIA GPUたずえば、apexをはるかに簡単に䜿甚できるようにするハックやトリックがたくさんありたす。 NVIDIA GPUの専門家ずプログラマヌはすべおの茂みの䞋にいたすが、AMDGPUの専門家ははるかに少ないず思いたす。



コミュニティの芳点からは、AMDの状況はJulia察Pythonの状況ず䌌おいたす。ゞュリアには倚くの可胜性があり、倚くの人がこのプログラミング蚀語が科孊的研究により適しおいるこずを正しく指摘するでしょう。ただし、JuliaはPythonず比范しおほずんど䜿甚されたせん。Pythonコミュニティが非垞に倧きいずいうだけです。Numpy、SciPy、Pandasなどの匷力なパッケヌゞの呚りにはたくさんの人が集たっおいたす。この状況は、NVIDIAずAMDの状況に䌌おいたす。



したがっお、AMDがNVIDIAに远い぀くのは、テン゜ルコアに盞圓するものずROCmを䞭心に構築された匷固なコミュニティが導入されるたでです。AMDは、垞に特定のサブグルヌプ暗号通貚マむニング、デヌタセンタヌで垂堎シェアを獲埗したす。しかし、NVIDIAはおそらくさらに2幎間独占を維持するでしょう。



クラりドサヌビスを䜿甚する方がよいのはい぀ですか。専甚のGPUコンピュヌタヌはい぀ですか。



簡単なルヌル1幎以䞊GOを実行する予定の堎合は、GPUを搭茉したコンピュヌタヌを賌入する方が安䟡です。それ以倖の堎合は、クラりドプログラミングの豊富な経隓があり、GPUの数を自由にスケヌリングできるようにしたい堎合を陀いお、クラりドサヌビスを䜿甚するこずをお勧めしたす。



クラりドGPUが自分のコンピュヌタヌよりも高䟡になる正確な転換点は、䜿甚するサヌビスに倧きく䟝存したす。自分で蚈算するこずをお勧めしたす。以䞋は、1぀のV100を備えたAWS V100サヌバヌの蚈算䟋であり、パフォヌマンスが近い1぀のRTX3090を備えたデスクトップコンピュヌタヌのコストず比范しおいたす。 RTX 3090 PCの䟡栌は2200ドル2-GPUベアボヌン+ RTX 3090です。米囜にいる堎合は、電気甚にkWhあたり0.12ドルを远加したす。これを、AWSのサヌバヌあたり1時間あたり2.14ドルず比范しおください。



幎間15のリサむクルで、コンピュヌタヌは



350 WGPU+ 100 WCPU* 0.15リサむクル* 24時間* 365日= 591 kWh /幎を䜿甚したす。



幎間591kWhは、さらに71ドルを提䟛したす。



コンピュヌタヌずクラりドの䟡栌を15の䜿甚率で比范するず、転換点は300日目あたりになりたす2,311ドル察2,270ドル



2.14ドル/時間* 0.15リサむクル* 24時間* 300日= 2,311ドル



蚈算するず、 GOモデルの寿呜が300日を超える堎合は、AWSを䜿甚するよりもコンピュヌタヌを賌入するこずをお勧めしたす。



コンピュヌタずクラりドのどちらを䜿甚するかを決定するために、任意のクラりドサヌビスに察しお同様の蚈算を行うこずができたす。



蚈算胜力の利甚に関する䞀般的な数倀は次のずおりです。



  • PhDコンピュヌタヌ<15;
  • PhD SlurmのGPUクラスタヌ> 35
  • Slurmの䌁業研究クラスタヌ> 60。


䞀般に、実甚的な゜リュヌションを開発するよりも最先端のアむデアを考えるこずが重芁な分野では、リサむクル率が䜎くなりたす。䞀郚の領域では䜿甚率が䜎く解釈可胜性の調査、他の領域でははるかに高くなっおいたす機械倉換、蚀語モデリング。䞀般的に、自家甚車のリサむクルは垞に過倧評䟡されおいたす。通垞、ほずんどのパヌ゜ナルシステムは5〜10リサむクルされたす。したがっお、研究チヌムや䌁業は、個別のデスクトップではなく、SlurmでGPUクラスタヌを線成するこずを匷くお勧めしたす。



怠惰すぎお読めない人のためのヒント



党䜓的に最高のGPURTX 3080およびRTX3090。



避けるべきGPU研究者ずしおTeslaカヌド、Quadro、Founders Edition、Titan RTX、Titan V、TitanXP 。



優れたパフォヌマンス/䟡栌比、しかし高䟡RTX3080。



優れたパフォヌマンス/䟡栌比、より安いRTX 3070、RTX2060スヌパヌ。



お金が少ない䞭叀カヌドを買う。階局RTX 2070$ 400、RTX 2060$ 300、GTX 1070$ 220、GTX 1070 Ti$ 230、GTX 1650 Super$ 190、GTX 980 Ti6GB $ 150。



私にはほずんどお金がありたせん。倚くのスタヌトアップがクラりドサヌビスを宣䌝しおいたす。クラりドで無料のクレゞットを䜿甚し、GPUを賌入できるようになるたでサヌクルで倉曎したす。



Kaggleコンペティションに参加したすRTX3070。



コンピュヌタヌビゞョン、事前孊習、たたは機械倉換で競争に勝ずうずしおいたす4個のRTX3090。ただし、十分な冷华ず十分な電力を備えたアセンブリがあるこずを専門家が確認するたで埅ちたす。



私は自然な蚀語凊理を孊んでいたす。機械翻蚳、蚀語モデリング、たたは事前孊習に興味がない堎合は、RTX3080で十分です。



私はGOを始めお、本圓にそれに倢䞭になりたした。RTX3070から始めたす。6〜9か月で飜きない堎合は、4぀のRTX 3080を販売および賌入したす。次に遞択するもの起動、Kaggle、調査、適甚GOに応じお、数幎3぀で、GPUを販売し、より良いもの次䞖代RTX GPUを賌入したす。



GOを詊したいのですが、真剣な意図はありたせん。RTX2060Superは優れた遞択肢ですが、PSUの亀換が必芁になる堎合がありたす。マザヌボヌドにPCIex16スロットがあり、PSUが玄300ワットを生成する堎合、GTX 1050 Tiは他の投資を必芁ずしないため、優れたオプションになりたす。



128 GPU未満の䞊列シミュレヌション甚のGPUクラスタヌクラスタヌ甚にRTXを賌入できる堎合668x RTX 3080および338x RTX 3090アセンブリを十分に冷华できる堎合のみ。冷华が䞍十分な堎合は、33RTX 6000GPUたたは8xTeslaA100を賌入しおください。 RTX GPUを賌入できない堎合は、8぀のSupermicroA100ノヌドたたは8぀のRTX6000ノヌドを遞択したす



。128を超えるGPUを䜿甚した䞊列シミュレヌション甚のGPUクラスタヌ8テスラA100の車に぀いお考えおみおください。512を超えるGPUが必芁な堎合は、DGX A100SuperPODシステムを怜蚎しおください。



All Articles