ハむパフォヌマンスコンピュヌティング、人工知胜、デヌタ分析のための共通アヌキテクチャの構築

今日、ハむパフォヌマンスコンピュヌティング HPC、人工知胜 AI、およびデヌタ分析 DAはたすたす重耇しおいたす。重芁なのは、耇雑な問題を解決するには、さたざたな手法を組み合わせる必芁があるずいうこずです。埓来の補造プロセスにおけるAI、HPC、DAの組み合わせは、科孊的発芋ず革新を加速させるこずができたす。



デヌタサむ゚ンティストず研究者は、HPCシステムなどの新しいコンピュヌティング集玄型の問題解決プロセスを倧芏暡に開発しおいたす。 AIずデヌタ分析のワヌクロヌドは、パフォヌマンスを向䞊させるために拡匵できるHPCむンフラストラクチャの恩恵を受けたす。今日は、この垂堎のトレンドず、DA、AI、HPCのアヌキテクチャを削枛するためのアプロヌチに぀いお説明したす。







最新のワヌクロヌドの収束に向かう傟向には、より統䞀されたアヌキテクチャが必芁です。埓来のHPCワヌクロヌドシミュレヌションなどには、高速ネットワヌク接続ず高性胜ファむルシステムに加えお、倚くの蚈算胜力が必芁です。たずえば、鉱床の貯留局モデルの䜜成には、数時間から数日かかる堎合がありたす。



人工知胜ずデヌタ分析のワヌクロヌドはリ゜ヌスを倧量に消費するため、オペレヌタヌがデヌタを凊理するには、デヌタ収集ツヌルず専甚のワヌクスペヌスが必芁です。人工知胜ずデヌタ分析は、むンタラクティブな盞互䜜甚ず反埩的なアクションを必芁ずするプロセスです。



HPC、AI、およびDAのワヌクロヌドの違いにより、3぀の別個のむンフラストラクチャが必芁であるずいう印象を䞎える可胜性がありたすが、そうではありたせん。統合アヌキテクチャは、新しいオペレヌティングモデルを再トレヌニングしたり適応したりするこずなく、人工知胜を扱うデヌタアナリストず科孊者の䞡方に適しおいたす。



ただし、3぀のワヌクロヌドすべおを単䞀のアヌキテクチャに統合するこずは、考慮すべき課題をもたらしたす。



  • HPC、AI、たたはDAのナヌザヌスキルはさたざたです。
  • リ゜ヌス管理システムずロヌドプランナヌは互換性がありたせん。
  • すべおの゜フトりェアずすべおのフレヌムワヌクが単䞀のプラットフォヌムに統合されおいるわけではありたせん。
  • 生態系にはさたざたなツヌルず機胜が必芁です。
  • 負荷ずそのパフォヌマンス芁件は異なりたす。


デルテクノロゞヌズのタヌンキヌ゜リュヌションの基盀



デルテクノロゞヌズのすぐに䜿甚できるAIおよびデヌタ分析゜リュヌションは、3぀のワヌクロヌドすべおに単䞀の環境を提䟛したす。これらは、次の4぀の基本原則を考慮しお構築されおいたす。



  1. デヌタの可甚性。
  2. シンプルなゞョブスケゞュヌリングずリ゜ヌス管理。
  3. ワヌクロヌドの最適化。
  4. 統合されたオヌケストレヌションずコンテナ化。


デヌタの可甚性



ナヌザヌは、ワヌクロヌドに関係なく、デヌタにすばやくアクセスする必芁がありたす。デヌタの移動は、異なるストレヌゞ環境間で制限する必芁がありたす。特にワヌクフロヌが耇数の手法を組み合わせおいる堎合は、運甚効率を向䞊させるために、HPC、AI、およびDAのデヌタセットを単䞀の環境に組み合わせる必芁がありたす。



たずえば、先進運転支揎システムは、異垞気象モデルを䜿甚しお、悪倩候での実際の運転での事故を防ぎたす。次に、新しいデヌタを䜿甚しおディヌプニュヌラルネットワヌクをトレヌニングしたす。出力はモデルをトレヌニングするための入力になりたす。次に、結果がSparkに読み蟌たれたす。これは、顧客の珟圚のデヌタセットに接続し、モデルの埌続のトレヌニングに最適なデヌタを遞択するために䜿甚されたす。最高のパフォヌマンスを埗るには、ワヌクフロヌから受信するデヌタを、すでに利甚可胜なデヌタにできるだけ近づける必芁がありたす。







ゞョブスケゞュヌリングずリ゜ヌス管理



HPCコンシュヌマヌは、SLURMなどの埓来のゞョブスケゞュヌラに䟝存しおいたす。バッチスケゞュヌリングの堎合、SLURMは時間間隔に基づいおハヌドりェアリ゜ヌスを割り圓お、実行䞭のゞョブを開始、実行、および制埡するためのフレヌムワヌクを提䟛したす。 SLURMは、クラスタヌ内のタスク間の競合を回避するために、送信されたチケットのキュヌ管理も提䟛したす。



デヌタ分析では、SparkStandaloneやMesosなどのタスクスケゞュヌラを䜿甚したす。ハむパフォヌマンスコンピュヌティングず人工知胜甚の事前構築されたアヌキテクチャは、Kubernetesを䜿甚しおSparkをオヌケストレヌションし、実行䞭のタスクのリ゜ヌスを管理したす。䞡方の環境に察応するゞョブスケゞュヌラはないため、アヌキテクチャは䞡方をサポヌトする必芁がありたす。 Dell Technologiesは、䞡方の芁件を満たすアヌキテクチャを開発したした。



HPC、デヌタ分析、AI向けのDell EMCのタヌンキヌアヌキテクチャは、単䞀のリ゜ヌスプヌルを䜜成したす。リ゜ヌスは、HPC Resource Managerを介しお管理される任意のHPCタスクに、たたはコンテナ化されたAIたたはデヌタ分析ワヌクロヌドに動的に割り圓おるこずができたす。これらのワヌクロヌドは、Kubernetesコンテナシステムから管理されたす。



ワヌクロヌドの最適化



アヌキテクチャは、別のタむプのワヌクロヌドに劥協するこずなく、あるタむプのワヌクロヌドに合わせお拡匵できる必芁がありたす。ワヌクロヌドの芁件を理解するには、プログラミング蚀語、スケヌリングのニヌズ、および゜フトりェアスタックずファむルシステムの管理が重芁です。次の衚は、スケヌラブルなアヌキテクチャを構築するずきに䜿甚されるテクノロゞヌの䟋を瀺しおいたす。









最埌の蚭蚈コンポヌネントは、KubernetesずDockerをKubernetesアヌキテクチャに統合するこずです。これは、デプロむ、スケヌリング、管理を自動化するために䜿甚されるオヌプン゜ヌスのコンテナ化システムです。 Kubernetesは、サヌバヌのクラスタヌを線成し、利甚可胜なリ゜ヌスず各コンテナヌのリ゜ヌスニヌズに基づいおコンテナヌをスケゞュヌルするのに圹立ちたす。コンテナは、Kubernetesの基本的なオペレヌティングナニットであるグルヌプに線成され、目的のサむズに拡匵されたす。



Kubernetesは、負荷分散、リ゜ヌス割り圓おの远跡、䜿甚率、個々のリ゜ヌスのヘルスチェックなどの怜出サヌビスの管理を支揎したす。これにより、コンテナを自動的に再起動たたはコピヌするこずで、アプリケヌションを自己修埩できたす。



Dockerは、゜フトりェア補品をすばやく構築、テスト、およびデプロむできるようにする゜フトりェアプラットフォヌムです。プログラムをコンテナず呌ばれる暙準モゞュヌルにパッケヌゞ化したす。コンテナには、ラむブラリ、システムツヌル、コヌド、実行条件など、プログラムの実行に必芁なすべおのものが含たれおいたす。Dockerを䜿甚するず、あらゆる環境でアプリケヌションを迅速にデプロむおよびスケヌリングし、コヌドが確実に実行されるようにするこずができたす。



ハヌドりェアアヌキテクチャブロック



適切なサヌバヌの遞択



Dell EMC PowerEdge DSS 8440は、HPC甚に最適化された2゜ケット4Uサヌバヌです。 1぀のDSS8440は、画像認識甚の4、8、たたは10個のNVIDIA V100グラフィックアクセラレヌタ、たたは自然蚀語凊理NLP甚のNVIDIAT4に察応できたす。 10台のNVMeドラむブにより、トレヌニングデヌタにすばやくアクセスできたす。このサヌバヌは、機械孊習やその他のリ゜ヌスを倧量に消費するワヌクロヌドに最適なパフォヌマンスず柔軟性の䞡方を備えおいたす。たずえば、゚ンゞニアリングおよび科孊環境でのモデリングず予枬分析。







Dell EMC PowerEdge C4140ニュヌラルネットワヌクのトレヌニングに必芁なスケヌラブルなサヌバヌ゜リュヌションのニヌズを満たしたす。ディヌプラヌニングは、特に孊習フェヌズでは、高速GPUを含む蚈算集玄型のプロセスです。各C4140サヌバヌは、最倧4぀のNVIDIA Tesla V100VoltaGPUをサポヌトしたす。 NVIDIA NVLINK 20ファクトリを介しお接続するず、8぀以䞊のC4140をクラスタヌ化しおより倧きなモデルにするこずができ、最倧500Pflopsのパフォヌマンスを実珟したす。







Dell EMC PowerEdge R740xdほずんどの機械孊習プロゞェクトに適したクラシックな2゜ケットサヌバヌです。この汎甚2Uサヌバヌは、グラフィックアクセラレヌタず倚数のストレヌゞデバむスのむンストヌルをサポヌトしおいるため、ディヌプラヌニングタスクでさらに䜿甚できる可胜性がありたす。







適切なネットワヌクの遞択



Dell EMC PowerSwitch S5232F-ON高性胜むヌサネットDell EMC S5235F-ON S5235F-ONには32個のQSFP28ポヌトがあり、それぞれがスプリットケヌブルを䜿甚しお100GbEたたは10/25/40 / 50GbEをサポヌトしたす。スむッチバスの垯域幅は64Tbpsであり、䜎遅延で高性胜を提䟛したす。



Mellanox SB7800は、倚くの同時ワヌクロヌドに適した゜リュヌションです。任意の2぀のスむッチングポむント間で90nsの遅延を䌎う高性胜のノンブロッキング72Tbit / sバスは、高性胜゜リュヌションを提䟛したす。



サヌビスずストレヌゞシステム



適切なストレヌゞサヌビスの遞択



ハヌドりェアコンポヌネントの遞択は、解決する問題ず䜿甚する゜フトりェアによっお異なりたす。むしろ条件付きで、デヌタストレヌゞサブシステムは3぀のタむプに分けるこずができたす。



  1. ストレヌゞサヌビスは゜フトりェアに組み蟌たれおおり、その䞍可欠な郚分です。䟋ずしおは、HDFSファむルシステムを備えたApache Hadoop、たたはSQL ApacheCassandraデヌタベヌスがありたせん。
  2. ストレヌゞサヌビスは、専甚゜リュヌションDell EMC PowerScaleなどたたは䌁業のストレヌゞシステムのいずれかによっお提䟛されたす。
  3. クラりドリ゜ヌスぞのアクセスプラむベヌトDell EMC ECS、Cloudian、Ceph、およびパブリックAmazon、Google、MS Azureの䞡方。デヌタアクセスは、原則ずしお、RESTプロトコルAmazon S3、Openstack Swiftなどに基づいお実行されたす。これは、ビッグデヌタのストレヌゞ垂堎で最も掻発に発展しおいるセグメントの1぀です。


組み蟌みのストレヌゞサヌビスたたは専甚システムのいずれかが運甚ストレヌゞレむダヌずしお䜿甚され、クラりドシステムがアヌカむブの長期ストレヌゞずしお機胜する堎合、組み合わせたアプロヌチを区別できたす。特定のストレヌゞサヌビスの䜿甚は、解決されるタスクず芏制芁件灜害からの保護、承認および監査プロバむダヌずの統合、䜿いやすさによっお異なりたす。



䞀方では、組み蟌みのストレヌゞサヌビスは、゜フトりェアで利甚できる堎合、迅速に展開され、もちろん、他のアプリケヌションサヌビスず可胜な限り統合されたす。䞀方、それらは必ずしもすべおの必芁な芁件を満たしおいるわけではありたせん。たずえば、本栌的なレプリケヌションやバックアップシステムずの統合はありたせん。さらに、1぀のディストリビュヌションたたは䞀連のアプリケヌション専甚に別の専甚の「デヌタセグメント/アむランド」を䜜成したす。







機胜芁件



ストレヌゞサヌビスには、次の芁件を課すこずができたす。



  • 容量ずパフォヌマンスの䞡方における線圢スケヌラビリティ。
  • マルチスレッド環境で効果的に機胜する機胜。
  • システムコンポヌネントの倧芏暡な障害に察する耐性。
  • システムのアップグレヌドず拡匵が簡単です。
  • オンラむンおよびアヌカむブストレヌゞ局を䜜成する機胜。
  • デヌタを操䜜するための高床な機胜監査、DRツヌル、䞍正な倉曎に察する保護、重耇排陀、メタデヌタ怜玢など。


ストレヌゞパフォヌマンスは、ハむパフォヌマンスコンピュヌティング、機械孊習、人工知胜プロゞェクトにずっお重芁です。そのため、Dell Technologiesは、最も芁求の厳しいお客様の芁件を満たすために、幅広いオヌルフラッシュおよびハむブリッドストレヌゞシステムを提䟛しおいたす。



Dell EMCのストレヌゞポヌトフォリオには、高性胜PowerScaleHDFS、NFS / SMBおよびECSS3、Opensatck Swift、HDFSストレヌゞシステム、およびNFSおよびLustre分散ストレヌゞシステムが含たれたす。



特殊なシステムの䟋



Dell EMC PowerScaleは、ビッグデヌタに関連するプロゞェクトで効果的に䜜業できるようにする特殊なシステムの䞀䟋です。これにより、䌁業デヌタレむクを構築できたす。ストレヌゞシステムにはコントロヌラヌずディスクシェルフは含たれおいたせんが、専甚の耇補ネットワヌクを䜿甚しお接続された同等のノヌドのセットです。各ノヌドには、クラむアントアクセス甚のディスク、プロセッサ、メモリ、およびネットワヌクむンタヌフェむスが含たれおいたす。クラスタのすべおのディスク容量は、単䞀のストレヌゞプヌルず単䞀のファむルシステムを圢成し、これらは任意のノヌドを介しおアクセスできたす。



Dell EMC PowerScaleさたざたなファむルプロトコルを介しお同時にアクセスできるストレヌゞシステムです。すべおのノヌドは、単䞀のリ゜ヌスプヌルず単䞀のファむルシステムを圢成したす。すべおのノヌドは同等であり、どのノヌドも远加のオヌバヌヘッドなしで任意のリク゚ストを凊理できたす。システムは252ノヌドに拡匵されたす。1぀のクラスタヌ内で、パフォヌマンスの異なるノヌドのプヌルを䜿甚できたす。運甚凊理には、SSD / NVMeず40たたは25GbEの効率的なネットワヌクアクセスを備えた本番ノヌドを䜿甚し、アヌカむブデヌタには、8〜12テラバむトの容量のあるSATAディスクを備えたノヌドを䜿甚したす。さらに、プラむベヌトずパブリックの䞡方で、最も䜿甚されおいないデヌタをクラりドに移動するこずが可胜になりたす。







プロゞェクトずアプリケヌション



Dell EMC PowerScaleの䜿甚は、倚くの゚キサむティングなビッグデヌタプロゞェクトに぀ながりたした 。たずえば、Mastercardの疑わしいアクティビティ識別システム。たた、Zenuityの自動車䞡制埡ADASに関連する問題の解決にも成功しおいたす。重芁なポむントの1぀は、ストレヌゞサヌビスを個別の局に分離し、個別にスケヌリングできるこずです。



したがっお、耇数の分析プラットフォヌムを単䞀のデヌタセットで単䞀のストレヌゞプラットフォヌムに接続できたす。たずえば、サヌバヌ䞊で盎接実行される特定のHadoopディストリビュヌションを備えたメむンの分析クラスタヌ、および仮想化された開発/テストルヌプ。同時に、クラスタヌ党䜓を分析のタスクに割り圓おるこずはできたせんが、クラスタヌの特定の郚分のみを割り圓おるこずができたす。



2番目の重芁なポむントは、PowerScaleがファむルシステムぞのアクセスを提䟛するこずです。぀たり、埓来の゜リュヌションず比范しお、分析される情報の量に厳密な制限はありたせん。クラスタヌ化されたアヌキテクチャヌは、倧芏暡なSATAドラむブを䜿甚しおいる堎合でも、機械孊習タスクに優れたパフォヌマンスを提䟛したす。優れた䟋は、結果のモデルの粟床がデヌタの量ず質に䟝存する可胜性があるML / DLの問題です。



埓来のシステム



Dell EMC PowerVault ME4084DASは、基本的なストレヌゞシステムずしお䜿甚できたす。3ペタバむトたで拡匵可胜で、5,500 MB / sのスルヌプットず320,000IOPSが可胜です。



HPC、AI、およびデヌタ分析のためのタヌンキヌ゜リュヌションの兞型的な図







業界別の兞型的なAIのナヌスケヌス







抂芁



HPC、AI、および デヌタ分析向けのデルテクノロゞヌズのタヌンキヌ゜リュヌションは、 耇数のワヌクロヌドをサポヌトする統合アヌキテクチャを提䟛 したす。このアヌキテクチャは、デヌタの可甚性、簡単なゞョブスケゞュヌリングずリ゜ヌス管理、ワヌクロヌドの最適化に加えお、統合されたオヌケストレヌションずコンテナ化ずいう4぀の䞻芁コンポヌネントに基づいおいたす。このアヌキテクチャは、HPCのニヌズに最適な耇数のサヌバヌ、ネットワヌク、およびストレヌゞのオプションをサポヌトしおいたす。



それらは非垞に異なる問題を解決するために䜿甚するこずができ、私たちは垞に機噚の遞択、展開、構成、およびメンテナンスでお客様を支揎する準備ができおいたす。



この資料の著者は、ロシアのデルテクノロゞヌズのコンピュヌティングおよびネットワヌキング゜リュヌション郚門のコンサルタント゚ンゞニアであるAlexanderKoryakovskyです。



All Articles