天文学者は通常どのように機能しますか?彼らは天文台に望遠鏡を使用する日時に同意し、指定された日に観察を行い、収集したデータをアップロードします。しかし、望遠鏡がますます有用な情報を生成するという事実のために、従来の方法は機能しなくなります。そして、科学者たちはクラウド技術を使用することで解決策を見つけました。 Cloud4Yは、Stargazerが現在どのように機能するかを説明しています。
チリのベラルービン天文台は、1泊あたり20テラバイトのデータを収集できます。これは主にその良い場所によるものです。研究用広角ミラー望遠鏡は、エルペニョンの頂上(チリ北部)の標高2715mにあります。望遠鏡のデザインは、直径3.5度または9.6平方度という非常に広い視野を持っているという点で独特です。比較すると、太陽と月の両方が、水平方向に0.5°または0.2平方度のオブジェクトとして地球から見えます。大口径と相まって、非常に高い収集力が得られます。言い換えれば、望遠鏡は空の広大な領域から同時にデータを取得することができます。 「エンジニアリング」の最初のライトは、システム全体である2021年5月に受信され、2021年10月に、そして2022年10月にフル稼働を開始する予定です。
20テラバイトは、宇宙の最も詳細な3Dマップを提供し、2000年から2010年までのすべてのデータを収集するSloan Digital SkySurveyとほぼ同じです。しかし、それだけではありません。平方キロメートルアレイプロジェクト(それは2028年に最大容量に達した場合)、2020年に作業を開始することによるもので、1日2ペタバイトに、100倍、この体積を増加させます。そして、観測所の長によると、次世代機器(ngVLA)は、数百ペタバイトを生成します。
このような大量のデータを処理することは容易ではありません。それらをダウンロードしてどこかに保存することはできません。また、ローカルコンピューティングリソースのサポートを作成するのはコストがかかりすぎます。いくつかの見積もりによると、ITインフラストラクチャをゼロから編成し、Vera Rubin Observatoryをサポートするために必要なスタッフを維持するためのコストは、10年間で1億5000万ドルに達する可能性があります。そのため、チリの天文学者は、同僚の多くと同様に、雲に目を向けました。そして、ここに彼らがすでに引き出した結論があります。
計算能力への投資は科学にとって良いことです
データをクラウドに移動するだけでは不十分です。研究者はデータと対話できる必要があります。従来の作業モデルの代わりに、天文学者がデータをコンピューターに転送するときに、クラウドで利用可能なデータを処理するためにコードをダウンロードするようになりました。天文台の科学プラットフォーム(Python、Julia、RなどでプログラミングするためのJupyterノートブック、データを分析、表示、検索するためのアプリケーションプログラミングインターフェイス(API))へのオンラインアクセスが利用できるため、ユーザーはすべてのリモート分析用のPythonコードを記述して実行できます。イリノイ州アーバナのスーパーコンピューティングアプリケーション国立センターでホストされているサーバー上の天文台データセット。また、コンピュータに何もダウンロードする必要はありません。
科学の他の分野では、このアプローチは非常に効果的です。たとえば、地球科学のビッグデータ分析プラットフォームであるPangeoプロジェクトは、ペタバイトの気候データを公開して計算できるようにし、研究者の共同作業を容易にしました。
大きなデータがなくても便利
メリーランド州ボルチモアで宇宙望遠鏡を使用しているEvelinaMomchevaは、中規模のデータのみを使用するプロジェクトがクラウドコンピューティングの恩恵を受けているケースに遭遇したと述べています。研究者がラップトップのパフォーマンスよりもはるかに優れたリソースにアクセスできたからです。そして、重要なことは、比較的低コストです。また、一部のクラウドプロバイダーは、教育目的で無料のリソースを提供しています。
2015年、Momchevaと彼女の同僚は、3D-HSTプロジェクト用に8コアのサーバーしか持っていませんでした。このサーバーは、ハッブル宇宙望遠鏡からのデータを分析して、遠方の宇宙で銀河を形作る力を理解しました。リソースが不足していて、彼らは雲に目を向けました5台の32コアマシンを使用します。どうして?しかし、予備的な計算の結果、私たち自身のマシンでの分析には少なくとも3か月かかることが判明したためです。クラウドプロバイダーの場合、5日で1,000ドル未満でした。」
価格がすべてではありません
クラウドサービスが自社のITインフラストラクチャと比較して安価であるかどうかについての論争は、それらが沈静化したとしても、すぐには起こりません。双方は強い議論を持っています。たとえば、クラウドコンピューティングに関する米国エネルギーマゼラン省の2011年のレポートでは、同省のコンピューティングセンターは一般的にクラウドサービスをレンタルするよりも安価であると結論付けています。しかし、それ以来、橋の下にはたくさんの水が流れ、技術は劇的に変化しました。
ワシントン大学によると、クラウドサービスでの作業を最適化することで、これらの違いを平準化できます。研究者たちは、数か月の作業とコストの最適化の後、43ドルのクラウド実験がわずか6ドルであることを証明することができました。彼らはまた、独自のリソースを使用して同等の時間で同じタスクを完了すると、チームに約75,000ドル(ハードウェア、電気、スタッフの賃金)の費用がかかり、サーバーは3年間87%の時間アクティブである必要があると計算しました。
時間を節約することは、意思決定に影響を与えることがよくあります。 ITインフラストラクチャがデータを処理するのに9か月かかり、クラウドが1か月しかかからず、ほぼ同じ金額である場合、その8か月の違いは非常に興味深いものになります。
天文学者は、一方に渡るつもりはないと言います。それどころか、日常のタスクにローカルインフラストラクチャを使用し、複雑なコンピューティングに「クラウド」を使用することは、多くの研究センターにとって最適なモデルです。
データ統合は新しい視野を開きます
天文学者が非常に気に入っているもう1つの点は、複数の大きなデータセットを組み合わせる機能です。それらの組み合わせは、各セットで個別に明らかではないいくつかの情報を提供できます。つまり、天文学者が収集する情報が多ければ多いほど、それはより有用になります。NIHデータコモンズ
プロジェクトに触発、科学者が生物医学および行動データとソフトウェアを保存および交換する場合、研究者は天文学データコモンズを作成することを計画しています。ワシントン大学の科学者は、Zwicky Transient Facilityと呼ばれる1つのデータセットをすでに公開しています。これには、約20億の天体の1,000億の観測値が含まれています。この作業が有用である場合、他の天文学者がそれに続くかもしれません。次に、天文学的なエコシステム全体が作成されます。その可能性は夢にしか見られません。
クラウドに行くだけでは十分ではありません、あなたはそれを使用する方法を知る必要があります
クラウド内のデータを操作するには、ユーザーはアカウントを作成し、情報を操作するための多くのオプションの1つを選択し、独自の(多くの場合自作またはカスタムメイドの)ソフトウェアをインストールする必要があります。さらに、ソフトウェアが複数のマシンで同時に実行できるようにすべてを構成します。間違いは避けられず、研究者に多大な損害を与え、クラウドテクノロジーへの関心を落とす可能性があります。不十分な大学院生が数千時間のCPU時間を無駄に「燃やした」というケースがありました。したがって、科学者は最初に「猫で」訓練し、独自のインフラストラクチャを使用して小規模なパイロットプロジェクトを開始することをお勧めします。
安全要件を忘れないことも重要です。クラウドのプライバシーとセキュリティはオンプレミスのリソースよりも優れていますが、クラウドインフラストラクチャの設定は難しい場合があります。そして、経験の浅いプログラマーの間違いは、あなたのデータが全世界で利用可能になるという事実につながります。独自のITパークを使用する場合、このような問題はより厳密に管理されます。また、クラウドでは、プロバイダーの技術専門家の推奨に耳を傾けないと、簡単に失敗します。
一般に、星のシステムを研究し、宇宙の形成のモデルを構築し、「データレイク」を保存するためにクラウドリソースを使用したいという天文学者の願望は理解できます。ヘビーコンピューティングは、データセンターの機器に翻弄されてきました。クラウドプラットフォームは科学とビジネスを大きく変革し、人間の思考を発達させるための重要なツールになりました。主なことは、このツールを正しく使用することです。Cloud4Y
ブログ
→ 「自分でやる」、またはユーゴスラビアのコンピューター
→米国国務省が独自の優れたファイアウォールを作成する
→人工知能が革命について歌う
→宇宙の幾何学は何ですか?
→スイスの地形図上のイースターエッグ
別の記事を見逃さないよう に、テレグラムチャネルに登録してください。私たちは週に2回以下、ビジネスについてのみ書いています。