こんにちは、Habr!コース「エコシステムハドゥープ、スパーク、ハイブ」の開始を見越して、役立つ記事の翻訳を用意しました。また、「Spark 3.0:What's New?」というトピックに関するデモレッスンの無料録音を視聴することもできます。..。
私たちはあなたのサイトに最適なエグゼキュータの構成を探しています
ノードあたりのCPU数
パフォーマー(executor)の最適な構成を決定する最初のステップ-クラスター内のノード(node)で使用可能な実際のCPU(つまり、仮想CPUではない)の量を確認します。これを行うには、クラスターが使用しているEC2インスタンスのタイプを確認する必要があります。この記事では、AWSEC2インスタンス用に16プロセッサで販売されているr5.4xlargeを使用します。
(job), (Cluster Manager). 16 . , Spark , 15 .

, , , , (core) Spark . (X * Y = 15), , , 15 Spark :

.

, , - 15 . , , , , , (64 +), . .

, — 15 , . , , , . , . .

10% 384 MB ( , ). big data , Qubole, , . , «Environments» Spark spark.executor.memoryOverhead.
Spark , . , , , . , , .

, . Spark , 5 — . , , , . , . , .
--executor-cores 5— , . , , . , — . , EC2 , , , . r5.4xlarge AWS , 128 .


, 112 .
, 112 , . , 3. .
( Qubole), . (112/3) = 37–2,3 = 34,7 = 34.
Spark , . (112/3) = 37 / 1,1 = 33,6 = 33.
Qubole.
--executor-memory 34G, Spark . . , Spark Spark. , , , . , , 2, . , , , — , .
, , EC2, . , , .
. , , 5.
, , , . , - , 15 , , , . 3, .
. . , 3, 16- , , 14 . !
, , , 3 , .
--num-executors (3x - 1)4 , .
data- . AWS , . , .
--driver-memory 34G, , , . 2 , (3x - 2), .
. , , 500 Spark, , . . , , .
--driver-cores 5?
, , 16 128 , .
--driver-memory 34G --executor-memory 34G --num-executors (3x - 1) --executor-cores 5:
— , .
, . . , , , .
, , Expedia Group ™, . , , , .
, , . ? ? , , ? - ? 4: « Apache Spark ».