パーソナルコンピュータ(ラップトップ)のノートブックのエレガントなトリックは、優れていて興味深いものです。しかし、生産的なループでコードを実行することになるとすぐに、多くの制限がすぐに次の形式で表示されます。
- 利用可能な鉄の量;
- 性能要件;
- 安定;
- IS要件への準拠。
- …(味にスパイスを加える)。
今日のロシアでは、Python言語がデータサイエンスタスクの「銀の弾丸」として位置付けられるような段階があります。そのような論文は、PythonでDSのコースを販売している人々によって提唱されたようです。そして、フライホイールが行きました。一般に、これはごく普通のことです。物理的な世界のほとんどすべてのプロセスは振動的です。
しかし、それにもかかわらず、この誇大宣伝では、彼らは少し過小評価されています。Pythonには、基本的なDSタスクであっても、多くの厄介な瞬間があり、生産的な回路での使用が非常に複雑になります。
問題1
この問題の名前はBlockManager
です。これは、アーキテクチャの柱の1つですpandas
。次の事実に表向きに現れます:
- メモリは「それ自体にないかのように」消費します。
- コードの実行時間は、インタープリターの以前の状態と操作のシーケンスに依存し、数桁異なる場合があります。
, . .
, , :
- 'The one pandas internal I teach all my new colleagues: the BlockManager';
-
BlockManager
pandas
Wes McKinney 'What is BlockManager and why does it exist?'; - Wes McKinney 'Apache Arrow and the "10 Things I Hate About pandas"'.
2
pandas
+ sql
/spark
( — ) data.table
+ Clickhouse
( data.frame
). Database-like ops benchmark. , .
3
Story-telling . Literate Programming. . python
, , Rmarkdown
.
私たちのトレンドは、hh.ruの空席のコースと要件によって形成されていることは明らかです。しかし、企業の実際的な問題の解決について話す場合、R
+バンドルを使用するClickhouse
方がはるかに有益であることがわかります。このクリップgolang
に追加することもできます。これも優れたツールです。
フィン、ナパーム弾を取り出してください。

以前の出版物- 「R、モンテカルロおよびエンタープライズの問題、パート2」。