EPAMは長い間データを扱ってきましたが、ビッグデータプロジェクトを利用した最初の大口顧客は2001年に登場しました。当時、有名な分析会社であるGartnerとForrester、および主要ベンダーであるOracle、Microsoft、IBMは、これらのテクノロジーは大量のデータの処理に関連するすべての分野で不可欠であるため、企業はビッグデータに移行する必要があると述べました。それ以来、EPAMの専門家チームは着実に成長し、ますます複雑化するプロジェクトに取り組み、ビッグデータを処理するための実証済みのソリューションと高品質の製品を提供しています。今日、ロシアのEPAMでのみ、500人以上がデータの実践に携わっています。すべてがどのように始まったか、どのプロジェクトに出会ったか、どのような失敗が起こったか、どのデータスペシャリストが準備すべきか、どのような種類のデータスペシャリストがいるかについてロシアのEPAMデータプラクティスの責任者と話をしました-イリヤ・ゲラシモフ。
キャリア
データの方向性にたどり着いた経緯を教えてください
2006年に.NETおよびMSSQL Serverのジュニア開発者としてEPAMに参加しました。それ以前は、製品会社に勤務し、ホテルやレストランを自動化するためのソフトウェアを開発するチームリーダーを務めていました。しかし、EPAMでは、キャリアをゼロから始めました。2013年までに、私はチームリーダーに成長し、EPAMでの開発の新しい機会を探していました。このとき、ミンスクのSECで、ビッグデータコンピテンシーセンターの責任者と会いました。この地域はロシアで開発されるべきです。
それから私達の2つか3つがありました。他の国の同僚が私たちを助け、コースを提供し、この分野に関連するさまざまな活動に参加してくれました。たくさん勉強して、得た知識を広めなければなりませんでした。
なぜそんなに長い間会社で働いているのですか?
Data , - . , , . - — , .
Data?
— Data, Data. :)
Data-?
Data-: Data Science, Machine Learning, Business Intelligence, Enterprise Search, DevOps in Data, Data Quality, Business Data Analysis. 500 — .
. «» , «» .
Data- Data governance, .. , , , . , , , ..
— .
, , . , — , , , Data Science .
, , ,
2013-2014 , - , , , , Data Science.
, Scala , DevOps, , . , , , .
?
. , . Java, Python, DevOps- .
« », , . , 2012 — , . , , , . , . , , , , -, EPAM.
— Data Analytics, , Data Engineering, Data Science , — EPAM.
, , . — , .
? ?
, - , - , - , . , . , . . Cadence, , , , , , .
, Reinforcement Learning. . 2- , . , . , , Reinforcement Learning. , , , .
« », Data-. . , , «» . , « » — . , , , . , , Theano, TensorFlow, Theano - .
Apache , , — Spark, Cassandra, Elasticsearch .
Yarn, HDFS, MapReduce, Hive, Kafka, ZooKeeper — , . Hadoop , , , , .
— Amazon, Microsoft Azure, GCP — Hadoop, .
, Kerberos, Knox, Ranger.
, NoSQL NewSQL — Cassandra, ( ), Snowflake, Amazon Redshift, HBase, MongoDB, Teradata.
DevOps — Kubernetes, Docker, Jenkins.
: Power BI, Tableau, QlikView.
Data Science , TensorFlow Google BERT ( « », ), PyTorch, Keras.
Streaming. Streaming Data, — Spark Streaming, Kafka Streams, Apache Flink, Apache Storm.
.
SQL ( ), DWH ( — , , Data Vault, ..), ( , , , ), , DWH, Data Mart, Data Lake.
, . , AWS, Azure, GCP.
, ETL ( ) ETL ELT, , , slowly changed dimension. ETL (PL/SQL, T-SQL, pgSQL, Python, Spark), (, Airflow), , , (Talend, Informatica Power Center, Pentaho, etc.).
(Data Analytics and Visualization), 2- (Power BI, Tableau, TIBCO Spotfire, MicroStrategy, Pentaho, ..) (, Storytelling).
- ?
Apache — Spark, NiFi, Elasticsearch . . , , — - Open Source .
, Open Source , , Open Data Analytics Hub (ODAHU) , ML .
?
- , Data — , . (blueprint) . , , . , , , , .
blueprint - , , , , Data Scientists, , ..
?
, , , e-commerce, , , Life Science — , -. , , blueprints , .
, , , . , , .
2020 ?
, , XXI . 2020 , (late majority), , .
, : , ?
, , , . , , , .
, , Data, Java, Scala Python.
- EPAM , Data Engineering, Data Science, BI, Python , .
, Data EPAM?
. , Data — Java, Scala Python (, ), SQL, , , , DevOps- , Machine Learning .