機械孊習法を䜿甚した氎圧砎砕の候補井戞の遞択

画像



本日は、機械孊習以䞋、MLを甚いお氎圧砎砕HFの候補井戞の怜玢システムをどのように開発したか、そしおその結果をお䌝えしたす。なぜ油圧フラクチャリングが必芁なのか、MLがそれず䜕の関係があるのか​​、そしおなぜ私たちの経隓が石油業者だけでなく圹立぀のかを理解したしょう。



カットの䞋で、問題の詳现な説明、IT゜リュヌションの説明、メトリックの遞択、MLパむプラむンの䜜成、補品でモデルをリリヌスするためのアヌキテクチャの開発



フラクチャリングが行われる理由に぀いおは、以前の蚘事のここずここに曞いおいたす。



なぜここで機械孊習をしおいるのですか油圧フラクチャリングは、ドリルよりも安䟡ですが、それでもコストがかかりたす。たた、すべおのりェルでそれを行うこずは䞍可胜であり、効果はありたせん。専門の地質孊者が適切な堎所を探しおいたす。運営䌚瀟の数が倚い数䞇ため、遞択肢を芋萜ずしがちであり、利益を埗るこずができたせん。機械孊習を䜿甚するず、情報の分析を倧幅にスピヌドアップできたす。ただし、MLモデルの䜜成は戊いの半分にすぎたせん。それをコンスタントモヌドで動䜜させ、デヌタサヌビスに接続し、矎しいむンタヌフェむスを描画しお、ナヌザヌがアプリケヌションに入り、2回のクリックで問題を解決するのに䟿利になるようにする必芁がありたす。



石油業界から抜象化するず、すべおの䌁業で同様のタスクが解決されおいるこずがわかりたす。 誰もがしたい



A.自動化、倧芏暡なデヌタ・ストリヌムの凊理および分析を。

B.コストを削枛し、メリットを逃さないようにしたす。

C.そのようなシステムを高速か぀効率的にしたす。



この蚘事から、このようなシステムをどのように実装したか、どのツヌルを䜿甚したか、MLを本番環境に導入するずいう厄介な道のりでどのような問題が発生したかを孊びたす。私たちの経隓は、掻動の分野に関係なく、ルヌチンを自動化したいすべおの人にずっお興味深いものになるず確信しおいたす。



「埓来の」方法で氎圧砎砕甚にりェルを遞択する方法



油圧フラクチャリングの候補りェルを遞択するずき、オむルマンは圌の豊富な経隓に䟝存し、さたざたなグラフず衚を芋お、その埌、油圧フラクチャリングを実行する堎所を予枬したす。しかし、確かに、地䞋を芋るのはそれほど簡単ではないので、数千メヌトルの深さで䜕が起こっおいるのか誰も知りたせん前の蚘事でもっず読むこずができたす。 「埓来の」方法によるデヌタ分析にはかなりの人件費が必芁ですが、残念ながら、氎圧砎砕の結果を正確に予枬するこずは保蚌されたせんスポむラヌ-MLも䜿甚。



油圧フラクチャの候補りェルを特定する珟圚のプロセスを説明するず、䌁業情報システムからのりェルデヌタのアンロヌド、取埗したデヌタの凊理、専門家による分析の実斜、解決策の合意、油圧フラクチャの実斜、結果の分析の段階で構成されたす。シンプルに芋えたすが、完党ではありたせん。



画像

候補りェル



の遞択の珟圚のプロセスこの「手動」アプロヌチの䞻な欠点は、倚くのルヌチン、ボリュヌムの増加、人々が仕事に溺れ始めるこず、プロセスず方法に透明性がないこずです。



問題の定匏化



2019幎、圓瀟のデヌタ分析チヌムは、氎圧砎砕の候補井戞を遞択するための自動システムを䜜成するずいう課題に盎面したした。私たちにずっおは、すべおの井戞の状態をシミュレヌトするように聞こえたした-珟時点でそれらに油圧フラクチャリングを実行する必芁があるず仮定しお、次に、石油生産の最倧の増加によっお井戞をランク付けし、艊隊が移動するトップN井戞を遞択し、石油回収を増やすための察策を講じたす。



MLモデルを䜿甚しお、特定の井戞での氎力砎砕の実珟可胜性を瀺す指暙が圢成されたす。蚈画された氎力砎砕埌の石油生産ずこのむベントの成功です。



私たちの堎合、石油生産率は、1か月あたりの立方メヌトルで生産された石油の量です。この指暙は、液䜓流量ずりォヌタヌカットの2぀の倀に基づいお蚈算されたす。石油䌚瀟は液䜓を油ず氎の混合物ず呌んでいたす-井戞の産物であるのはこの混合物です。そしお、りォヌタヌカットは、特定の混合物の氎分含有量の割合です。砎砕埌の予想される石油生産率を蚈算するために、2぀の回垰モデルが䜿甚されたす。1぀は砎砕埌の流䜓の流量を予枬し、もう1぀はりォヌタヌカットを予枬したす。モデルデヌタによっお返される倀を䜿甚しお、石油生産予枬は次の匏を䜿甚しお蚈算されたす



画像



フラクチャリングの成功は、バむナリタヌゲット倉数です。これは、氎圧砎砕埌に埗られた石油生産率の増加の実際の倀を䜿甚しお決定されたす。ゲむンがドメむン領域の専門家によっお決定された特定のしきい倀よりも倧きい堎合、成功属性の倀は1に等しく、それ以倖の堎合はれロに等しくなりたす。したがっお、分類問題を解決するためのマヌクアップを䜜成したす。



指暙に぀いおは...指暙はビゞネスからのものであり、顧客の関心を反映しおいる必芁がありたす。機械孊習コヌスはすべお教えおくれたす。私たちの意芋では、これが機械孊習プロゞェクトの䞻な成功たたは倱敗の原因です。デヌタサむ゚ンティストのグルヌプは、モデルの品質を奜きなだけ改善できたすが、それが顧客のビゞネス䟡倀をたったく向䞊させない堎合、そのようなモデルは運呜づけられたす。結局のずころ、氎圧砎砕埌の坑井性胜パラメヌタの「物理的」予枬を備えた正確な候補を顧客が取埗するこずが重芁でした。



回垰問題に぀いおは、次のメトリックが遞択されたした。



画像



なぜ1぀のメトリックがないのか、あなたは尋ねたす-それぞれが独自の真実を反映しおいたす。平均生産率が高い分野では、MAEが倧きく、MAPEが小さくなりたす。平均生産率の䜎い分野をずるず、逆になりたす。



分類問題には、次のメトリックが遞択されたした



画像

wiki、



ROCの䞋の領域– AUC曲線wiki。



゚ラヌ



1-すべおのフィヌルドに察しお1぀のナニバヌサルモデルを構築するために発生した゚ラヌ。



デヌタセットを分析した埌、デヌタがあるフィヌルドから別のフィヌルドに倉化するこずが明らかになりたした。堆積物は原則ずしお異なる地質構造を持っおいるので、これは驚くべきこずではありたせん。

トレヌニングに利甚できるすべおのデヌタをモデルに取り蟌んで駆動するず、それ自䜓が地質構造の芏則性を明らかにするずいう私たちの仮定は倱敗したした。特定のフィヌルドのデヌタでトレヌニングされたモデルは、䜿甚可胜なすべおのフィヌルドに関する情報を䜿甚しお䜜成されたモデルよりも高い品質の予枬を瀺したした。

各フィヌルドに぀いお、さたざたな機械孊習アルゎリズムがテストされ、盞互怜蚌の結果に基づいお、MAPEが最も䜎いものが遞択されたした。



画像



間違い2-デヌタの深い理解の欠劂。



実際の物理プロセスに適した機械孊習モデルを䜜成する堎合は、このプロセスがどのように行われるかを理解しおください。



圓初、私たちのチヌムにはドメむン゚キスパヌトがいなかったため、無秩序に移動したした。残念ながら、予枬を分析するずきにモデルの゚ラヌに気付かなかったため、結果に基づいお誀った結論が導き出されたした。

間違い3-むンフラストラクチャの欠劂。



最初に、さたざたなフィヌルドずさたざたなパラメヌタ甚にさたざたなcsvファむルをダりンロヌドしたした。ある時点で、耐えられないほど倚数のファむルずモデルが蓄積されたした。すでに実斜した実隓を再珟するこずができなくなり、ファむルが倱われ、混乱が生じたした。



1.技術パヌト



今日、候補者の自動遞択システムは次のようになっおいたす。



画像



各コンポヌネントは、特定の機胜を実行する分離されたコンテナヌです。



2.1 ETL =デヌタロヌド



それはすべおデヌタから始たりたす。特に、機械孊習モデルを構築したい堎合。統合システムずしおPentahoDataIntegrationを遞択したした。



画像

倉換の1぀のスクリヌンショット



䞻な利点



  • 無料システム;
  • さたざたなデヌタ゜ヌスに接続し、デヌタストリヌムを倉換するためのコンポヌネントの幅広い遞択肢。
  • Webむンタヌフェヌスの可甚性。
  • RESTAPIを介しお管理する機胜。
  • ロギング。


䞊蚘のすべおに加えお、この補品の統合の開発においお豊富な経隓がありたす。 MLプロゞェクトでデヌタ統合が必芁なのはなぜですかデヌタセットを準備するプロセスでは、耇雑な蚈算を実装し、デヌタを単䞀の圢匏にし、「途䞭で」新しい指暙を蚈算し、時間の経過に䌎うパラメヌタの倉化などを垞に必芁ずしたす。



油圧フラクチャの各事実に぀いお、その時点での井戞の操䜜を説明する400を超えるパラメヌタがアンロヌドされたす。掻動、隣接する井戞の操䜜、および以前に実行された氎力砎砕に関する情報。さらに、デヌタ倉換ず前凊理が行われたす。



凊理されたデヌタのリポゞトリずしおPostgreSQLを遞択したした。 jsonを操䜜するためのメ゜ッドのセットがたくさんありたす。最終的なデヌタセットをこの圢匏で保存するため、これが決定的な芁因になりたした。



機械孊習プロゞェクトは、新機胜の远加による入力デヌタの絶え間ない倉化に関連付けられおいるため、Data Vaultがデヌタベヌススキヌマずしお䜿甚されたすwikiぞのリンク。このストレヌゞ蚭蚈スキヌムにより、オブゞェクトに関する新しいデヌタをすばやく远加でき、テヌブルずク゚リの敎合性に違反するこずはありたせん。



2.2デヌタおよびモデルサヌビス



必芁な指暙を組み合わせお蚈算した埌、デヌタはデヌタベヌスにアップロヌドされたす。それらはここに保存され、デヌタシンタヌがMLモデルを䜜成するためにそれらを取埗するのを埅っおいたす。このために、DataServiceがありたす。これはPythonで蚘述され、gRPCプロトコルを䜿甚するサヌビスです。これにより、デヌタセットずそのメタデヌタ機胜のタむプ、説明、デヌタセットサむズなどの取埗、予枬のロヌドずアンロヌド、トレむン/テストによるフィルタリングず分割パラメヌタヌの管理が可胜になりたす。デヌタベヌス内の予枬はjson圢匏で保存されたす。これにより、デヌタをすばやく受信し、予枬倀だけでなく、この特定の予枬に察する各機胜の圱響も保存できたす。



画像

デヌタサヌビスのサンプルプロトファむル。



モデルを䜜成したら、保存する必芁がありたす。この目的のために、ModelServiceが䜿甚されたす。これもgRPCを䜿甚しおPythonで蚘述されおいたす。このサヌビスの機胜は、モデルの保存ずロヌドに限定されたせん。さらに、メトリック、機胜の重芁性を監芖でき、新しいデヌタが衚瀺されたずきに予枬を自動的に䜜成するためのモデルずデヌタセットの接続も実装できたす。



画像

モデルサヌビスの構造は次のようになりたす。



2.3 MLモデル



ある時点で、私たちのチヌムは、自動化がMLモデルの䜜成にも圱響を䞎えるはずであるこずに気づきたした。この必芁性は、予枬を行い、仮説をテストするプロセスをスピヌドアップする必芁性によるものでした。そしお、独自のAutoMLラむブラリを開発しおパむプラむンに実装するこずを決定したした。



圓初、既補のAutoMLラむブラリを䜿甚する可胜性が怜蚎されたしたが、既存の゜リュヌションはタスクに察しお十分な柔軟性がなく、必芁なすべおの機胜を䞀床に備えおいたせんでしたワヌカヌの芁求に応じお、AutoMLに関する別の蚘事を曞くこずができたす。私たちが開発したフレヌムワヌクには、デヌタセットの前凊理、機胜の生成ず遞択に䜿甚されるクラスが含たれおいるこずに泚意しおください。機械孊習モデルずしお、これたでで最も成功したアルゎリズムのセットを䜿甚したす。xgboostからの募配ブヌストの実装、catboostラむブラリ、Sklearnからのランダムフォレスト、Pytorch䞊の完党に接続されたニュヌラルネットワヌクなど。トレヌニング埌、AutoMLは以䞋を含むsklearnパむプラむンを返したす。䞊蚘のクラス、およびMLモデル、これは、遞択したメトリックの盞互怜蚌で最良の結果を瀺したした。



モデルに加えお、特定の予枬に察する兆候の圱響に関するレポヌトが䜜成されたす。このようなレポヌトにより、地質孊者は神秘的なブラックボックスの内郚を芋るこずができたす。したがっお、AutoMLはDataServiceを䜿甚しおタグ付きデヌタセットを受け取り、トレヌニング埌、最終モデルを圢成したす。次に、テストデヌタセットをロヌドし、予枬を生成し、品質メトリックを蚈算するこずにより、モデルの品質の最終的な芋積もりを取埗できたす。最終段階では、生成されたモデルのバむナリファむル、その説明、メトリックをModelServiceにアップロヌドし、機胜の圱響に関する予枬ず情報をDataServiceに返したす。



したがっお、モデルはテストチュヌブに配眮され、補品に投入する準備が敎いたす。い぀でも、これを䜿甚しお、新しい関連デヌタに基づいお予枬を生成できたす。



2.4むンタヌフェヌス



私たちの補品の゚ンドナヌザヌは地質孊者であり、圌はどういうわけかMLモデルず察話する必芁がありたす。圌にずっお最も䟿利な方法は、専甚゜フトりェアのモゞュヌルです。実装したした。



ナヌザヌが利甚できるフロント゚ンドはオンラむンストアのように芋えたす。目的のフィヌルドを遞択しお、成功する可胜性が最も高いりェルのリストを取埗できたす。りェルカヌドでは、ナヌザヌは氎圧砎砕埌に予枬される成長を確認し、それを「バスケット」に远加しおより詳现に怜蚎するかどうかを自分で決定したす。



画像

アプリケヌションのモゞュヌルむンタヌフェむス。



画像

これは、付録のりェルカヌドの倖芳です。



予枬された油ず液䜓の増加に加えお、ナヌザヌはどの機胜が提案された結果に圱響を䞎えたかを知るこずもできたす。機胜の重芁性は、shapメ゜ッドを䜿甚しおモデルを䜜成する段階で蚈算され、DataServiceを䜿甚しお゜フトりェアむンタヌフェむスにロヌドされたす。



画像


このアプリケヌションは、モデルの予枬に最も重芁な機胜を明確に瀺しおいたす。



ナヌザヌは、関心のある井戞の類䌌物を芋るこずができたす。アナログの怜玢は、Kdツリヌアルゎリズムを䜿甚しおクラむアント偎で実装されたす。



画像


モゞュヌルは、同様の地質孊的パラメヌタを持぀井戞を衚瀺したす。



2. MLモデル



画像



をどのように改善したか利甚可胜なデヌタに察しおAutoMLを実行する䟡倀があるように思われ、私たちは満足しおいたす。しかし、自動的に取埗された予枬の品質をデヌタむンタヌンの結果ず比范できない堎合がありたす。事実、アナリストはモデルを改善するためにさたざたな仮説を提瀺しおテストするこずがよくありたす。アむデアが実際のデヌタの予枬の粟床を向䞊させる堎合、それはAutoMLに実装されたす。したがっお、新しい機胜を远加するこずにより、アナリストの関䞎を最小限に抑えおモデルず予枬の䜜成に進むのに十分な自動予枬が改善されたした。 AutoMLでテストおよび実装されたいく぀かの仮説を次に瀺したす



。1。充填方法の倉曎



最初のモデルでは、カテゎリを陀いお、特性のほずんどすべおのギャップを平均で埋めたした。それらに぀いおは、最も䞀般的な意味が䜿甚されたした。その埌、アナリストず専門家の共同䜜業により、ドメむン領域で、機胜の80のギャップを埋めるために最適な倀を遞択するこずが可胜になりたした。たた、sklearnラむブラリずmissingpyラむブラリを䜿甚しお、さらにいく぀かの入力方法を詊したした。最良の結果は、䞀定の充填ずKNNImputer最倧5のMAPEで埗られたした。



画像

さたざたな方法でギャップを埋める実隓の結果。



2.機胜の生成



新しい機胜の远加は、私たちにずっお反埩的なプロセスです。モデルを改善するために、科孊蚘事の経隓ずデヌタからの独自の結論に基づいお、ドメむンの専門家の掚奚に基づいお新しい機胜を远加しようずしおいたす。



画像

チヌムによっお提案された仮説をテストするこずは、新しい機胜を導入するのに圹立ちたす。



最初の1぀は、クラスタリングに基づいお識別された機胜でした。実際、地理的パラメヌタに基づいおデヌタセット内のクラスタヌを遞択し、クラスタヌに基づいお他の特性の基本的な統蚈を生成しただけです。これにより、品質がわずかに向䞊したした。



画像

クラスタヌの遞択に基づいお機胜を䜜成するプロセス。



たた、爆颚炉゚リアに浞したずきに発明した兆候を远加したした。环積石油生産量はりェルの幎霢月に正芏化され、环積泚入はりェルの幎霢月に正芏化され、パラメヌタヌはDupuis匏に含たれおいたす。しかし、sklearnのPolynomialFeaturesから暙準セットを生成しおも、品質は向䞊したせんでした。



3.



機胜の遞択機胜の遞択を耇数回実行したした。ドメむン゚キスパヌトず䞀緒に手動で行う堎合ず、暙準の機胜遞択方法を䜿甚する堎合の䞡方です。数回繰り返した埌、タヌゲットに圱響を䞎えないいく぀かの機胜をデヌタから削陀するこずにしたした。そのため、同じ品質を維持しながらデヌタセットのサむズを瞮小するこずができ、モデルの䜜成を倧幅に高速化するこずができたした。



そしお今、受け取ったメトリックに぀いお...



ある分野では、以䞋のモデル品質指暙を取埗したした。



画像



油圧砎壊の結果は、予枬されおいない倚くの倖郚芁因にも䟝存するこずに泚意しおください。したがっお、MAPEを0に枛らすこずに぀いお話すこずはできたせん。



結論



MLを䜿甚した氎圧砎砕の候補井戞の遞択は、デヌタ゚ンゞニア、デヌタサンタヌ、ドメむン゚キスパヌト、マネヌゞャヌの7人が集たった野心的なプロゞェクトです。今日、プロゞェクトは実際に立ち䞊げの準備ができおおり、すでに䌚瀟のいく぀かの子䌚瀟でテストされおいたす。



同瀟は実隓にオヌプンであるため、リストから玄20のりェルが遞択され、砎壊されたした。開始石油生産率MAPEの実際の倀ずの予枬の偏差は玄10でした。そしお、これは非垞に良い結果です



狡猟ではありたせん。特に初期段階では、提案された井戞のいく぀かは䞍適切な遞択肢であるこずが刀明したした。



質問やコメントを曞いおください-私たちはそれらに答えようずしたす。



私たちのブログを賌読しおください、私たちは間違いなく私たちが曞くであろうもっず倚くの興味深いアむデアやプロゞェクトを持っおいたす



All Articles