🐡 👨🏿‍🌾 🎶 銀行での特定のデータサイエンスタスク 🧝🏿 ⚠️ 👩🏾‍🤝‍👨🏿

過去5年間、私は大手銀行の機械学習（ML）オフィスで働いており、モデルの開発と検証で発生する多くのボトルネックを確認しました。

この記事では、データアナリストの作業が構築され、意思決定のためのMLアルゴリズムがトレーニングされて機能するのは、すでに確立された情報システムに基づいているため、最初にいくつかの抽象的なBankXの主要な情報システムを検討することを意図しました。。しかし、書き始めたとき、銀行の最も基本的なモデル、つまり信用リスクのモデルを構築して検証するときに浮かび上がる多くのトピックやサブタスクについて議論する方が実際にははるかに興味深いことに突然気づきました。

信用リスク管理は基本的に銀行の特権であるため、リスク管理と信用リスクの計算は、銀行のデータサイエンスの先駆者と見なすことができます。銀行が信用および金融関係の市場に価値のあるものを提供することを可能にするのは巧みなリスク管理です。銀行がローンの利子と預金の利子の間に利息マージンを単にポケットに入れるという考えは根本的に間違っていますが、銀行業務の内部の仕組みに不慣れな人々からこれを聞くことがあります。

一方では、銀行はローンの未返済のすべてのリスクを引き受け、他方では、投資された資金の返済について預金者に保証を与えます。銀行預金の代わりに、返済の保証なしに借り手に直接あなたのお金を貸すことです。銀行は、一方では固定資本の形で「安全クッション」を持ち、最初はその財務指標（「フォーム準備金」）にローンの未返済による損失を含むため、保証を与えることができます。。一方、銀行は、借り手が発行されたローンを返済しない確率を計算する方法を知っています。もちろん、特定の個人や企業が債務を返済するかどうかを正確に予測することはできませんが、平均して、多数の借り手について確率を見積もることができます。

当行は、利ざやで得た利益が当行の貸付不履行およびその他の関連費用からの損失をカバーする場合にのみ、財政的に安定するであろう。

確立された銀行業務

予測モデルとデータサイエンスタスクについて直接説明する前に、銀行がクライアントとどのように連携するかについて詳しく説明します。銀行、特に大規模な銀行は、文字通りすべてのステップが規定されている、よく組織されたシステムです。これは、借り手とのやり取りにも当てはまります。

特に借り手に関しては、「デフォルト」などの概念がよく使われます。デフォルトは、クライアントが少なくとも全額を銀行に返金しないというほぼ完全な確信がある場合にクライアントに割り当てられるステータスです。クライアントにデフォルトのステータスを割り当てるためのルールと手順は、特別に作成されたワーキンググループのレベルで交渉されます。そして、上記の規則は、内部規制文書に規定されています。

クライアントにデフォルトのステータスが割り当てられている場合、通常は「クライアントがデフォルトになっている」と言われます。銀行のプロセスの観点から、これは、クライアントとの対話の特定の手順が開始されることを意味します。借り手の破産の問題は解決されるかもしれないし、銀行は質権設定された資産の売却、保証人からの資金の回収、または債務者の債務の回収者への売却などを試みるだろう。

歴史的には、ローンの未返済による期待損失は通常、次の3つの要素に分けられます

。EL= PD * EAD * LGD

ここで、EL- 期待損失、期待損失。

PD-デフォルトの確率。評価日から開始して、借り手が翌年以内にデフォルトのステータスを割り当てられる確率。

EAD-デフォルト時のエクスポージャー。発行額と利息、罰金と手数料の両方を含む、「デフォルトに入る」日にクライアントが銀行に返還しなければならないすべての資金。

LGD-デフォルトが与えられた場合の損失、銀行に対する借り手の総債務のシェア。銀行はこれ以上返済しません。つまり、それは銀行にとって純損失です。

私の主な目標は教科書の正しい言い回しを書くことではなく、既存の問題の本質を把握することであるため、私がどこかで教育の定義や概念から離れた場合は、事前に謝罪します。このため、「指で」推論する必要がある場合があります。

それでは、データサイエンティストの典型的なタスクを作成してみましょう。予測できる最初のことは、PDのデフォルトの確率です。ここではすべてが単純に見えます。バイナリ分類の問題があります。真のクラスラベルとすべての要素を含むデータを提供してください。ダブルクロスバリデーションとすべてのハイパーパラメーターの選択を備えたスクリプトをすばやくまとめ、最高のジニメトリックを持つモデルを選択すれば、すべてがうまくいきます。しかし、何らかの理由で、実際には、これは機能しません。

真のクラスラベルはありません

実際、真のクラスラベル（ターゲット）はわかりません。理論的には、ターゲットは、借り手が「正常」である場合はゼロに等しく、借り手に「デフォルト」ステータスが割り当てられている場合は1に等しいバイナリ変数です。しかし、問題は、デフォルトを決定するためのルールが私たちによって発明されていることです。ルールが変更されると、モデルは履歴データのトレーニングでも機能しなくなります。

私たちはクライアントをよく知りません

発行されたローンの履歴の蓄積に伴い、より複雑なモデルを構築したいという要望があり、これにはクライアントに関する追加情報が必要です。そのとき、私たちがこの情報を必要としなかったことが判明し、したがって、誰もそれを収集しませんでした。その結果、収集されたサンプルには多くのギャップがあり、より「情報に基づいたモデル」を構築するというアイデアそのものを否定しています。そして、それだけなら。

多数の顧客の存在は、それらをセグメントに分割し、その中で「より狭い」と同時により正確なモデルを構築することを望んでいます。ただし、セグメントへの分割もいくつかのルールに従って実行され、このルールはすべて同じ顧客データに基づいています。そして、私たちは何を持っていますか？また、データにギャップがあるため、特定のクライアントがどのセグメントに起因するのかを常に理解できるとは限りません。

規制当局は、モデルを解釈可能にする必要があります

「規制当局」とは、モデルが理解しやすいことを要求する中央銀行を意味します。予測自体だけでなく、この予測が行われたルールも明確にする必要があります。公平を期すために、この規則は、いわゆる「規制」モデルにのみ適用される範囲が広いと言えます。銀行システム全体の安定性を確保するために、規制当局は、いくつかの重要な指標に従って銀行の活動を常に監視しています。その中には、たとえば、起こりうる経済的および金融危機。

解釈可能性の要件はどういう意味ですか？これは、ほとんどの場合、ロジスティック回帰または決定木形式のモデルに満足する必要があることを意味します。ニューラルネットワーク、アンサンブル、スタッキング、その他の「現代的な」アーキテクトについては忘れる必要があります。

確立された銀行業務のプロクラステスのベッド

事実上の業界標準では、期待損失はPD、EAD、LGDの3つの値の積として見積もることが求められています。これは、イベントが同じシナリオに従って発生する場合にのみ当てはまります。クライアントはローンを返すかどうかのどちらかです。前者の場合、損失はないと考えられます。2番目のケースでは、一定のリスク量（EAD）があると想定されます。

実際には、顧客の支払い行動は2つの単純なオプションに限定されず、これらのオプションの境界はかなり恣意的です。借り手は、1か月、1年、または2か月でデフォルトに陥り、「デフォルト」ステータスが割り当てられた後、突然支払いに戻り、ローン全体を返済することができます。さらに、支払いスケジュールからの逸脱は、金額と条件の両方に関して、スケジュールよりも早く、またはその逆になる可能性があります。すべての場合において、当行の財務結果は異なります。

原則として、借り手の行動の多様性をすべて3成分計算方式に還元することが不可能だと言っているわけではありません。もちろん、それはすべてタスクに依存します。このモデルを後でどこに適用しますか？借り手のプール（グループ）ごとの信用リスクを評価するために、さまざまな調整と加重平均値の計算によって、考えられるすべての偏差が考慮される場合。ただし、個人的な提案の選択など、ローンの発行方法を個別化することが目標である場合は、クライアントからの支払いの流れを予測するか、正味現在価値を予測することが重要になります。

高度なデータ駆動型の代替手段がつまずく場所

業界の銀行業務全体は、ビッグデータや機械学習がなかった時代に形成され、すべての計算はスコアカードの作成に限定されていたことを理解する必要があります。借り手の信用力に影響を与える重要な要素をすべて取り、ポイントの形で評価した後、これらのポイントを合計し、ポイントの合計に応じて、ローンを発行するかどうかを決定しました。

発行されたローンの歴史の蓄積とコンピューター技術の発展に伴い、当行の意思決定手続きは次第に複雑になった。 Scorchマップは、Pythonスクリプトで構築されたロジスティック回帰モデルになりました。当行は、各セグメント内に独自の狭義のモデルを構築するために、顧客および製品のセグメント化を開始しました。一方、データストレージの量が増えるにつれ、相互接続された形式でより多くの情報を収集して保存することが可能になりました。

最終的には、来た顧客ごとに最良のオファー（最適な銀行商品）がほぼ瞬時に見つかり、特定の期間または別のメトリックに応じてCLTV（顧客生涯価値）を最大化するというアイデアに向かってすべてが進んでいます。世銀の現状とその利害関係者の目標。

上記の問題を解決するために、強力なニューラルネットワーク（つまり、悪名高い「人工知能」）を使用してみませんか？これを妨げるいくつかの状況をリストします：

-中央銀行は、自己資本比率の計算に関与するモデルが「ライブ」信用プロセスに適用されることを要求しています。つまり、これらのモデルは、ローンの付与に関する意思決定に適用され、解釈可能であり、いくつかの必須の検証テストに合格する必要があります。

-顧客データベースは絶えず拡大し、補完されています。たとえば、比較的新しいタイプのデータは、バイオメトリクス、Web分析、モバイルアプリ分析、ソーシャルメディアスコアリングです。新しい属性の追加は時間の経過とともに発生するため、それらに関する履歴データは事実上ありません。

-世銀の商品とプロセスは絶えず変化しており、顧客のCLTVの再計算と、新商品のNPV（正味現在価値）の計算が必要です。そして、許容できる品質のモデルを構築するには、数年待って、履歴データを蓄積し、実際の借り手のサンプルでCLTVまたはNPVの実際の値を計算する必要があります。

結果：

世銀の予測モデルの構築は、すべての望みをもって、純粋に数学的な問題と見なすことはできません。実際には、ビジネス上の問題は解決されます。これは、とりわけ、中央銀行の人の規制当局の要件と強く絡み合っています。

強力なデータサイエンスを持つ企業が銀行エリアに侵入し、ゲームのルールを変更できるように見えることがあります。しかし、ローンを発行するためには、既存のルールに従ってプレイする必要があります。したがって、それは銀行になり、その後のすべての結果をもたらします。サークルが完成しました。

融資におけるクールな新しいフィンテックスタートアップの出現は、機械学習の革新よりも、法曹界の抜け穴を見つけることに関するもののようです。

銀行での特定のデータサイエンスタスク