FlexiNLPABBYYで䜿甚されおいる自然蚀語分析のテクノロゞヌ

私たちは、ABBYYにされおい扱う自然蚀語凊理NLPの問題に長い時間のために 。自然蚀語凊理テクノロゞヌは、デヌタを怜玢および抜出するためのABBYYのNLP゜リュヌションの倚くの䞭心です。圌らの助けを借りお、我々は、産業巚人NPO゚ネゎマシュが助けた 文曞によるず、怜玢を行うために、ほが100幎間、䌁業に蓄積され、倧きなバンクの䞀぀ の甚途巚倧なニュヌスの流れを監芖し、リスクを管理する圓瀟のテクノロゞヌ。この投皿では、゜リッドテキストから情報を抜出するためにNLPテクノロゞヌが内郚でどのように機胜するかを説明したす。衚のテキストや委蚗曞などの明確に構造化された圢匏に぀いおは説明したせんが、耇数ペヌゞの非構造化文曞賃貞契玄、医療蚘録などに぀いお説明したす。



次に、これが実際にどのように機胜するかを瀺したす。たずえば、200ペヌゞの銀行契玄からX゚ンティティをX分で抜出する方法。法的な契玄が正しいこずを確認するか、医療蚘事のコレクションからたれな副䜜甚に関する情報をすばやく入手しおください。私たちの経隓では、䌁業ず人々の䞡方の幞犏はデヌタに䟝存しおいるため、䌁業はそのようなデヌタを゚ラヌなしで迅速に取埗する必芁があるこずが瀺されおいたす。



投皿の最埌に、そのようなプロゞェクトを実斜する際に遭遇したいく぀かの問題に蚀及し、それらをどのように解決したかに぀いおの経隓を共有したす。さお、猫ぞようこそ。



では、私たちは䜕をしおいるのでしょうか



䞀般に、自然蚀語凊理および分析テクノロゞヌでは、電子メヌル内のスパムのフィルタリング、機械翻蚳システムの䜜成、音声の認識、チャットボットの開発ずトレヌニングなど、倚くのこずが可胜です。 ABBYYのNLPテクノロゞヌは、銀行、産業、その他の組織がビゞネスドキュメントから倧量の情報をすばやく抜出しお構造化するのに圹立ちたす。倧䌁業は長い間、手動の日垞的な操䜜の数を自動化するか、少なくずも削枛しようず努めおきたした。玙の文曞で日付、氏名、金額、TIN、請求曞番号を怜玢するこずに぀いお話しおいたす。デヌタを䌁業の情報システムに再印刷し、すべおが正しく入力されおいるかどうかを確認したす。



最初は、幟䜕孊的特城、特に線ずフィヌルドの構造ず配眮に基づいおドキュメントからテキストを抜出できたこずを思い出しおください。したがっお、構造化された質問祚、厳密なフォヌム、質問祚、申請曞、囜勢調査フォヌムなどからの情報を凊理するこずは䟝然ずしお䟿利です。ちなみに、私たちはそのようなケヌスに぀いおハブレに぀いお話したした-バングラデシュ保健省は 、ABBYY FlexiCaptureの助けを借りお 、共和囜の䜏民が蚘入した囜勢調査の質問祚を凊理したした。



重芁な情報がフォヌムだけでなく保存されおいるこずは明らかであるため、構造がたったくないか非垞に耇雑なドキュメントからデヌタを「抜出」するようにNLP゜リュヌションをトレヌニングしたした。おそらく倚くの人が芚えおいたす 自然蚀語の分析ず理解のためのABBYYCompreno。私たちはこの技術を開発および改善し、その埌、それが倚くのNLP゜リュヌションの基瀎を圢成したした。NLPを䜿甚するケヌスの1぀は、ロシアのいく぀かの倧手銀行でニュヌスを監芖するプロゞェクトです。芁するに、私たちの゚ンゞンは、銀行の匕受人、぀たり膚倧な情報の流れからカりンタヌパヌティに関するむベントをキャッチし、リスクを評䟡する人の仕事を実行するこずができたす。詳现に぀いおは、 こちらをご芧ください。



以䞋では、別の偎面に぀いお説明したす。契玄曞、医療蚘録、さたざたな゜ヌスからのニュヌスなどの非構造化ドキュメントからの情報の抜出です。





NLPテクノロゞヌの仕組み



抂念的には、ABBYY FlexiCaptureにロヌドされおから必芁なフィヌルドが抜出されるたでのドキュメント凊理は、次のようになり





たす。50ペヌゞの契玄から、眲名の日付ず堎所、および参加䌁業の名前を抜出する必芁があるずしたす。 。50ペヌゞ、カヌルそしお、たくさんの日付がありたすクラむアントが探しおいるペヌゞを芋぀けるにはどうすればよいですかテクノロゞヌは、これをいく぀かの段階で行うのに圹立ちたす。



セグメンテヌション段階



次に、ドキュメントが セグメント化されたす。぀たり、情報を怜玢する領域を絞り蟌み、50ペヌゞすべおではなく、たずえば、必芁な日付が含たれる段萜ごずに5぀のセグメントのみを凊理したす。そのため、アルゎリズムが機胜し、必芁な日付を他の日付ず区別するのがはるかに簡単になりたす。



図のセグメンテヌションの右偎にあるすべおの段階では、NLPアルゎリズムの 操䜜、぀たりテキストの詳现な調査、読み取り、理解に぀いお説明しおいたす。これらのプロセスは、分類ずセグメンテヌションよりも10〜20倍長くかかるため、耇数ペヌゞのドキュメント党䜓で実行するこずは完党には正しくありたせん。少量のテキストにそれらを「扇動」する方が簡単です。



NLPパヌサヌ+ Bi-LSTMのしくみ



圌らの助けを借りお、蚘号特城がテキストの各文から抜出されたす。これは、FlexiCaptureの䞀郚ずしお機胜するABBYYComprenoテクノロゞヌです。゚ンゞンはテキストを詳现に読み取り、そこから倚くの䞀般化機胜を抜出したす。圌は、この文で具䜓的に䜕が定匏化されおいるかだけでなく、その意味、぀たり実際に䜕を意味しおいるのかも理解しおいたす。



特城抜出は長いステップです。高レベルの兆候がありたす。倧たかに蚀えば、このフラグメントでは、名前のようなものが、あるセマンティッククラスのオブゞェクトを䜿甚したアクションのようなものを実行するこずを瀺しおいたす。次に、抜出された高レベルの特城に、かなり単玔で叀兞的なML-GBM法が適甚されたす。これは、䞀般的な゜リュヌションを提䟛し、抜出されたフィヌルドを匷調衚瀺する決定朚のアンサンブルです。GBMが迅速に孊習し、質の高い情報を抜出するには、トレヌニングに十分な数のドキュメントを甚意するこずが重芁です。それらが少ないず、情報抜出の品質が䜎䞋する可胜性がありたす。これは、ケヌスのコアが小さくなり、したがっお、個々のケヌスを頻繁なケヌスず区別するために、「マシン」の䞀般化が悪くなるずいう事実によるものです。





どこで䜿われおいたすか



これが私たちの実践からのいく぀かの䟋です-実装されたプロゞェクト、パむロットたたはコンセプトケヌス。



金融機関向けNLP





お客様から、請求曞請求曞や発泚曞の凊理を䟝頌されるこずがよくありたす。䞀郚のデヌタたたはフィヌルド、テキストたたはアドレスを含むブロックは、キヌワヌドに䟝存しお、埓来の方法を䜿甚しお抜出できたす。ただし、テキストブロックの内郚を調べる必芁がある堎合は、NLPが必芁です。たた、䜏所を含むブロック党䜓ではなく、この䜏所の䞀郚番地、州、垂、郵䟿番号、囜のみを「取埗」する必芁がある堎合もありたす。たたは、請求曞で特定の日付より前に支払いが必芁な堎合は、日付ず割匕率を解析する必芁がありたす。圓瀟のテクノロゞヌは、このような倉数を考慮に入れるのに圹立ちたす。前払いたたは䞀括払いの堎合の泚文の費甚ず、埌払いの堎合の費甚です。



たた、倧䌁業の法務郚門がサヌビス契玄、進捗レポヌト、NDA非開瀺文曞から重芁なデヌタを抜出するのを支揎したす。商業賃貞契玄を扱う私たちのプロゞェクトの1぀を䟋ずしお取り䞊げたしょう。これらは30ペヌゞのドキュメントであり、顧客が以前に情報システムに手動で入力した各ペヌゞのフィヌルドからのデヌタです。これは通垞、1぀のドキュメントに1時間かかりたした。 FlexiCaptureは2分でタスクを完了し、クラむアントの蚈算によれば、幎間5000人時間を節玄したした。



たたはロヌン契玄を取りたす。ロヌンは人だけでなく倧䌁業も受けおいたす。これを行うために、圌らは銀行に倧量の文曞パッケヌゞを提䟛したす。利甚可胜な商業ロヌンに぀いおの情報を考えおみたしょう。そしお、これは600䞇ルヌブルの䜏宅ロヌンではなく、1億ドルの䜏宅ロヌンです建物、オフィス甚。そしお、銀行はそのような250ペヌゞのドキュメントから50〜70の゚ンティティたたは条件を抜出する必芁がありたす。お客様の蚈算によるず、手動で凊理するのに長い時間がかかりたした-ドキュメントごずに2〜3時間。 FlexiCaptureを䜿甚するず、すべおが9分で準備が敎いたした。すぐにではなく、私たちは理解しおいたす。その理由は、ドキュメントのデザむンにありたす。通垞、ドキュメントには高密床のテキストがあり、倚数の異なる゚ンティティを抜出する必芁がありたす。二番目ではない:)



ロヌン申請も頻繁に凊理されたす。これは、銀行がクラむアントに送信する質問を含む予備文曞です。融資額が倚ければ倚いほど、そのような質問祚には倚くの質問がありたす。たずえば、勀務先の情報で、銀行はIDず正匏な䜏所を瀺すように芁求する堎合がありたす。銀行は、倚くの堎合、結婚状況、ロヌンの利甚可胜性、公益事業の債務、扶逊手圓、およびロヌンの返枈を劚げる可胜性のあるその他の事項に関する情報の明確化を芁求したす。ロヌン申請曞の質問は非垞に耇雑な堎合があるため、䞀郚の䌁業は、顧客がクラむアントに求めるものを人間的な方法で理解しお説明するために、顧客が法定蚀語から公甚語に翻蚳するのを支揎しおいたす。



このような完成したドキュメントを凊理する際の䞻な問題は、フィヌルドの数が倚いこずですこの堎合、105個ありたした。銀行員が混乱するのは簡単ですが、これでテクノロゞヌがダりンするこずはありたせん。 FlexiCaptureは、埓業員のすべおに5分を費やしたす最倧2〜3時間。圌らが蚀うように、違いを感じおください。 ABBYYのプロゞェクトの



ヘルスケア



郚分は、医療文曞からの情報の抜出に関連しおいたす。





たずえば、NLPを䜿甚するず、科孊的な医療蚘事の芁玄を凊理できたす。薬理孊にはそのような方向性がありたす-ファヌマコビゞランス。ただ説明されおいない患者に新薬が匕き起こす可胜性のある副䜜甚を調査しおいたす。医療機関は、患者からそのような重倧な症䟋に関する情報を収集し、それらに関する詳现なレポヌトを䜜成したす-個別症䟋安党性レポヌトICSR。新しいピルが人に害を及がす堎合、補造業者はこれを芏制機関に迅速に報告する必芁がありたす。そうしないず、倚額の眰金が科せられる可胜性がありたす。このような結果を回避するために、補薬䌚瀟の優秀な埓業員はICSRを倧量に読んでいたす。かなり退屈な䜜業です。



これらを䜿っおテクノロゞヌをパズルするのははるかに簡単です。ファヌマコビゞランスパむロットの䞀環ずしお、圓瀟の技術は、患者の性別や幎霢、患者に起こった出来事に関する情報、薬の名前などの医療蚘事からデヌタを抜出したした。最埌のものを陀くすべおが機械孊習を䜿甚しお抜出されたした。しかし、薬の名前に぀いおは、より簡単な方法、぀たり蟞曞を䜿甚したした。肝心なのは、クラむアントが蚘事からすべおの可胜な薬を抜出するのではなく、80の名前のリストから薬を抜出するように芁求したずいうこずです。この堎合、蟞曞の照合は問題なく機胜したした。蟞曞もFlexiCaptureNLPの䞀郚です。圢態孊は、薬の名前を芋぀けるために䜿甚されたす。単語がどのような圢匏たたは登録で曞かれおいるかは関係ありたせん。特に英語では、それほど倚くはありたせん。



通過する情報が倚いため、ケヌス履歎の凊理も自動化されたす。これらは、衚、領収曞、および保険䌚瀟の決定の説明です。たずえば、米囜の芏制圓局の1぀は、保険に関する患者からの苊情を受け入れおいたす。保険䌚瀟が治療費の支払いを拒吊するこずがありたす。理由は異なる堎合がありたすが、患者はそれを理解しお政府機関に申請する暩利がありたす。そしお、芏制圓局は情報を分析しお評決を䞋さなければなりたせん、拒吊は本圓に正圓化されたしたか



FlexiLayoutを䜿甚しおテヌブルを簡単に凊理できる堎合は、保険で凊理しないこずを決定したテキスト。 NLPを䜿甚しお、゜リュヌション自䜓ずその理論的根拠をテキストから抜出したした。



患者が1぀の病院から別の病院に転院するずきは、病歎を泚意深く分析する必芁がありたす。私たちがコロナりむルスの時代に生きおいるこずを考えるず、そのような患者が倚いこずもあり、病院のスタッフがあたりにも倚くの事務凊理に察凊するこずは困難です。私たちが参加した事件は王冠ずは䜕の関係もありたせんでしたが、朜圚的に私たちの経隓はただ貎重です。



䞍動産



-私たちの朜圚的なクラむアントの1぀は、建蚭やオフィスのために倚くの土地を借りおいたす。したがっお、同瀟は 倚くの賃貞借契玄を締結しおいる..。圌女はそのようなドキュメントを自動的に凊理する必芁がありたす。日付ず期限をドキュメントから抜出しお、埌で支払いを逃したかどうか、リヌスが終了したずき、契玄が自動的に曎新された堎所、すべおの費甚を远跡できるようにしたす。



-建蚭䌚瀟には、ポヌトフォリオアナリストなどのスペシャリストもいたす。 ..。圌らは契玄を分析し、特定の䞍動産の費甚を調べ、それがどれだけ良いか、そしおそれが所有者にどれだけの収入をもたらすこずができるかを評䟡するのに圹立ちたす。銀行の埗点のように。ちなみに、米囜では䜏宅ロヌンのパッケヌゞを販売たたは郚分的に賌入するこずができたす。これはセキュリティであり、䟡栌が䞊䞋するこずもありたす。たずえば、䞍動産䟡栌が䞊昇した堎合、より安䟡な䜏宅ロヌンを借り換えるこずができたす。そしお、すべおが安くなるず、クラむアントはこの玙を捚おようずしたす。



このような契玄には、NLPを䜿甚する堎合ず䜿甚しない堎合の䞡方で取埗される情報がありたす。衚圢匏のデヌタ-FlexiLayoutを䜿甚したすこれは以前に実行できたこずです。たた、他のすべおのフィヌルドは、セグメンタヌによっお抜出される段萜、たたは抜出モデルによっお抜出される段萜内のフィヌルドです。



NLPテクノロゞの利点は、より倚くの皮類のフィヌルドずドキュメントを凊理できる別のメカニズムであるずいうこずです。





-私たちのクラむアントの1぀は、条件付きで私たちのSNTである 䜏宅所有者協䌚です。新しい参加者がそのようなSNTを締結するず、9皮類のドキュメントのパッケヌゞが提䟛されたす-蚌曞これは売買契玄の堎合がありたす。次に、これらの完成したドキュメントのデヌタを凊理、怜蚌し、情報システムに入力する必芁がありたす。それらのうちの8぀は、FlexiLayoutによっお構造化および凊理されたす。しかし、キャッチで9日。このプロゞェクトを完了するために、圓瀟は構造化されおいない行為も凊理する必芁がありたした。



これは、NLPを䜿甚しお行ったこずです。䞀方で、ドキュメント自䜓はそれほど倧量ではありたせん。1〜2ペヌゞです。䞀方、それらは非垞に倚様で質が悪い。それにもかかわらず、私たちの゜リュヌションは必芁な情報を抜出するこずができたした。このプロゞェクトは、NLP郚分が非垞に小さい可胜性があるずいう点で興味深いものですが、それなしではプロゞェクトを完了できないため、同時に重芁です。



-NLPは、契玄承認のプロセスを自動化する必芁がありたす 契玄承認自動化。倚くの堎合、䌁業は基本契玄を締結したす。これは、将来の倚くの業務の䞀般条件を定めたフレヌムワヌクマスタヌ契玄です。たずえば、クラむアントが䜕を実行する必芁があるか、どの時間枠で、どのような遅延に察する制裁、い぀サヌビスに支払うかなどです。



契玄を自動的に承認するプロセスは次のようになりたす。ドキュメントから特定の数のフィヌルドず条件句を抜出したす。フィヌルドは1぀以䞊の単語であり、句は長い説明を含めるこずができる1぀以䞊の段萜です。䌁業は、フィヌルドのドキュメントにむンデックスを付け、電子ストレヌゞに入れお怜玢するために、フィヌルドを抜出する必芁がありたす。条項では、承認が発生したす-条件が正しいかどうかを確認したす。抜出された技術甚語は、基本契玄の甚語ず比范されたす。すべおが䞀臎すれば、䌚瀟にリスクはありたせん。契玄を自動的に承認レビュヌしおデヌタベヌスに送信できたす。これにより、匁護士の生掻がはるかに楜になりたす。同じ皮類の契玄を凊理する代わりに、より重芁なタスクに切り替えるこずができたす。契玄は、システムがドキュメントでメむンの契玄ずの䞍䞀臎を明らかにした堎合にのみレビュヌする必芁がありたす。



すべおのNLPプロゞェクトを統合するもの



金額ず䜏所を認識する構造化された請求曞では、必須フィヌルドがどこにあるかがすぐにわかり、ドキュメント自䜓が1ペヌゞたたは数ペヌゞを占めたす。非構造化ドキュメントの堎合、どのデヌタずどこから抜出するかをすばやく決定できるずは限りたせん。これがNLPプロゞェクトの䞻な機胜です。さらに、ドキュメント自䜓は1ペヌゞではなく、100〜200ペヌゞを占めたす。したがっお、芁件を䜜成する段階で、最初に、取埗する必芁のある数十のフィヌルドのリストを䜜成するようにお客様に䟝頌したす。このようなプロゞェクトでは、察象分野の専門家、぀たりこの分野の専門家の参加が必芁です。専門家は、ドキュメントから䜕をどのような堎合に抜出する必芁があり、どのようなニュアンスに泚意を払う必芁があるかずいう質問に答えたす。



顧客は、ドキュメントから䞀床に数癟のフィヌルドを抜出するように芁求するこずがありたす。このアプロヌチは建蚭的なものではなく、プロゞェクトの芁件に぀いお話し合うのに1か月以䞊かかるずいう事実に぀ながりたす。そのため、原則ずしお、数癟のフィヌルドから始めるのではなく、10から始めお、芁件を明確にし、すべおがどのように機胜するかを瀺したす。その結果、私たちずお客様の䞡方が、プロゞェクトのさらなる段階ずマむルストヌンを理解しおいたす。



たた、NLPを含む機械孊習のMLプロゞェクトには、代衚的なサンプルが必芁です。これは、システムがトレヌニングされる顧客ドキュメントのサンプルです。倚いほど良いです。



結論



これらの䟋を䜿甚しお、テクノロゞヌが䞻芁なリ゜ヌスである時間を節玄するのにどのように圹立぀かを瀺したした。英語では、このスキヌムはwin-winず呌ばれたす。ロボットは反埩的なタスクを実行し、埓業員はよりむンテリゞェントで興味深いプロゞェクトに埓事するために手を解攟したす。専門家ではなく機械が日垞業務に埓事しおいる䌁業は、顧客ずのやり取りをより効率的に構築し、特定のドキュメントの凊理における゚ラヌを回避し、収益性をより早く向䞊させるこずができたす。



All Articles