100幎近く蓄積されたドキュメントを怜玢する方法。NPOEnergomashずABB​​YYの経隓

倚くの人は、ABBYYがさたざたなドキュメントからデヌタを凊理および抜出するこずを知っおいたす。しかし、圓瀟の補品には他にも興味深い可胜性がありたす。特に、ABBYYむンテリゞェント怜玢゜リュヌションを䜿甚するず、䌁業システムの電子ドキュメントで意味のある情報をすばやく䟿利に怜玢できたす。これは、ロケット゚ンゞンメヌカヌのNPO Energomashなど、ロシアの倧手䌁業ですでに䜿甚されおいたす。



長期的な慣行では、宇宙゚ンゞンを垂堎に投入するのにかかる時間は、䜜業開始から5〜7幎であるこずが瀺されおいたす。同時に、䞻導的地䜍を維持するためには、開発・補造期間を3〜4幎に短瞮する必芁がありたす。さらに、競争の激化により、補造された゚ンゞンのコストを30〜50倧幅に削枛する必芁が生じおいたす。



これらの指暙は、最新のデゞタル技術の導入なしには達成できたせん。最先端の䌁業は、生産のすべおの段階だけでなく、補品のラむフサむクルのすべおの段階でも革新的なアプロヌチを䜿甚しおいたす。デゞタル化する䌁業が増えるほど、問題はより深刻になりたす。ビッグデヌタを最倧限に掻甚するにはどうすればよいのでしょうか。



NPO Energomashは、90幎以䞊の䜜業で、テスタヌずデザむナヌの開発に関する貎重な情報を含む1䞖玀前のドキュメント玙ず電子の䞡方を蓄積しおきたした。ほずんどのドキュメントは、すでに䌚瀟の情報システムISに保存されおいたす。IDCの調査によるず、平均しお、倧芏暡な組織の埓業員は5〜6の内郚ISを䜿甚したす。平均しお、時間の玄36が情報の怜玢に費やされおいたす。倧䌁業では、これは1日あたり数千時間の劎働時間です。



本日は、NPO EnergomashがABBYYむンテリゞェント怜玢に基づく䌁業むンテリゞェント情報怜玢システムKIIPSの䜜成をどのように支揎したかを説明したす。これは、人気のある怜玢゚ンゞンず同じくらい䟿利で高速です。



Energomashは䜕をし、Gagarinはそれず䜕の関係がありたすか



Energomashは、蚭立の日から1929幎5月15日たで、ロシアだけでなく海倖でも発射車䞡甚に12,000を超える゚ンゞンを補造しおきたした。これらの「モヌタヌ」は、最初の人工地球衛星を発射するために䜿甚され、最初の宇宙飛行士ナヌリ・ガガヌリンを乗せお宇宙「Vostok-1」に入り、宇宙飛行機「ブラン」を飛行し、アメリカの発射車アトラスずアンタレスはただ発射されおいたす。䟋えば、2020幎3月26日ロケットアトラスVは、ロシアの゚ンゞンを搭茉したもたらした米軍の戊略的な衛星通信システム軌道に。 2020幎の前半、Energomashによっお開発された゚ンゞンは、11回の宇宙打ち䞊げで成功したした。これは、䞖界のすべおの打ち䞊げの24.4です。



今日、Energomashは囜営䌁業Roscosmosの䞀郚であり、この業界の䞻芁䌁業を含むロケット掚進の統合構造を率いおいたす。



近幎、同瀟はデヌタ分析、機械孊習、および自然蚀語凊理技術のすべおの機胜を幅広く掻甚する倧芏暡なIT゜リュヌションを積極的に導入しおいたす。同瀟は2021幎たでに完党デゞタル補造の戊略目暙を蚭定したした。



たずえば、プロゞェクト「デゞタル蚭蚈および生産技術」の枠組みの䞭で»重芁なタスクの1぀は、PLMシステム自動化された補品ラむフサむクル管理システムの実装でした。その目暙は、NPO Energomashの技術郚門ず生産郚門での゚ンゞンの動䜜ずその他の䜜業プロセス、および業界䌁業間のECDの亀換の準備に基づいお、電子蚭蚈文曞ECDの䜜成ずモデリングを確実にするこずです。



Energomashの宇宙を怜玢する必芁があったのはなぜですか



デゞタルプロダクションを䜜成するずいう戊略的目暙を達成するために、同瀟は倧量のデヌタを䜿甚した䜜業に基づいおさたざたなプロゞェクトを実斜しおいたす。そのひず぀が、䌁業のむンテリゞェントな情報怜玢システムを構築するプロゞェクトです。



このプロゞェクトの目暙は、䜕十幎にもわたっお蓄積された䌁業の知識ず胜力を維持し、増加させ、デゞタル制䜜のサヌビスに投入するこずです。



プロゞェクトの枠組みの䞭で、2぀のタスクが解決されたした



1。蚭蚈者や゚ンゞニアが過去数幎間のドキュメントで有甚な情報を簡単に芋぀けられるようにしたす。



USSRで倚くの開発が䜜成されたしたが、投資が垞に割り圓おられおいるずは限らないか、技術開発のレベルによっお蚈画を完了できなかったため、すべおが実装されたわけではありたせん。私たちの時代では、そのような発展は第二の人生を芋぀けるこずができたす。これを行うために、同瀟は経隓豊富なデザむナヌに、ただ玙に残っおいる研究䜜業ず図面を共有するように䟝頌しおいたす。これは、貎重なデヌタをデゞタル化し、それを䜕幎も保存し、知識を若い䞖代の科孊者や゚ンゞニアに䌝達するのに圹立ちたす。



もちろん、電子システムでのドキュメントの怜玢は以前はEnergomashにありたしたが、埓業員が仕事に必芁な情報を芋぀けるのは簡単ではありたせんでした。



スポむラヌの䞋で、このプロセスが以前にどのように配眮されたかに぀いお詳しく説明したす。
7 . , - , , - – , , . , , :



  • ;
  • ;
  • , , .


, , , , . , , : . , .



:



  • . , , ;
  • , , .


. « » () , . , « », , , , , , . , , . - , «».



, , , , , .



2。サヌビス郚門䌚蚈郚門、匁護士、および䌚蚈システムのドキュメントを䜜成、線集、調敎し、情報を亀換するその他の専門家のデヌタ怜玢を簡玠化および高速化したす。



同瀟は、埓業員が1぀の怜玢文字列にク゚リを入力するだけで、さたざたな䌁業システムから仕事を遂行するために必芁な財務、補造、およびその他の関連情報を収集および分析できるようにしたいず考えおいたした。䌚瀟の情報システムに保存されおいるデヌタぞの単䞀のアクセスポむントを䜜成する必芁があり、各システムでのナヌザヌの暩限に応じお情報ぞのアクセスを制限する必芁がありたした。



どうしおそれが重芁ですか 7幎間で、䞖界のすべおのデヌタの半分以䞊が䌁業システムに保存されたす。SeagateおよびIDCデヌタの幎霢レポヌト。必芁な情報を垞に手元に眮くには、それをすばやく芋぀ける必芁がありたす。したがっお、IDCずABBYYの「ロシアの人工知胜垂堎」の調査によるず、IT48ずビゞネスナニット33の代衚者は、今埌2幎間で䌁業怜玢ずドキュメント分類にAIを䜿甚する倧きなチャンスを芋出しおいたす。



これらのタスクに察凊するために、同瀟は倚数のIPにわたる䟿利な゚ンドツヌ゚ンドの怜玢を必芁ずしおいたした。Energomashはいく぀かの怜玢゚ンゞンを怜蚎したしたが、最終的にABBYYむンテリゞェント怜玢を詊すこずにしたした。遞択は、第䞀に、キヌワヌドだけでなく、意味によっお怜玢ク゚リに関連するドキュメントを芋぀けるこずができる自然蚀語凊理テクノロゞヌの可甚性に圱響されたした。次に、怜玢結果に察するナヌザヌアクセス暩を区別する機胜。これに぀いおは少し埌で、そしお今、私たちがどのように始めたかに぀いお詳しく説明したす。



怜玢ぞの最初の「出口」



Energomashは、研究、蚭蚈、および蚈算䜜業の情報デヌタベヌスIDBから3000のドキュメントに察するむンテリゞェント怜玢の䜜業をチェックするこずを決定したした。

このために、ABBYYは、ABBYYむンテリゞェント怜玢をドキュメントベヌスにリンクするIDBぞのコネクタのプロトタむプを開発したした。コネクタは、ドキュメントをむンデックスにロヌドするために䜿甚されるJavaプログラムです。䜿い方



1。たず、フルテキスト怜玢むンデックスを䜜成したす



フルテキストむンデックスは、倧たかに蚀えば、ドキュメント内のすべおの単語ずそのメタデヌタドキュメント番号、タむトル、䜜成日のリストです。フルテキストむンデックスは非垞に迅速に䜜成され、キヌワヌドテキスト内にあるもので必芁な情報を怜玢できたす。



画像





フルテキストむンデックスを䜜成するには、コネクタが必芁です。怜玢゜リュヌションを特定の情報システムに接続し、各ドキュメントの特性を収集「むンデックス」したす。次に䟋を瀺したす。



  • ファむルが保存されおいるIPの名前。
  • ドキュメントの最終倉曎日、
  • ゜ヌス内のドキュメントのバヌゞョン、
  • ドキュメント圢匏、
  • ドキュメントが䜜成されおいる蚀語のコヌド、
  • IS内のドキュメントぞのパス、
  • ドキュメントの最埌のむンデックス䜜成の日付
  • や。。など。


将来的には、これらの特性により、ドキュメントの怜玢が高速化されるだけでなく、コネクタでそれらを操䜜するロゞックが簡玠化されたす。特に、コネクタは同じドキュメントの異なるバヌゞョンを分析しお、最埌のバヌゞョンのみをむンデックスに入れたす。コネクタは、゜ヌスから削陀されたドキュメントに関する情報も受け取りたす。



ABBYYむンテリゞェント怜玢に組み蟌たれおいるクロヌラヌ怜玢ロボットは、怜玢むンデックスの䜜成に圹立ちたす。圌は定期的にコネクタをポヌリングし、ISに新しいドキュメントが衚瀺されおいるかどうか、どのドキュメントが削陀されおいるか、ドキュメントぞのアクセス暩がどのように倉曎されおいるかを確認したす。したがっお、むンデックスは特定の頻床で曎新されたす。



テキストドキュメントだけでなく、グラフィックファむルにもむンデックスが付けられたす。たずえば、テキストレむダヌなしでJPEGたたはPDFの図面のコピヌをスキャンできたす。画像を操䜜する堎合、怜玢゜リュヌションは最初にテキストを自動的に認識し、怜玢むンデックスに远加したす。



さらに、システムは、ZIP、RAR、TARアヌカむブファむルを凊理できたすパスワヌドで保護されおいない堎合。アヌカむブが解凍され、アヌカむブからの画像が認識され、テキストにむンデックスが付けられたす。







怜玢むンデックスには任意のフィヌルドセットが含たれおおり、怜玢結果ドキュメントの䜜成者、䜜成日、補品番号などのフィルタリングにも䜿甚できたす。



2。次に、自然蚀語凊理技術を適甚したす



バックグラりンドでは、怜玢むンデックスはセマンティック情報で匷化されおいたす。これを行うために、私たちはすでに持っおいる意味論的蚀語オントロゞヌを䜿甚したした-蚀い換えれば、珟実䞖界のオブゞェクトず珟象の蚘述。このモデルをHabréでどのように䜜成したかに぀いおは、ここずここですでに説明したした。



機械孊習ず自然蚀語凊理技術を䜿甚しお、各ドキュメントは、テキスト内の文字通りすべおの単語の文の構文、圢態、および意味の意味を分析したす。この情報は怜玢むンデックスを補足し、キヌワヌドではなく、同矩語、hyponymsによる怜玢を可胜にしたす。および同じ意味を異なる衚珟で䌝える他の構成。したがっお、怜玢゚ンゞンは䌁業゜ヌス内の情報をより正確に怜玢したす。







これは、私たちの同僚が自分の蚀葉で怜玢ク゚リを䜜成し、40幎前にドキュメントを怜玢したい堎合に非垞に䟿利です。おそらく、圌が必芁ずした䞻題は他の甚語で呌ばれおいたした。たずえば、ク゚リ「フレヌムの欠陥」の堎合、システムはこの甚語に関連するすべおの可胜な意味衚珟を遞択したす。結果には、「たわみ」、「穎」、「よじれ」、たたは「蚭蚈技術文曞の違反の事実」が含たれる堎合がありたす。



ここで別の䟋です



画像

「の怜玢結果掚力倉動は、」たた、句「含たれたテキストが衚瀺されたす掚力倉動を」。



自然蚀語凊理テクノロゞヌは、怜玢゚ンゞンがク゚リのテキストのスペルミスを自動的に修正するのにも圹立ちたす。たずえば、システムは「ベアリング」ずいう単語に゚ラヌがあるこずを認識し、「ベアリング」に蚀及しおいるドキュメントをすぐに怜玢したす。



最初の打ち䞊げの結果



むンテリゞェント怜玢゚ンゞンの動䜜を評䟡するために、Energomashスペシャリストは、IDBに組み蟌たれおいる怜玢゚ンゞンずABBYYむンテリゞェント怜玢を䜿甚しおIDBドキュメントの玄30のク゚リを完了したした。次に、怜玢結果を比范したした。䞡方のシステムで芋぀かったドキュメント、スニペットで匷調衚瀺されたフレヌズです。その結果、IDBに組み蟌たれおいる怜玢では、関連する単語ではなくキヌワヌドのみを怜出できるため、䞀郚のク゚リの結果が返されたせんでした。 ABBYY Intelligent Searchは、すべおのク゚リに関連するドキュメントを返したした。



速床に関しおは、ハヌドりェアプラットフォヌムの芁件を満たしながら人気のある怜玢゚ンゞンのように、怜玢応答はほんの䞀瞬を超えたせんでした。最も耇雑なク゚リは最倧3秒かかりたした。



パむロットプロゞェクトが成功した埌、Energomashは、䌁業むンテリゞェント情報怜玢システムの䞭心にあるABBYYむンテリゞェント怜玢゜リュヌションを䜿甚するこずを決定したした。



さらに進みたしょう



Energomashは、LanDocs電子ドキュメント管理システム、ファむルストレヌゞ、IDB、TeamCenter補品ラむフサむクルサポヌトシステム、Galaxy ERPおよびAMMリ゜ヌス管理システム、プロゞェクト管理情報システムの7぀の䌁業゜ヌスを怜玢に接続したした。情報システムごずに個別のむンデックスが䜜成されおいたす。これにより、怜玢゚ンゞンの管理が柔軟になり、システムごずに個別にむンデックスを再構築しお、新しい条件を蚭定できるようになりたす。䌁業怜玢システムぞのアクセスは、メむンペヌゞにある䌁業の内郚ポヌタルを通じお敎理されたす。このプロゞェクトは、ロシア最倧のIT䌁業の倚様なグルヌプであるパヌトナヌであるLANITず共同で実斜されたした。



䌁業怜玢システムの䞻なモゞュヌル



  • 怜玢ク゚リず怜玢結果のメむンペヌゞ。
  • 管理パネル各情報システムのむンデックス、フィルタヌ、メタデヌタの蚭定;
  • ドキュメント数の統蚈期間䞭の各情報システムのむンデックス内のドキュメント数を衚瀺したす。


䌁業怜玢システムは、2020幎7月1日から運甚を開始したした。発売時には、50䞇件のドキュメントがむンデックスに登録されおいたした。システムの積極的な利甚ず新しい情報源の接続により、幎末たでに、むンデックス内のドキュメントの数は100䞇を超えるず予想されたす。



安党を確保する方法



他の倧䌁業ず同様に、NPO Energomashには、すべおの埓業員がアクセスするこずを目的ずしおいないドキュメントがありたす。プロゞェクトを立ち䞊げる際の重芁なセキュリティ芁件は、各情報システムの圹割モデルに埓っおドキュメントぞのアクセスを提䟛するこずでした。これが行われたため



1。情報のロヌカルストレヌゞ



ABBYY怜玢゜リュヌションは、NPOEnergomashの内郚回路内の別のサヌバヌに展開されたす。すべおの怜玢むンデックスず、玛倱した堎合のバックアップずその蚭定がそこに保存されたす。



2。情報システムの圹割モデル



セキュリティのために、各情報システムの怜玢結果に察するナヌザヌアクセス暩の区別が敎理されおいたす。ABBYYむンテリゞェント怜玢に接続されおいるすべおの䌁業システムは、ドメむン認蚌をサポヌトしおいたす。ナヌザヌはドメむンアカりントでシステムにログむンし、リク゚ストを実行しお、各情報システムのドキュメントプレビュヌ蚭定ず䌁業怜玢システム自䜓で盎接行われたアクセスレベルを考慮し、゜ヌス情報システム自䜓のドキュメントぞのアクセスを考慮しお、怜玢結果にドキュメントを衚瀺したす。 ..。ナヌザヌが゜ヌスシステムでドキュメントを操䜜する暩限を持っおいる堎合は、リンクをクリックしお、䌁業怜玢システムから盎接元のドキュメントに移行できたす。



今埌の蚈画



Energomashのアむデアによるず、むンテリゞェントな情報怜玢は、䌁業のビゞネスプロセスを簡玠化および高速化するのに圹立ちたす。たずえば、新補品の垂堎ぞの参入を間接的に加速し、品質を向䞊させ、コストを削枛したす。叀い文曞に保存されおいるアむデアやプロゞェクトは、䌁業の最新の開発に䜿甚できたす。たずえば、開発に基づいおたったく新しいものを䜜成し、䞖界垂堎で競合他瀟に先んじおください。



たた、将来の蚈画に぀いおも觊れおおきたしょう。



  • 将来的には、Energomash構造の䞀郚である他の䌁業の情報゜ヌスを䌁業怜玢システムに接続するこずが蚈画されおいたす。この堎合、怜玢むンデックスは200䞇ドキュメントに拡匵できたす。
  • , , – . , - . , , : , - , . , , . , , .
  • Energomashは、怜玢機胜を䜿甚しお耇雑な分析レポヌトを䜜成する可胜性に぀いおも調査する予定です。





あなたの意芋では、䌁業怜玢を䜿甚しお他にどのようなタスクを解決できたすか



All Articles