前書き
手書きテキスト認識(HTR)は、コンピューターを使用してレコードを自動的に転記する方法です。手書きのメモのデジタル化された形式は、多くの企業のビジネスプロセスを自動化し、人間の作業を容易にします。本稿では、人工ニューラルネットワークに基づいてキリル語で手書きのテキストを認識するためのモデルを検討します。研究では使用SimpleHTRのシステムのHaraldによって開発された、ならびにLineHTRの拡張バージョン単純HTRのシステム 。あなたは読むことができますについての詳細SimpleHTRをここに。
データセット
このセクションでは、2種類のデータセットについて説明します。最初のデータセットには、Cyrillicの手書きの引用符が含まれています。さまざまな手書きサンプル(国や都市の名前)からの21,000枚の画像が含まれています。利用可能な形状またはサンプルから207,438枚の画像を収集することにより、このトレーニングデータセットを拡張しました。
手書きのカザフ-ロシアデータベースの2番目のHKRは、ロシア語とカザフ語で書かれた単一の単語(または短いフレーズ)で構成されていました(それぞれ約95%ロシア語と5%カザフ語/文)。両方の言語はキリルで書かれており、同じ33文字を共有していることに注意してください。これらの記号に加えて、カザフのアルファベットにはさらに9つの具体的な記号があります。HKRデータセットのいくつかの例を以下に示します。
(70%), (15%) (15%) . ( 7,5% ): TEST1 , ; TEST2 , , . TEST1 TEST2 , , .
SimpleHTR
ANN, CNN . RNN. RNN . RNN . RNN. CTC . . CTC ; RNN , . CTC . , , , . , , , , .
: CNN: CNN. . 55 33 . RELU , , . 2 , () , ( ) 32 256. RNN: 256 . . LSTM- RNN, , . RNN 3280.
CTC: RNN , . CTC . 32
: : 128 32. , ( ) , 128 32 . 128 32 . , .
LineHTR
LineHTR - SimpleHTR, , ( ), , . LineHTR SimpleHTR, CNN RNN : 7 CNN 2 Bidirectinal LSTM (BLSTM) RNN.
LineHTR:
800 x 64 ( x ).
CNN 100 x 512.
BLSTM 512 100 x 205: 100 ( ) ; 205 )
CTC 2 : LOSS - ; -
50
Python deep learning Tensorflow. Tensorflow Python. Python , . matplotlib Python, Inkscape- , Adobe Photoshop. 2- " Intel ® Xeon(R) E-5-2680”, 4x " NVIDIA Tesla k20x” 100 RAM. 3 , , .
SimpleHTR
SimpleHTR - , . , :
•
• DataLoader
• : 90% 10% . : -, , ; -, CNN ; -, ; -, , , , .
: SimpleHTR, 42 . 10 . : . , .
|
|
|
|
||
CER |
WAR |
CER |
WAR |
|
bestpath |
19.13 |
52.55 |
17.97 |
57.11 |
beamsearch |
18.99 |
53.33 |
17.73 |
58.33 |
wordbeamsearch |
16.38 |
73.55 |
15.78 |
75.11 |
SimpleHTR (bestpath, beamsearch, wordbeamsearch). NN , . NN, , , . character-LM , .
:
, , " ” 86 .
(HKR Dataset): SimpleHTR 20,13% (CER) 1,55% CER. SimpleHTR ( ). (WER) 58,97% 1 11,09% 2. TEST2 . TEST1 , , , .
LineHTR, 100 . CAR 29,86% 86,71% TEST1 TEST2 ( ). .
SimpleHTR LineHTR : 57,1% SimpleHTR CNN , 58,3% Beamsearch 75,1% wordbeamsearch. Wordbeamsearch, .