テキストの言語を決定します。複雑なケース



画像ソース: AnnaElli



Antiplagiatシステムは、さまざまな言語のテキストで機能します。レビューのために提出された論文のほとんどは、ロシア語、英語、またはカザフ語で書かれています。現在、Antiplagiatインデックスには、50を超える言語のドキュメントが含まれています。



それらの15は、ドキュメント処理のすべての段階で完全にサポートされています。近い将来、このリストを本格的に拡大する予定です。私たちのたゆまぬ研究者たちは、素晴らしい言語からでも翻訳することを学びますテキストの言語は、ドキュメント処理のいくつかの段階で重要です。



次の操作の言語を知っている必要があります。



  • テキストを単語に分割する。
  • 技術的な回避策の検索と修正。
  • ハイフネーションをマージします。
  • アポストロフおよびその他の句読点の取り扱い。
  • テキスト統計の計算;
  • 借入金を検索します。


, . , , «». . , – .





, NTextCat / CLD3 /CLD2. CLD2 :



  • (~200 /c);
  • ;
  • ( );
  • ; , , , ;
  • C# ;
  • ( 80).




, , .





, , . . , :



  • / (, , ) “” ;
  • ;
  • , , …;
  • — , , .


CLD2





, – . , , , . . , : , .



, CLD2, . CLD2, .





: ( ).



1: CLD2.



2: , 4.



3: CLD2.



4: .



: , , . , , , « ».



, ( 2)



, . 1-2 (CLD2 ). , . , , , , , - CLD2.



… ( 3)



3.0: , , , .



3.1:



:



  1. , ( , .. ), , .
  2. CLD2 .


3.2: , . , , , .

3.3: . CLD2 .





( 4)



, , , . . , , - :



  1. , ;
  2. , ;
  3. .


( ). -. . , , . , . : « «-27».» 4 : «», «"», «», «-27".».





, , , . . , «» , . , 1-2 , . . , . , , . — , , , , : .



, .





, , . . , , , .



- . , , , . — , . . ( 4 ) , , .



, , - . , .





. CLD2:





, . — . — , , .



, CLD2.



, , .





, .





, «» «» , «» — «» – , «Jim» — «him» – , «» , , . CLD2 , .



:





«» . , ( CLD2) , , .





CLD2 , . . . , — .





?



, , . : , , , , . ( !). , «»: , . , , . ( ). , , . , .





– . – . – . .



, . -, CLD2 , 5. -, , . . , .



, , ...




All Articles