トータルディクテーションをテストするためのテクノロジー:何を改善できるか?

私はWorldAI& DataChallengeの審査員を務めています..。これは、技術開発者が貧困との闘い、聴覚や視覚障害のある人々の支援、人々と政府機関との間のフィードバックの改善など、さまざまな社会問題を解決するための国際的な競争です。現在、競争の第2段階が進行中であり、10月まで続きます。この段階の一環として、プロジェクトをさらに実施するための最適なソリューションを選択します。私たちABBYYはテキストとその意味をよく扱っているので、TotalDictationプロジェクトのフレームワーク内でテキストをチェックすることに最も興味がありました。この問題を例として使用して、自然言語処理が現代の機械学習で最も過小評価されている領域の1つである理由を理解し、口述をチェックする場合でも、すべてが「見た目よりも少し複雑」である理由について説明しましょう。もちろん、もっと興味深い。



したがって、タスク:「トータルディクテーション」をチェックするためのアルゴリズムを作成します。どうやらもっと簡単にできるでしょうか?正解があり、参加者のテキストがあります:それを取り、それを行います。誰もが線を比較する方法を知っています。そして、ここで興味深いことが始まります。



そのような異なるコンマ; またはセミコロン?



自然言語は複雑なものであり、多くの場合、複数の解釈があります。ディクテーションをチェックするようなタスク(一見したところ、唯一の正しい解決策がある場合)でも、最初から、作成者に加えて、他の正しいオプションがある可能性があることを考慮に入れる必要があります。さらに、大会の主催者はそれについてさえ考えました:彼らはいくつかの受け入れ可能な綴りを持っています。少なくとも時々。ここで重要なのは、コンパイラがすべての正しいオプションを示すことができない可能性があるため、競争の参加者は、おそらく、口述に直接関係しない大量のテキストで事前にトレーニングされたモデルについて考える必要があります。結局、文脈を理解することに応じて、人はコンマを入れることも、セミコロンを入れないこともできます。場合によっては、コロン、ダッシュ(または括弧)を使用するなど、何でも可能です。



評価が必要なのは口述であり、エッセイではないという事実はバグではなく、機能です。自動エッセイグレーディングシステムは、米国で非常に人気があります。 21の州が、GREに自動エッセイ校正ソリューションを使用しています。ごく最近、これらのシステムが、より複雑な語彙を使用するよりボリュームのあるテキストに高い評価を与えることがわかりました(テキスト自体が無意味であっても)。あなたはどのようにして知りました? MITの学生は、複雑な単語の文字列を自動的に生成する特別なプログラムBasic Automatic BS Essay Language(BABEL)Generatorを開発しました。自動化されたシステムは、これらの「エッセイ」を非常に高く評価しました。機械学習に基づいて最新のシステムをテストすることは喜ばしいことです。別の同様にホットな例:元MIT教授のLes PerelmanNoam Chomskyからの5000語のエッセイをチェックするために、GREおよびTOEFL試験を作成および採点するETSのe-raterシステムを提供しました。プログラムは、62の存在しない文法エラーと9つの欠落したコンマを検出しました。結論-アルゴリズムはまだ意味を持ってうまく機能していません。私たち自身がそれが何であるかを非常にひどく定義することができるからです。ディクテーションをチェックするアルゴリズムの作成は実用的に意味がありますが、このタスクは見た目ほど単純ではありません。そして、ここでのポイントは、私がここで言った正解の曖昧さだけでなく、口述は人によって口述されるということでもあります。



独裁者の個性



ディクテーションは複雑なプロセスです。 「独裁者」がテキストを読む方法(総口述の主催者が冗談めかしてそれを実行するのを助ける人を呼ぶように)は、仕事の最終的な質に影響を与える可能性があります。理想的な校正システムは、ライターの結果をテキストからスピーチへの口述の質と相関させるでしょう。さらに、同様のソリューションがすでに教育で使用されています。たとえば、サードスペースラーニングユニバーシティカレッジロンドンの科学者によって作成されたシステムです。システムは音声認識を使用し、教師がレッスンをどのように実施するかを分析し、この情報に基づいて、学習プロセスを改善する方法についての推奨事項を作成します。たとえば、教師が速すぎたり遅すぎたり、静かに、または大声で話したりすると、システムは自動的に通知を送信します。ちなみに、アルゴリズムは学生の声に基づいて、彼が興味を失い、退屈していると判断することができます。さまざまな独裁者が、さまざまな参加者の口述の最終結果に影響を与える可能性があります。何によって取り除くことができる不正がありますか?正しい!人工知能独裁者!悔い改め、私たちの日は数えられます。さて、真剣に、オンラインでは、どんなに巧妙に聞こえても、単に全員に同じサウンドトラックを与えるか、アルゴリズムに「独裁者」の品質の評価を入れることができます。それら、より速く、より明確に口述されなかった人は、「有害性のために」追加のポイントを頼りにすることができます。いずれにせよ、スピーチからテキストへの変換がある場合、別のアイデアが思い浮かびます。



ロボットと人間:誰が口述をよりよく書くでしょうか?



放送で音声認識を行う場合、口述に仮想参加者を作成することは言うまでもありません。AIと人間の成功を比較するのは素晴らしいことです。特に、さまざまな教育分野で同様の実験がすでに世界中で活発に行われているからです。そのため、2017年に中国で、AIは成都市の州試験「gaokao」に合格しました。これはロシア統一国家試験のようなものです。彼は150点満点中105点を獲得しました。つまり、彼はしっかりとした「3」で被験者をパスしました。「TotalDictation」の問題と同様に、アルゴリズムにとって最も困難なことは、言語(この場合は中国語)を理解することであったことは注目に値します。ロシアでは、昨年、Sberbankが実施しましたロシア語でテストに合格するためのアルゴリズムを開発するための競争。統一国家試験は、特定のトピックに関するテストとエッセイで構成されていました。ロボットのテストは、複雑さを増してコンパイルされ、タスクを直接完了する、与えられたルールと言い回しに従って例を強調表示する、そして答えを正しく記録するという3つの段階で構成されていました。



「他に何ができるか」という議論から、実際には口述の問題に戻りましょう。



エラーマップ



とりわけ、コンテストの主催者はエラーのヒートマップを求めています。ヒートマップなどのツールは、人々がどこでどのくらいの頻度で間違いを犯すかを示します。彼らが困難な場所で間違いを犯すことが多いのは当然です。この意味で、参照オプションとの不一致に加えて、他のユーザーの不一致に基づいてヒートマップを使用できます。互いの結果のこのような集合的な検証は簡単に実装できますが、検証の品質を大幅に向上させることができます。



部分的に類似した統計「TotalDictation」はすでに収集されていますが、ボランティアの助けを借りて手動で行われます。たとえば、彼らの仕事のおかげでほとんどのユーザーが「遅い」、「多すぎる」、「飛行機に乗っている」という言葉を間違えていることがわかりました。しかし、そのようなデータを迅速かつ効率的に収集することは、口述への参加者が増えるほど難しくなります。いくつかの教育プラットフォームはすでに同様のツールを使用しています。たとえば、外国語を学習するための人気のあるアプリケーションの1つは、そのようなテクノロジーを使用してレッスンを最適化およびパーソナライズします。これを行うために、彼らは何百万ものユーザーのエラーの頻度の組み合わせを分析することをタスクとするモデルを開発しました。これは、ユーザーが特定の単語をどれだけ早く忘れることができるかを予測するのに役立ちます。調査中のトピックの複雑さも考慮されます。



一般的に、私の父が言うように、「すべてのタスクはでたらめと聴覚障害に分けられます。でたらめは、すでに解決されているか、まだ解決されていないタスクです。聴覚障害者は、あなたが現在解決している課題です。」テキスト検証の問題の周りでさえ、機械学習を使用すると、大量の質問をしたり、エンドユーザーエクスペリエンスを質的に変えることができる一連のアドオンを作成したりできます。ワールドAI&データチャレンジの参加者が年末までに何をするかを調べます。



All Articles