チャットボットトレーニングに最適な15のデータセット

人間の介入なしにユーザーの問題を迅速に解決するには、効果的なチャットボットには大量のトレーニングデータが必要です。ただし、チャットボット開発の主なボトルネックは、機械学習技術を使用してこれらのシステムをトレーニングするための現実的なタスク指向の会話データを取得することです。特に機械学習コースの新しいスレッドの開始のために、チャットからの会話の最良のデータセットのリストを、質疑応答、カスタマーサポートデータ、インタラクティブデータ、および多言語データに分類して共有します。














人間の介入なしにユーザーの問題を迅速に解決するには、効果的なチャットボットには大量のトレーニングデータが必要です。ただし、チャットボット開発の主なボトルネックは、現実的なタスク指向の会話データを取得して、機械学習技術を使用してこれらのシステムをトレーニングすることです。チャットから最適な会話データセットのリストをまとめ、Q&A、カスタマーサービスデータに分類しました。インタラクティブで多言語のデータ。



チャットボットをトレーニングするためのQ&Aデータセット



リンク。このコーパスには、Wikipediaの記事、手作業で生成された事実に関する質問、および科学研究で使用するためのそれらの質問に対する手作業で生成された回答が含まれています。



WikiQAコーパス。オープンドメインの質問への回答を調査するために収集され、注釈が付けられた、公開されている質問と文のペアのセット。通常のユーザーからの情報の真の必要性を反映するために、彼らは質問のソースとしてBingクエリログを使用しました。各質問は、潜在的に回答があるWikipediaページにリンクされています。



Yahoo言語データ。このページでは、YahooのYahooAnswersから厳選されたQCデータセットを紹介します。



TREC(テキスト検索コレクション)QAコレクション:TRECは1999年以来質問に答えています。質問と回答の各シーケンスで、問題は、システムがオープンドメインの質問への回答を含むテキストの小さな断片を受け取り、可能な回答が「はい」または「いいえ」になるように定義されました。



Ubuntuサポートデータセット



Ubuntu Conversations Corpusは、Ubuntu関連のさまざまな問題に関する技術サポートを受けるために使用されるUbuntuチャットログから抽出された2人の間の約100万件の会話で構成されています。セットには、930,000のダイアログと1億を超える単語が含まれています。



カスタマーサービスリレーションシップストラテジーキット:4つのソースから旅行関連のカスタマーサービスデータを収集します。2016年8月のTripAdvisor.comの3つのIVA商用カスタマーサービスとAirlineフォーラムからの会話ログ。



TwitterカスタマーサポートKaggleのこのデータセットには、Twitterの最大のブランドからの3,000,000を超えるツイートと返信が含まれています。



チャットボットトレーニングダイアログデータセット



セマンティックWebインタレストグループIRCチャットログ。この自動生成されたIRCチャットログは、タイムスタンプとエイリアスを含め、2004年以降毎日維持されているRDFで利用できます。



Cornell Corps of FilmDialogues。このコーパスには、映画の脚本からの架空の会話が豊富なメタデータの大規模なコレクションが含まれています。617本の映画の9035文字の10,292組の映画ヒーローの間には220,579の会話があります。



ConvAI2データセット。このデータセットには、Yandex.Tolokaクラウドソーシングプラットフォームで作業している人々が参加チームのボットとチャットするPersonaChatコンテストの2,000を超える会話が含まれています。



サンタバーバラ。アメリカンイングリッシュコーパス:このデータセットには、個々のイントネーション単位のレベルで、文字起こし、音声、タイムスタンプに約249,000語が含まれています。



NPSチャットコーパス。このコーパスは、利用規約に従ってさまざまなオンラインチャットルームで収集された約500,000件のメッセージから10,567件のメッセージで構成されています。



マルバでの目標指向の対話。会話がタスクの完了またはフライトやホテルの検索などの決定に焦点を合わせている会話のデータセット。 250以上のホテル、フライト、目的地をカバーする包括的な情報が含まれています。



Ozマルチドメインデータセットのウィザード(MultiWOZ)..。複数のドメインとトピックにまたがる、完全にタグ付けされた会話のコレクション。このセットには、問題の解決に焦点を当てた10,000のダイアログと、以前のすべての注釈付きコーパスよりも少なくとも1桁多いダイアログが含まれています。



多言語ボットをトレーニングするためのデータセット



NUSコーパス。このコーパスは、ソーシャルネットワークからのテキストを正規化して翻訳するために作成されました。これは、NUS英語SMSコーパスから2,000のメッセージをランダムに選択して作成され、正式な中国語に翻訳されます。



EXCITEMENTデータセット。英語とイタリア語で利用可能なこれらのキットには、顧客が会社に不満を持っている理由を示す否定的な顧客の証言が含まれています。



それでも探しているデータが見つかりませんか? Lionbridge AIは、300言語の機械学習を使用しチャットボットトレーニングするためのカスタムデータを提供し、会話をよりインタラクティブにし、世界中の顧客をサポートします。また、機械学習を向上させたい場合は、上級コースに参加してくださいMLによって、バナー割引に10%を追加するHABRプロモーションコードを忘れないでください



画像








その他のコース


おすすめ記事






All Articles