Googleに匹敵する品質の最新のSTTモデルを公開しました



ついに、次の言語向けの高品質の事前トレーニング済み音声認識モデル(つまり、Googleのプレミアムモデルと同等の品質)のセットを公開しました



  • 英語;
  • ドイツ人;
  • スペイン語;


モデルは、品質と速度の例と指標とともに、リポジトリにあります。また、モデルの使用をできるだけ簡単にするように努めました。Collabに例を投稿し、PyTorch、ONNX、TensorFlowのチェックポイントを投稿しました。モデルはTorchHubからアップロードすることもできます。



PyTorch ONNX TensorFlow 品質 コラボ
英語(en_v1) ✓✓ ✓✓ ✓✓ リンク Colabで開く
ドイツ語(de_v1) ✓✓ ✓✓ ✓✓ リンク Colabで開く
スペイン語(es_v1) ✓✓ ✓✓ ✓✓ リンク Colabで開く


どうしてそれが重要ですか



音声認識は、従来、いくつかの理由で参入に対する高い障壁がありました。



  • データの収集は困難です。
  • 同等のデータユニットのマークアップは、コンピュータビジョンよりもはるかに高価です。
  • 計算能力と時代遅れの技術に対する高い要件。


これは、リリース前に既存の音声認識ソリューションが直面していた典型的な問題のリストです。



  • この分野の研究は通常、膨大な計算能力で行われます。
  • - , " ", ;
  • , - ;


- , ( ). :



  • - ;
  • ;
  • ;
  • - ;
  • , , ;




, . :



  • ;
  • . , , ;
  • ("1 ");




, — 50 .

— 10-20 .

.








All Articles