DVCとGIT。機械学習プロジェクトにGITでは不十分な理由

コンテンツ





前書き



DVCのすべての利点にもかかわらず、このツールについて知っている開発者はほとんどいません。したがって、最初に紹介することは不必要ではないと思います。DVCは、機械学習に最適なオープンソースのデータバージョン制御システムです。また、DVCとGitの主な違いは、次のとおりです。まず、MLプロジェクト用のより広く便利なツールキットがあります。次に、コードではなく、データのバージョン制御用に設計されています。そして、ほとんどの場合、これが彼らの主な違いが終わるところです。次に、DVCが非常に優れている理由と、GitがMLに十分でない理由について説明します。









再現性の危機



«Reproducibility crisis» ( . – « »), , , , , .







? , 98.5%, ?







, . . , . – , , , , , .







, – . , / . , .











Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS







Git-LFS [] Git , Git. – / , . . . . , :







  • Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
  • , .
  • Git-LFS . LFS .
  • Git-LFS .




Data Version Control



DVC Git. , (, Git). DVC + Git :











Github’ - . ( ) , . .







DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .







DVC:







  • ;
  • ;
  • データセットを処理するためのパイプラインの作成とコンソールでの視覚化。
  • すべてのメトリックの保存と追跡。
  • ファイルバージョンの切り替え。
  • 作成されたパイプラインでのモデルの複製。









All Articles