コンテンツ
前書き
DVCのすべての利点にもかかわらず、このツールについて知っている開発者はほとんどいません。したがって、最初に紹介することは不必要ではないと思います。DVCは、機械学習に最適なオープンソースのデータバージョン制御システムです。また、DVCとGitの主な違いは、次のとおりです。まず、MLプロジェクト用のより広く便利なツールキットがあります。次に、コードではなく、データのバージョン制御用に設計されています。そして、ほとんどの場合、これが彼らの主な違いが終わるところです。次に、DVCが非常に優れている理由と、GitがMLに十分でない理由について説明します。
再現性の危機
«Reproducibility crisis» ( . – « »), , , , , .
? , 98.5%, ?
, . . , . – , , , , , .
, – . , / . , .
Git . , / - , , , GitHub. . , , . – , - joblib. , . – Git-LFS
Git-LFS [] Git , Git. – / , . . . . , :
- Git-LFS – 1 GitHub ( ), Gitlab Atlassian . , LFS .
- , .
- Git-LFS . LFS .
- Git-LFS .
Data Version Control
DVC Git. , (, Git). DVC + Git :
Github’ - . ( ) , . .
DVC . , - , - «- 0 1». DVC «1» . – : «0 0 1», «1 1 2» «2 2 ». 6 . , DVC . , Make, DVC .
DVC:
- ;
- ;
- データセットを処理するためのパイプラインの作成とコンソールでの視覚化。
- すべてのメトリックの保存と追跡。
- ファイルバージョンの切り替え。
- 作成されたパイプラインでのモデルの複製。