我们的动机:事情可能会出错机器学习在生产环境中可能会以多种方式失败。可能会出现错误的预测或扭曲的结果。通常很难检测到这种意外行为,尤其是当操作看似成功时。一旦发生事件,可追溯性使我们能够确定问题的原因并迅速采取行动。我们可以轻松确定哪个代码版本负责训练和预测以及使用了哪些数据。
开发可追踪数据管道的分步指南
通过为数据从源到结果创建清晰的路径,可追溯的管道使团队能够检测错误,识别问题的根本原因,并最终提高结果的质量。它们为可重复研究、协作工作以及有效处理数据或模型变更的能力提供了坚实的基础。
数字化VC
在这个实际示例中,我们将使用 DVC 创建可追踪 加拿大 whatsapp 数据 的数据管道。数据版本控制是一款免费的开源工具,用于数据管理、自动化 ML 管道和管理实验。它可以帮助机器学习团队管理大型数据集,跟踪模型、数据和管道的版本,并通常使项目可重复。您可以在此处了解有关 DVC 的更多信息。
设置
我使用Python3进行配置。我将 DVC 添加到我的环境(conda 或诗歌,具体取决于偏好)并使用命令初始化 DVC dvc init。
DVC 初始化后,会.dvc/创建一个名为 的新目录。它包含用户通常看不到的内部设置、缓存文件和目录。该目录会使用 git add 自动添加到暂存区,因此可以轻松地使用 Git 提交。
第 1 步:数据版本控制
通过dvc add指定要监控的目标,我们可以轻松监控数据集、模型或大文件。 DVC 管理相应的 .dvc 文件并确保工作区中的数据一致性。
执行该命令后,将创建一个data.xml.dvc文件。
图中显示的MD5值是DVC正在监控的文件或目录的哈希值。在本例中,它是 data.xml 文件的哈希值。该文件包含随着时间的推移跟踪目标数据所需的信息。
对于尚未跟踪的新文件和目录,DVC 会创建新的 .dvc 文件来跟踪添加的数据并将其存储在缓存中。DVC 还支持不同的存储类型:云提供商上的远程存储,甚至是自存储托管/本地存储。 。