Быстрый старт с Kubeflow Trainer
Содержание
ВведениеПодготовка runtime-образаПодготовка ClusterTrainingRuntimeЗапуск примерного ноутбукаЗаключениеВведение
Kubeflow Trainer v2 — это компонент Kubeflow, который упрощает процесс запуска распределённых задач обучения машинного обучения на Kubernetes. Он предоставляет стандартизированный способ определения runtime и заданий обучения, поддерживая различные фреймворки, такие как PyTorch, Transformers, TensorFlow и другие. В Alauda AI Kubeflow Trainer v2 интегрируется с рабочей средой ноутбуков платформы, позволяя пользователям отправлять и управлять задачами обучения непосредственно из рабочего пространства разработки.
В этом руководстве быстрого старта показано, как настроить распределённую среду обучения PyTorch с использованием Kubeflow Trainer v2. Вы научитесь создавать пользовательский runtime-образ, настраивать ClusterTrainingRuntime и запускать пример задачи обучения для классификации MNIST. Эта настройка обеспечивает эффективное распределённое обучение на GPU-кластерах с использованием возможностей управления ресурсами и безопасности Alauda AI.
Подготовка runtime-образа
Создайте файл torch_distributed.Containerfile с приведённым ниже содержимым и соберите образ. Либо вы можете использовать предсобранный образ alaudadockerhub/torch-distributed:v2.9.1-aml2.
Подготовка ClusterTrainingRuntime
Создайте файл kf-torch-distributed.yaml для добавления конфигурации ClusterTrainingRuntime для запуска распределённого pytorch TrainJob в Alauda AI. Затем выполните kubectl apply -f kf-torch-distributed.yaml от имени администратора для создания.
Примечание: стандартный
ClusterTrainingRuntimeбыл изменён для соответствия настройкам безопасности по умолчанию в Alauda AI.
Запуск примерного ноутбука
Примечание: для запуска приведённого ниже примерного ноутбука необходим доступ в интернет, так как в ноутбуке устанавливаются python-пакеты и скачиваются датасеты.
Скачайте kubeflow_trainer_mnist.ipynb из github workbench howtos и перетащите файл в ваш экземпляр ноутбука. Следуйте инструкциям в ноутбуке для запуска TrainJob с использованием pytorch.
Для получения дополнительной информации о том, как использовать Kubeflow Trainer v2, обратитесь к Kubeflow Document
Заключение
Следуя этому руководству быстрого старта, вы успешно настроили Kubeflow Trainer v2 в вашей среде Alauda AI и запустили распределённую задачу обучения PyTorch. Эта база позволяет эффективно масштабировать ваши задачи машинного обучения на несколько узлов и GPU.
Дальнейшие шаги:
- Экспериментируйте с различными моделями и датасетами, изменяя примерный ноутбук.
- Изучайте расширенные возможности, такие как пользовательские метрики, настройка гиперпараметров и интеграция с MLflow для отслеживания экспериментов.
- Адаптируйте ClusterTrainingRuntime для других фреймворков, таких как TensorFlow, или для пользовательских скриптов обучения.
Для более подробной документации и расширенных настроек обращайтесь к документации Kubeflow Trainer v2.