• Русский
  • Введение

    Alauda Build of KubeRay Operator — это Kubernetes-нативный оператор, который предоставляет комплексное решение для запуска приложений Ray в Kubernetes. Основанный на open-source проекте KubeRay, он упрощает развертывание и управление кластерами Ray, заданиями и сервисами с помощью Custom Resource Definitions (CRD) Kubernetes.

    Содержание

    OverviewKey FeaturesUse Cases

    Overview

    Alauda Build of KubeRay Operator предоставляет три основных CRD:

    • RayCluster: Полностью управляет жизненным циклом кластеров Ray, включая создание/удаление кластера, автоскейлинг и отказоустойчивость.
    • RayJob: Автоматически создает RayCluster и отправляет задания, когда кластер готов. Поддерживает автоматическую очистку после завершения задания.
    • RayService: Управляет развертываниями Ray Serve с обновлениями без простоя и высокой доступностью для продакшен-сервиса ML-моделей.

    Key Features

    • Autoscaling: Автоматически регулирует количество рабочих узлов в зависимости от требований нагрузки.
    • Heterogeneous Compute: Поддерживает ресурсы GPU и другие ускорители для распределенного обучения и инференса.
    • Multiple Ray Versions: Позволяет запускать разные версии Ray в одном Kubernetes-кластере.
    • Fault Tolerance: Обеспечивает встроенные механизмы обработки сбоев узлов и повторных попыток заданий.
    • Kubernetes Integration: Бесшовно интегрируется с существующими инструментами и рабочими процессами Kubernetes.
    • Ecosystem Support: Работает с инструментами наблюдения (Prometheus, Grafana), системами очередей (Kueue, Volcano) и ingress-контроллерами.

    Use Cases

    • Distributed Machine Learning: Масштабирование ML-задач обучения на нескольких узлах.
    • Model Serving: Развертывание и обслуживание ML-моделей в масштабе с помощью Ray Serve.
    • Batch Inference: Обработка больших наборов данных с параллельными задачами инференса.
    • Hyperparameter Tuning: Запуск распределенной оптимизации гиперпараметров с Ray Tune.
    • LLM Inference: Развертывание больших языковых моделей для онлайн-инференса.

    Для получения дополнительной информации обратитесь к Ray on Kubernetes.