• Русский
  • Введение

    Kubernetes предоставляет доступ к специальным аппаратным ресурсам, таким как Ascend NPU, через Device Plugins. Однако для настройки и управления узлом, содержащим такие аппаратные ресурсы, требуются несколько программных компонентов, таких как драйверы, container runtimes или другие библиотеки. Установка этих компонентов сложна, трудоемка и подвержена ошибкам. NPU operator использует Operator Framework в Kubernetes для автоматического управления всеми программными компонентами, необходимыми для настройки устройств Ascend. Эти компоненты включают драйвер и прошивку Ascend, которые поддерживают весь процесс работы кластеров, а также плагин устройств MindCluster, который поддерживает такие операции кластера, как планирование заданий, мониторинг O&M и восстановление после сбоев. Установив соответствующие компоненты, вы можете управлять ресурсами NPU, оптимизировать планирование рабочей нагрузки и контейнеризировать задачи обучения и инференса, чтобы AI jobs можно было развертывать и запускать на устройствах NPU в виде контейнеров.

    Для получения дополнительных сведений см. NPU Operator.