Введение
Kubernetes предоставляет доступ к специальным аппаратным ресурсам (таким как Ascend NPU) через Device Plugins. Однако для настройки и управления узлом с такими аппаратными ресурсами требуется несколько программных компонентов (например, драйверы, контейнерные рантаймы или другие библиотеки). Установка этих компонентов сложна, трудоемка и подвержена ошибкам. NPU operator использует Operator Framework в Kubernetes для автоматического управления всеми программными компонентами, необходимыми для настройки устройств Ascend. Эти компоненты включают драйвер и прошивку Ascend (которые поддерживают весь процесс работы кластера), а также плагин устройства MindCluster (который поддерживает операции кластера, такие как планирование заданий, мониторинг O&M и восстановление после сбоев). Установив соответствующие компоненты, вы сможете управлять ресурсами NPU, оптимизировать планирование рабочих нагрузок и контейнеризировать задачи обучения и инференса, чтобы AI-задачи могли развертываться и выполняться на устройствах NPU в виде контейнеров.
Для получения дополнительной информации обратитесь к NPU Operator.