Примечания к выпуску
v2.8.1
Ключевые возможности:
- Поддержка совместного использования Huawei Ascend NPU
- Поддержка режима CDI (Container Device Interface) на устройствах NVIDIA
- Синхронизация с NVIDIA k8s-device-plugin v0.18.0
- Добавлены метрики Prometheus
hami_build_info и вывод версии
- Отслеживание и горячая перезагрузка TLS-сертификатов без перезапуска pod'ов
- Поддержка проверки готовности toolkit NVIDIA GPU Operator
- Поддержка конфигурации GPUDirect RDMA copy (GDRCopy) и GPUDirect Storage (GDS)
- Поддержка mock device plugin для тестовых сред
- HAMi-WebUI обновлен до v1.10.0 для совместимости с Hami v2.8; v1.10.0 совместим с Hami v2.7 и v2.8, тогда как v1.5.0 несовместим с Hami v2.8
Исправления ошибок
- Исправлено: обновлен HAMi-core для устранения проблем, связанных с vLLM
- Исправлена ошибка расчета квоты
- Исправлена ошибка выделения MIG-инстансов, при которой планировщик выделял неправильные MIG-инстансы
- Исправлено: nvidia-mig-parted обновлен до v0.12.2 для устранения уязвимостей безопасности
- Исправлено: после удаления device plugin с GPU-узла он все еще мог отображаться
- Исправлены ошибки одновременного чтения/записи map
- Исправлена логика получения Device-NUMA
- Исправлена ошибка ClusterRoleBinding при изменении имени release или имени chart
v2.7.1
Ключевые возможности:
- Поддержка NVIDIA GPU ResourceQuota (ACP 4.2+)
- Агрегированные события сбоев планирования
- Тайм-аут блокировки узла сделан настраиваемым
Исправления ошибок
- Исправлено: после удаления device plugin с GPU-узла его все еще можно было запланировать на этот узел.
v2.6.1
Исправления ошибок
- Исправлено: память устройства некорректно учитывалась при выделении с помощью
cuMallocAsync
- Исправлено: память устройства некорректно учитывалась при запуске gpu_burn
- Исправлено: сегментационное нарушение в некоторых сценариях
- Исправлено: метрики загрузки некорректно учитывались при использовании нескольких устройств
- Исправлена ошибка инициализации при использовании vllm с tp>2
v2.6.0
Ключевые возможности:
- Оптимизирован журнал планировщика
- Поддержка enflame gcu-share
- Поддержка metax GPU и metax sGPU
- В Helm chart добавлена checksum-аннотация для перезапуска компонента hami после изменения ConfigMap
- Поддержка использования RuntimeClass с устройствами NVIDIA
- Добавлена поддержка профилирования через пакет net/http/pprof
- Добавлен реестр оценки топологии NVIDIA GPU для узла
- Добавлена поддержка метрик MigInfo в vGPUmonitor
Исправления ошибок
- Исправлено зависание на драйвере 570+
- Исправлено некорректное подсчитывание памяти устройства в задаче comfyUI
- Исправлено некорректное выделение устройств cambricon
- Исправлены неправильные логи и ошибка в количестве запрашиваемых контейнером устройств
- Исправлено несоответствие аннотаций vgpu-devices-allocated
- Исправлено удаление устройств узла из node manager
- Исправлено: динамическое разделение GPU не имело гранулярности на уровне одной GPU
- Исправлена ошибка подсчета памяти устройства при использовании cuMallocAsync
- Исправлен сбой планировщика, если задача 'mig' случайно запускалась на GPU 'hami-core'
- Исправлен подсчет памяти устройства в многопроцессном режиме