Примечания к выпуску

Содержание

Поддержка совместного использования Huawei Ascend NPU
Поддержка режима CDI (Container Device Interface) на устройствах NVIDIA
Синхронизация с NVIDIA k8s-device-plugin v0.18.0
Добавлены метрики Prometheus hami_build_info и вывод версии
Отслеживание и горячая перезагрузка TLS-сертификатов без перезапуска pod'ов
Поддержка проверки готовности toolkit NVIDIA GPU Operator
Поддержка конфигурации GPUDirect RDMA copy (GDRCopy) и GPUDirect Storage (GDS)
Поддержка mock device plugin для тестовых сред
HAMi-WebUI обновлен до v1.10.0 для совместимости с Hami v2.8; v1.10.0 совместим с Hami v2.7 и v2.8, тогда как v1.5.0 несовместим с Hami v2.8

Исправлено: обновлен HAMi-core для устранения проблем, связанных с vLLM
Исправлена ошибка расчета квоты
Исправлена ошибка выделения MIG-инстансов, при которой планировщик выделял неправильные MIG-инстансы
Исправлено: nvidia-mig-parted обновлен до v0.12.2 для устранения уязвимостей безопасности
Исправлено: после удаления device plugin с GPU-узла он все еще мог отображаться
Исправлены ошибки одновременного чтения/записи map
Исправлена логика получения Device-NUMA
Исправлена ошибка ClusterRoleBinding при изменении имени release или имени chart

Исправлено: после удаления device plugin с GPU-узла его все еще можно было запланировать на этот узел.

Исправлено: память устройства некорректно учитывалась при выделении с помощью cuMallocAsync
Исправлено: память устройства некорректно учитывалась при запуске gpu_burn
Исправлено: сегментационное нарушение в некоторых сценариях
Исправлено: метрики загрузки некорректно учитывались при использовании нескольких устройств
Исправлена ошибка инициализации при использовании vllm с tp>2

Оптимизирован журнал планировщика
Поддержка enflame gcu-share
Поддержка metax GPU и metax sGPU
В Helm chart добавлена checksum-аннотация для перезапуска компонента hami после изменения ConfigMap
Поддержка использования RuntimeClass с устройствами NVIDIA
Добавлена поддержка профилирования через пакет net/http/pprof
Добавлен реестр оценки топологии NVIDIA GPU для узла
Добавлена поддержка метрик MigInfo в vGPUmonitor

Исправлено зависание на драйвере 570+
Исправлено некорректное подсчитывание памяти устройства в задаче comfyUI
Исправлено некорректное выделение устройств cambricon
Исправлены неправильные логи и ошибка в количестве запрашиваемых контейнером устройств
Исправлено несоответствие аннотаций vgpu-devices-allocated
Исправлено удаление устройств узла из node manager
Исправлено: динамическое разделение GPU не имело гранулярности на уровне одной GPU
Исправлена ошибка подсчета памяти устройства при использовании cuMallocAsync
Исправлен сбой планировщика, если задача 'mig' случайно запускалась на GPU 'hami-core'
Исправлен подсчет памяти устройства в многопроцессном режиме