• Русский
  • Примечания к выпуску

    v2.8.1

    Ключевые возможности:

    • Поддержка совместного использования Huawei Ascend NPU
    • Поддержка режима CDI (Container Device Interface) на устройствах NVIDIA
    • Синхронизация с NVIDIA k8s-device-plugin v0.18.0
    • Добавлены метрики Prometheus hami_build_info и вывод версии
    • Отслеживание и горячая перезагрузка TLS-сертификатов без перезапуска pod'ов
    • Поддержка проверки готовности toolkit NVIDIA GPU Operator
    • Поддержка конфигурации GPUDirect RDMA copy (GDRCopy) и GPUDirect Storage (GDS)
    • Поддержка mock device plugin для тестовых сред
    • HAMi-WebUI обновлен до v1.10.0 для совместимости с Hami v2.8; v1.10.0 совместим с Hami v2.7 и v2.8, тогда как v1.5.0 несовместим с Hami v2.8

    Исправления ошибок

    • Исправлено: обновлен HAMi-core для устранения проблем, связанных с vLLM
    • Исправлена ошибка расчета квоты
    • Исправлена ошибка выделения MIG-инстансов, при которой планировщик выделял неправильные MIG-инстансы
    • Исправлено: nvidia-mig-parted обновлен до v0.12.2 для устранения уязвимостей безопасности
    • Исправлено: после удаления device plugin с GPU-узла он все еще мог отображаться
    • Исправлены ошибки одновременного чтения/записи map
    • Исправлена логика получения Device-NUMA
    • Исправлена ошибка ClusterRoleBinding при изменении имени release или имени chart

    v2.7.1

    Ключевые возможности:

    • Поддержка NVIDIA GPU ResourceQuota (ACP 4.2+)
    • Агрегированные события сбоев планирования
    • Тайм-аут блокировки узла сделан настраиваемым

    Исправления ошибок

    • Исправлено: после удаления device plugin с GPU-узла его все еще можно было запланировать на этот узел.

    v2.6.1

    Исправления ошибок

    • Исправлено: память устройства некорректно учитывалась при выделении с помощью cuMallocAsync
    • Исправлено: память устройства некорректно учитывалась при запуске gpu_burn
    • Исправлено: сегментационное нарушение в некоторых сценариях
    • Исправлено: метрики загрузки некорректно учитывались при использовании нескольких устройств
    • Исправлена ошибка инициализации при использовании vllm с tp>2

    v2.6.0

    Ключевые возможности:

    • Оптимизирован журнал планировщика
    • Поддержка enflame gcu-share
    • Поддержка metax GPU и metax sGPU
    • В Helm chart добавлена checksum-аннотация для перезапуска компонента hami после изменения ConfigMap
    • Поддержка использования RuntimeClass с устройствами NVIDIA
    • Добавлена поддержка профилирования через пакет net/http/pprof
    • Добавлен реестр оценки топологии NVIDIA GPU для узла
    • Добавлена поддержка метрик MigInfo в vGPUmonitor

    Исправления ошибок

    • Исправлено зависание на драйвере 570+
    • Исправлено некорректное подсчитывание памяти устройства в задаче comfyUI
    • Исправлено некорректное выделение устройств cambricon
    • Исправлены неправильные логи и ошибка в количестве запрашиваемых контейнером устройств
    • Исправлено несоответствие аннотаций vgpu-devices-allocated
    • Исправлено удаление устройств узла из node manager
    • Исправлено: динамическое разделение GPU не имело гранулярности на уровне одной GPU
    • Исправлена ошибка подсчета памяти устройства при использовании cuMallocAsync
    • Исправлен сбой планировщика, если задача 'mig' случайно запускалась на GPU 'hami-core'
    • Исправлен подсчет памяти устройства в многопроцессном режиме