Примечания к выпуску
v2.6.1
Исправления ошибок
- Исправлено: Некорректный подсчет памяти устройства при выделении с помощью 'cuMallocAsync'
- Исправлено: Некорректный подсчет памяти устройства при запуске gpu_burn
- Исправлено: Ошибка сегментации в некоторых сценариях
- Исправлено: Некорректный подсчет метрик использования при работе с несколькими устройствами
- Исправлено: Ошибка инициализации при использовании vllm с tp>2
v2.6.0
Основные возможности:
- Оптимизация логов планировщика
- Поддержка enflame gcu-share
- Поддержка metax GPU и metax sGPU
- В Helm chart добавлена аннотация checksum для перезапуска компонента hami после изменения ConfigMap
- Поддержка использования RuntimeClass с устройствами nvidia
- Добавлена поддержка профилирования через пакет net/http/pprof
- Добавлен реестр оценки топологии nvidia gpu на узле
- Feat: vGPUmonitor поддерживает метрики MigInfo
Исправления ошибок
- Исправлено зависание на драйверах 570+
- Исправлен некорректный подсчет памяти устройства в задаче comfyUI
- Исправлено неправильное выделение устройств cambricon
- Исправлены ошибки в логах и подсчете запрашиваемых устройств контейнером
- Исправлена несогласованность аннотаций vgpu-devices-allocated
- Исправлено удаление устройств узла из менеджера узлов
- Исправлено: Динамическое разделение GPU не имеет гранулярности на уровне одного GPU
- Исправлена ошибка подсчета памяти устройства при cuMallocAsync
- Исправлен сбой планировщика при случайном запуске задачи 'mig' на GPU 'hami-core'
- Исправлен подсчет памяти устройства при многопроцессной работе