Примечания к выпуску
Содержание
v2.7.1
Ключевые возможности:
- Поддержка NVIDIA GPU ResourceQuota (ACP 4.2+)
- Агрегированные события сбоев планирования
- Возможность настройки таймаута блокировки узла
Исправления ошибок
- Исправлено: после удаления device plugin с gpu-узла, он всё ещё мог планироваться на этот узел.
v2.6.1
Исправления ошибок
- Исправлено: неправильный подсчёт памяти устройства при выделении с помощью 'cuMallocAsync'
- Исправлено: неправильный подсчёт памяти устройства при запуске gpu_burn
- Исправлено: ошибка сегментации в некоторых сценариях
- Исправлено: некорректный подсчёт метрик использования при работе с несколькими устройствами
- Исправлено: ошибка инициализации при использовании vllm с tp>2
v2.6.0
Ключевые возможности:
- Оптимизация логов планировщика
- Поддержка enflame gcu-share
- Поддержка metax GPU и metax sGPU
- В Helm chart добавлена аннотация checksum для перезапуска компонента hami после изменения ConfigMap
- Поддержка использования RuntimeClass с устройствами nvidia
- Добавлена поддержка профилирования через пакет net/http/pprof
- Добавлен реестр оценки топологии nvidia gpu на узле
- Функция: vGPUmonitor поддерживает метрики MigInfo
Исправления ошибок
- Исправлено зависание на драйвере 570+
- Исправлен неправильный подсчёт памяти устройства в задаче comfyUI
- Исправлена неправильная аллокация устройств cambricon
- Исправлены некорректные логи и ошибки подсчёта запрошенных устройств контейнером
- Исправлена несогласованность аннотаций vgpu-devices-allocated
- Исправлено удаление устройств узла из менеджера узлов
- Исправлено: динамическое разделение GPU не имеет гранулярности на уровне одного GPU
- Исправлена ошибка подсчёта памяти устройства при cuMallocAsync
- Исправлен сбой планировщика при случайном запуске задачи 'mig' на GPU 'hami-core'
- Исправлен подсчёт памяти устройства при многопроцессном использовании