Часто задаваемые вопросы
Содержание
Pod плагина устройства Hami не может запуститься при тайм-ауте NVIDIA driver APIRuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailableПланировщик hami блокирует Node и не может размещать на ней podsPod плагина устройства Hami не может запуститься при тайм-ауте NVIDIA driver API
Если NVIDIA driver API работает медленно (и nvidia-smi также долго возвращает ответ), плагин устройства Hami не сможет запуститься.
Выполните nvidia-smi -pm enable, а затем перезапустите Pod плагина устройства Hami, чтобы устранить проблему.
RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavailable
При запуске двух inference services на одной GPU-карте один из них всегда завершается с ошибкой.
Выполните nvidia-smi -i 0 -c 0, чтобы разрешить всем процессам доступ к GPU.
Планировщик hami блокирует Node и не может размещать на ней pods
Это происходит, когда pod случайно удаляется во время фазы bind, оставляя dangling NodeLock. Другим pod нужно дождаться истечения срока действия блокировки, прежде чем они смогут быть запланированы. This PR заранее очищает NodeLock при возникновении ошибки, устраняя эту проблему. Исправлено в HAMi v2.7 и более поздних версиях.