Часто задаваемые вопросы
Содержание
Под пода плагина устройства Hami не запускается при тайм-ауте API драйвера nvidia.RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavaliableПланировщик hami блокирует Node и не может его запланировать.Под пода плагина устройства Hami не запускается при тайм-ауте API драйвера nvidia.
Когда API драйвера Nvidia работает слишком медленно (команда nvidia-smi также возвращается слишком медленно), плагин устройства Hami не может запуститься.
Вы можете выполнить nvidia-smi -pm enable, а затем перезапустить под плагина устройства Hami, чтобы решить эту проблему.
RuntimeError: CUDA error: CUDA-capable device(s) is/are busy or unavaliable
При запуске двух сервисов инференса на одной видеокарте, один из них всегда завершается с ошибкой.
Вы можете выполнить nvidia-smi -i 0 -c 0, чтобы разрешить всем процессам доступ к GPU.
Планировщик hami блокирует Node и не может его запланировать.
Это происходит, когда под случайно удаляется во время фазы bind, оставляя висящий NodeLock. Другие поды должны ждать истечения блокировки, прежде чем их смогут запланировать. Этот PR проактивно очищает NodeLock при возникновении ошибки, устраняя эту проблему. Это будет исправлено в следующей версии hami (2.7).