• Русский
  • Введение

    Введение в Monitoring & Ops

    Monitoring & Ops — это основной модуль платформы Alauda AI, специально разработанный для эксплуатации сервисов AI inference. Он обеспечивает всестороннюю наблюдаемость и операционные возможности на протяжении всего жизненного цикла сервисов inference, позволяя осуществлять единое управление логами и многомерными метриками через интегрированные панели мониторинга. Будучи ключевым компонентом решений Alauda AI для MLOps/LLMOps/GenOps, он помогает командам обеспечивать надежность сервисов, оптимизировать использование ресурсов и ускорять реагирование на инциденты.

    Этот модуль сосредоточен на двух основных аспектах эксплуатации:

    • Логирование: потоковая передача логов подов реплик сервисов inference в реальном времени
    • Мониторинг: многомерные панели производительности, охватывающие инфраструктуру, GPU-ресурсы и API-трафик

    Примечание: GPU-панели Hami поддерживаются только в версии AML 1.4 и выше.