Probes
Платформа предоставляет возможности Probe (мониторинг black-box) на основе Blackbox Exporter, позволяя проверять сетевые сервисы через протоколы ICMP, TCP и HTTP. В отличие от white-box мониторинга, который опирается на внутренние метрики системы, Probe оценивает сервисы извне с точки зрения пользователя, быстро выявляя сбои, влияющие на пользовательский опыт.
Например, если бизнес-интерфейс перестает отвечать (например, ошибки HTTP 5xx) или критический сервис становится недоступен, Probe мгновенно обнаруживает аномалию, генерирует оповещения и упрощает устранение неполадок для операционных команд.
Панель мониторинга
Платформа оснащена модернизированной функцией управления панелями мониторинга, обеспечивая более удобный визуальный опыт настройки по сравнению с традиционным Grafana. Предоставляя единый обзор мониторинга, она агрегирует и отображает различные данные метрик, помогая пользователям быстро создавать необходимые панели мониторинга.
Стратегии оповещений
Платформа предоставляет комплексные возможности оповещений, поддерживая настройку правил оповещений на основе метрик, логов и событий. Благодаря богатому набору встроенных метрик мониторинга и шаблонов оповещений пользователи могут быстро настроить стратегии оповещений, соответствующие бизнес-требованиям, обеспечивая своевременное обнаружение и решение проблем.
Шаблоны оповещений
Шаблоны оповещений стандартизируют и инкапсулируют правила оповещений и стратегии уведомлений, поддерживая быстрое повторное использование для множества объектов мониторинга. Конфигурация на основе шаблонов значительно снижает затраты на управление стратегиями оповещений и повышает эффективность эксплуатации.
История оповещений
Система полностью фиксирует жизненный цикл оповещений, включая время срабатывания, время восстановления, статус оповещения, уровень и содержание оповещения. Пользователи могут отслеживать и анализировать проблемы через историю оповещений, постоянно оптимизируя настройки оповещений.
Уведомления
Платформа поддерживает несколько каналов оповещений, включая email, DingTalk, WeChat Work, Feishu и Webhook, обеспечивая своевременную доставку информации ответственным лицам. Пользователи могут гибко настраивать стратегии уведомлений в соответствии с реальными потребностями.
Распределённое трассирование предоставляет возможности полного трассирования цепочек вызовов в микросервисной архитектуре. Сбор метаданных межсервисных вызовов помогает пользователям быстро локализовать проблемы в кросс-сервисных взаимодействиях.
Платформа автоматически собирает и централизованно управляет стандартным выводом и файловыми логами с кластеров, узлов и контейнеров. Она обеспечивает мощные возможности хранения, поиска и анализа логов, поддерживает многомерные запросы и визуализацию логов, помогая пользователям быстро выявлять проблемы.
Платформа в реальном времени собирает критическую информацию о событиях из Kubernetes кластеров, фиксируя полный процесс изменения состояния ресурсов. При возникновении исключений в кластерах, узлах, Pods и т.д. события позволяют проследить причины и значительно повысить эффективность решения проблем.
Инспекция
Опираясь на обширный опыт эксплуатации корпоративного уровня, платформа предлагает возможности автоматизированной инспекции. Посредством многомерных проверок состояния она помогает пользователям в реальном времени контролировать работоспособность ресурсов, выявлять потенциальные риски на ранних стадиях и снижать затраты на ручные проверки.
Состояние здоровья платформы
Предоставляется интуитивный обзор функционального состояния платформы, поддерживающий просмотр условий развертывания и статусов работы компонентов. Пользователи с правами управления платформой могут углубиться в подробные данные проверок здоровья, быстро находя и устраняя проблемы на уровне платформы.