• Русский
  • Inspection

    Execute Inspection

    1. Нажмите Operation Center > Inspection > Basic Inspection в левой навигационной панели.

      Совет: На странице инспекции отображается информация о данных последней проведённой инспекции. Во время процесса инспекции вы можете в реальном времени просматривать данные ресурсов завершённых инспекций.

    2. На странице Basic Inspection поддерживаются следующие действия:

      • Execute Inspection: Нажмите кнопку Inspection в правом верхнем углу страницы, чтобы выполнить инспекцию платформы.

      • Download Inspection Report: Нажмите кнопку Download Report в правом верхнем углу страницы, выберите формат отчёта (PDF или Excel) в появившемся диалоговом окне и нажмите для скачивания, что загрузит отчёт соответствующего формата на ваш локальный компьютер.

        • Отчёт инспекции в формате PDF не содержит страницы с деталями рисков ресурсов;

        • Отчёт инспекции в формате Excel содержит все данные инспекции;

        • Поддерживается одновременная загрузка отчётов в обоих форматах.

    Inspection Configuration

    Inspection ConfigurationОписание
    Scheduled InspectionПравила времени выполнения автоматических задач, поддерживается ввод выражений Crontab.
    Совет: Нажмите на поле ввода, чтобы развернуть предустановленные платформой Trigger Rule Templates, выберите подходящий шаблон и быстро настройте правила триггера с минимальными изменениями.
    Inspection Record RetentionКоличество сохраняемых записей инспекций.
    Email NotificationВыбор контактов для уведомлений по электронной почте.
    Примечание: Контакты для уведомлений должны иметь настроенный email.
    Inspection Report NameИмя, которое будет использоваться встроенным шаблоном уведомлений инспекции платформы для оповещения контактов.
    Inspection Configuration ItemsИзменение порогов предупреждений или отключение элементов инспекции в соответствии с дефолтными элементами инспекции платформы для сертификатов, хостов кластера и pod-ов.

    Inspection Report Explanation

    Most Recent Inspection

    В области информации Most Recent Inspection можно просмотреть данные последней проведённой инспекции:

    • Inspection Time: Время начала и окончания последней инспекции.

    • Total Number of Inspection Resources: Общее количество ресурсов (кластеров, узлов, pod-ов, сертификатов), проверенных в последней инспекции.

    • Risks: Количество ресурсов с рисками, включая те, которые классифицированы как Fault и Warning.

    Resource Risk Inspection

    На странице Resource Risk Inspection можно просмотреть обзор информации о рисках для global кластеров, собственных кластеров, подключённых кластеров, а также всех узлов, pod-ов и сертификатов в этих кластерах.

    Нажмите кнопку Risk Details на карточке соответствующего типа ресурса (Cluster, Node, pod, Certificate), чтобы перейти на страницу с деталями рисков для данного типа ресурса. На странице деталей можно просмотреть информацию о последней инспекции ресурса, а также список ресурсов с ошибками и предупреждениями.

    • Нажмите на имя ресурса, чтобы перейти на страницу деталей ресурса.

    • Нажмите кнопку раскрытия справа от поля Name в списке, чтобы развернуть условия и причины срабатывания ошибок и предупреждений.

    Для объяснения критериев оценки состояния риска (Fault, Warning) для каждого ресурса смотрите таблицу ниже.

    Примечание: Для оценки ошибок и предупреждений каждого типа ресурса используется несколько условий; если данные инспекции ресурса соответствуют хотя бы одному из условий, это считается рисковыми данными.

    Resource TypeInspection ScopeFault Judgment ConditionsWarning Judgment Conditions
    Cluster- global cluster
    - Self-built cluster
    - Accessed cluster
    - Статус кластера Abnormal;
    - Нарушено соединение с apiserver
    - После увеличения масштаба кластера (число узлов/pod-ов/метрик) конфигурация ресурсов компонентов мониторинга не обновлена.
    - После увеличения объёма логов и частоты сбора логов конфигурация ресурсов лог-компонентов не обновлена.
    - Использование CPU кластера превышает 60%;
    - Использование памяти кластера превышает 60%;
    - Любой pod компонента ETCD кластера находится в состоянии, отличном от Running;
    - Любой хост кластера находится в состоянии, отличном от Ready;
    - Разница времени между любыми двумя узлами кластера превышает 40 секунд;
    - Уровень запроса CPU кластера (фактическое значение / общее) превышает 60%;
    - Уровень запроса памяти кластера (фактическое значение / общее) превышает 80%;
    - Компоненты мониторинга не установлены в кластере;
    - Компоненты мониторинга кластера работают с ошибками;
    - Любой pod компонента kube-controller-manager кластера находится в состоянии, отличном от Running;
    - Любой pod компонента kube-scheduler кластера находится в состоянии, отличном от Running;
    - Любой pod компонента kube-apiserver кластера находится в состоянии, отличном от Running.
    Node- Все управляющие узлы
    - Все вычислительные узлы
    - Статус узла Abnormal;
    - Pod компонента node-exporter на узле находится в состоянии, отличном от Running;
    - Pod компонента kubelet на узле находится в состоянии, отличном от Running.
    - Свободных inode на узле менее 1000
    - Использование CPU узла превышает 60%;
    - Использование памяти узла превышает 60%;
    - Использование дискового пространства каталога узла превышает 60%;
    - Системная нагрузка узла превышает 200% и длится более 15 минут;
    - За последние сутки произошло как минимум одно событие NodeDeadlock (зависание узла);
    - За последние сутки произошло как минимум одно событие NodeOOM (недостаток памяти);
    - За последние сутки произошло как минимум одно событие NodeTaskHung (зависание задачи).
    podВсе pod-ы- Статус pod-а Error;
    - Pod находится в состоянии запуска более 5 минут.
    - Использование CPU pod-а превышает 80%;
    - Использование памяти pod-а превышает 80%;
    - Количество перезапусков pod-а за последние 5 минут больше или равно 1.
    Certificate- Сертификаты Certmanager
    - Сертификаты Kubernetes
    Статус сертификата Expired.Срок действия сертификата менее 29 дней.

    Resource Utilization Inspection

    Нажмите вкладку Resource Utilization Inspection, чтобы перейти на страницу Resource Utilization Inspection.

    На странице Resource Utilization Inspection можно просмотреть общий объём, использование и процент использования CPU, памяти и диска для global кластеров, подключённых кластеров и собственных кластеров, а также количество ресурсов, таких как кластеры, узлы, pod-ы и проекты на платформе.

    • Resource Usage Statistics: Просмотр общего объёма и общего процента использования CPU, памяти и диска для глобальных, подключённых и собственных кластеров.

    • Platform Resource Quantity: Просмотр количества ресурсов, работающих на платформе.