Inspection

Содержание

Execute Inspection

  1. Нажмите Operation Center > Inspection > Basic Inspection в левой навигационной панели.

    Совет: На странице инспекции отображается информация о данных инспекции из последней проверки. Во время процесса инспекции вы можете в реальном времени просматривать данные ресурсов завершённых инспекций.

  2. На странице Basic Inspection поддерживаются следующие действия:

    • Execute Inspection: Нажмите кнопку Inspection в правом верхнем углу страницы, чтобы выполнить инспекцию на платформе.

    • Download Inspection Report: Нажмите кнопку Download Report в правом верхнем углу страницы, выберите формат отчёта (PDF или Excel) в появившемся диалоговом окне и нажмите для скачивания, что загрузит отчёт соответствующего формата на ваш локальный компьютер.

      • Отчёт инспекции в формате PDF не включает страницу с деталями рисков ресурсов;

      • Отчёт инспекции в формате Excel содержит все данные инспекции;

      • Поддерживается одновременная загрузка отчётов в обоих форматах.

Inspection Configuration

Inspection ConfigurationDescription
Scheduled InspectionПравила времени выполнения автоматических задач, поддерживается ввод выражений Crontab.
Совет: Нажмите на поле ввода, чтобы развернуть предустановленные платформой Trigger Rule Templates, выберите подходящий шаблон и быстро настройте правила триггера с минимальными изменениями.
Inspection Record RetentionКоличество сохраняемых записей инспекции.
Email NotificationВыберите контакты для уведомлений по электронной почте.
Примечание: Контакты для уведомлений должны иметь настроенный email.
Inspection Report NameИмя, которое будет использоваться встроенным шаблоном уведомлений инспекции платформы для оповещения контактов.
Inspection Configuration ItemsИзмените пороги предупреждений или отключите элементы инспекции в соответствии с элементами инспекции по умолчанию платформы для сертификатов, хостов кластера и pod-ов.

Inspection Report Explanation

Most Recent Inspection

В области информации Most Recent Inspection вы можете просмотреть соответствующую информацию о последней инспекции:

  • Inspection Time: Время начала и окончания последней инспекции.

  • Total Number of Inspection Resources: Общее количество ресурсов (кластеров, узлов, pod-ов, сертификатов), проверенных в последней инспекции.

  • Risks: Количество ресурсов с рисками, включая те, которые классифицированы как Fault и Warning.

Resource Risk Inspection

На странице Resource Risk Inspection вы можете просмотреть обзор информации о рисках для global кластеров, собственных кластеров, подключённых кластеров, а также всех узлов, pod-ов и сертификатов в этих кластерах.

Нажмите кнопку Risk Details на карточке соответствующего типа ресурса (Cluster, Node, pod, Certificate), чтобы перейти на страницу с деталями рисков для этого типа ресурса. На странице деталей вы можете просмотреть информацию о последней инспекции ресурса, а также список ресурсов с ошибками и предупреждениями.

  • Нажмите на имя ресурса, чтобы перейти на страницу деталей ресурса.

  • Нажмите кнопку раскрытия справа от поля Name в списке, чтобы развернуть условия и причины срабатывания ошибок и предупреждений.

Для объяснения критериев оценки статуса риска (Fault, Warning) для каждого ресурса смотрите таблицу ниже.

Примечание: Для оценки ошибок и предупреждений каждого типа ресурса используется несколько условий; если данные инспекции ресурса соответствуют хотя бы одному из условий, это считается рисковыми данными.

Resource TypeInspection ScopeFault Judgment ConditionsWarning Judgment Conditions
Cluster- global cluster
- Self-built cluster
- Accessed cluster
- Статус кластера Abnormal;
- Нарушено соединение с apiserver
- После увеличения масштаба кластера (число узлов/pod-ов/метрик) ресурсы компонентов мониторинга не обновлены.
- После увеличения объёма логов и частоты сбора логов ресурсы лог-компонентов не обновлены.
- Использование CPU кластера превышает 60%;
- Использование памяти кластера превышает 60%;
- Любой pod компонента ETCD кластера находится не в состоянии Running;
- Любой хост кластера находится не в состоянии Ready;
- Разница времени между любыми двумя узлами кластера превышает 40 секунд;
- Коэффициент запроса CPU кластера (фактическое значение / общее) превышает 60%;
- Коэффициент запроса памяти кластера (фактическое значение / общее) превышает 80%;
- Компоненты мониторинга не установлены в кластере;
- Компоненты мониторинга кластера работают с ошибками;
- Любой pod компонента kube-controller-manager кластера находится не в состоянии Running;
- Любой pod компонента kube-scheduler кластера находится не в состоянии Running;
- Любой pod компонента kube-apiserver кластера находится не в состоянии Running.
Node- Все управляющие узлы
- Все вычислительные узлы
- Статус узла Abnormal;
- Pod компонента node-exporter на узле находится не в состоянии Running;
- Pod компонента kubelet на узле находится не в состоянии Running.
- Свободных inode на узле менее 1000
- Использование CPU узла превышает 60%;
- Использование памяти узла превышает 60%;
- Использование дискового пространства каталога узла превышает 60%;
- Системная нагрузка узла превышает 200% и длится более 15 минут;
- За последние сутки произошло как минимум одно событие NodeDeadlock (зависание узла);
- За последние сутки произошло как минимум одно событие NodeOOM (недостаток памяти);
- За последние сутки произошло как минимум одно событие NodeTaskHung (зависание задачи);
- За последние сутки произошло как минимум одно событие NodeCorruptDockerImage (повреждённый Docker-образ).
podВсе pod-ы- Статус pod-а Error;
- Pod находится в состоянии запуска более 5 минут.
- Использование CPU pod-а превышает 80%;
- Использование памяти pod-а превышает 80%;
- Количество перезапусков pod-а за последние 5 минут больше или равно 1.
Certificate- Сертификаты Certmanager
- Сертификаты Kubernetes
Статус сертификата Expired.Срок действия сертификата менее 29 дней.

Resource Utilization Inspection

Перейдите на вкладку Resource Utilization Inspection, чтобы открыть страницу Resource Utilization Inspection.

На странице Resource Utilization Inspection вы можете просмотреть общий объём, использование и коэффициент использования CPU, памяти и диска для global кластеров, подключённых кластеров и собственных кластеров, а также количество ресурсов, таких как кластеры, узлы, pod-ы и проекты на платформе.

  • Resource Usage Statistics: Вы можете просмотреть общий объём и общий коэффициент использования CPU, памяти и диска для глобальных, подключённых и собственных кластеров.

  • Platform Resource Quantity: Вы можете просмотреть количество ресурсов, работающих на платформе.