Нажмите Operation Center > Inspection > Basic Inspection в левой навигационной панели.
Совет: На странице инспекции отображается информация о данных инспекции из последней проверки. Во время процесса инспекции вы можете в реальном времени просматривать данные ресурсов завершённых инспекций.
На странице Basic Inspection поддерживаются следующие действия:
Execute Inspection: Нажмите кнопку Inspection в правом верхнем углу страницы, чтобы выполнить инспекцию на платформе.
Download Inspection Report: Нажмите кнопку Download Report в правом верхнем углу страницы, выберите формат отчёта (PDF или Excel) в появившемся диалоговом окне и нажмите для скачивания, что загрузит отчёт соответствующего формата на ваш локальный компьютер.
Отчёт инспекции в формате PDF не включает страницу с деталями рисков ресурсов;
Отчёт инспекции в формате Excel содержит все данные инспекции;
Поддерживается одновременная загрузка отчётов в обоих форматах.
Inspection Configuration | Description |
---|---|
Scheduled Inspection | Правила времени выполнения автоматических задач, поддерживается ввод выражений Crontab. Совет: Нажмите на поле ввода, чтобы развернуть предустановленные платформой Trigger Rule Templates, выберите подходящий шаблон и быстро настройте правила триггера с минимальными изменениями. |
Inspection Record Retention | Количество сохраняемых записей инспекции. |
Email Notification | Выберите контакты для уведомлений по электронной почте. Примечание: Контакты для уведомлений должны иметь настроенный email. |
Inspection Report Name | Имя, которое будет использоваться встроенным шаблоном уведомлений инспекции платформы для оповещения контактов. |
Inspection Configuration Items | Измените пороги предупреждений или отключите элементы инспекции в соответствии с элементами инспекции по умолчанию платформы для сертификатов, хостов кластера и pod-ов. |
В области информации Most Recent Inspection вы можете просмотреть соответствующую информацию о последней инспекции:
Inspection Time: Время начала и окончания последней инспекции.
Total Number of Inspection Resources: Общее количество ресурсов (кластеров, узлов, pod-ов, сертификатов), проверенных в последней инспекции.
Risks: Количество ресурсов с рисками, включая те, которые классифицированы как Fault и Warning.
На странице Resource Risk Inspection вы можете просмотреть обзор информации о рисках для global
кластеров, собственных кластеров, подключённых кластеров, а также всех узлов, pod-ов и сертификатов в этих кластерах.
Нажмите кнопку Risk Details на карточке соответствующего типа ресурса (Cluster, Node, pod, Certificate), чтобы перейти на страницу с деталями рисков для этого типа ресурса. На странице деталей вы можете просмотреть информацию о последней инспекции ресурса, а также список ресурсов с ошибками и предупреждениями.
Нажмите на имя ресурса, чтобы перейти на страницу деталей ресурса.
Нажмите кнопку раскрытия справа от поля Name в списке, чтобы развернуть условия и причины срабатывания ошибок и предупреждений.
Для объяснения критериев оценки статуса риска (Fault, Warning) для каждого ресурса смотрите таблицу ниже.
Примечание: Для оценки ошибок и предупреждений каждого типа ресурса используется несколько условий; если данные инспекции ресурса соответствуют хотя бы одному из условий, это считается рисковыми данными.
Resource Type | Inspection Scope | Fault Judgment Conditions | Warning Judgment Conditions |
---|---|---|---|
Cluster | - global cluster - Self-built cluster - Accessed cluster | - Статус кластера Abnormal; - Нарушено соединение с apiserver | - После увеличения масштаба кластера (число узлов/pod-ов/метрик) ресурсы компонентов мониторинга не обновлены. - После увеличения объёма логов и частоты сбора логов ресурсы лог-компонентов не обновлены. - Использование CPU кластера превышает 60%; - Использование памяти кластера превышает 60%; - Любой pod компонента ETCD кластера находится не в состоянии Running; - Любой хост кластера находится не в состоянии Ready; - Разница времени между любыми двумя узлами кластера превышает 40 секунд; - Коэффициент запроса CPU кластера (фактическое значение / общее) превышает 60%; - Коэффициент запроса памяти кластера (фактическое значение / общее) превышает 80%; - Компоненты мониторинга не установлены в кластере; - Компоненты мониторинга кластера работают с ошибками; - Любой pod компонента kube-controller-manager кластера находится не в состоянии Running; - Любой pod компонента kube-scheduler кластера находится не в состоянии Running; - Любой pod компонента kube-apiserver кластера находится не в состоянии Running. |
Node | - Все управляющие узлы - Все вычислительные узлы | - Статус узла Abnormal; - Pod компонента node-exporter на узле находится не в состоянии Running; - Pod компонента kubelet на узле находится не в состоянии Running. | - Свободных inode на узле менее 1000 - Использование CPU узла превышает 60%; - Использование памяти узла превышает 60%; - Использование дискового пространства каталога узла превышает 60%; - Системная нагрузка узла превышает 200% и длится более 15 минут; - За последние сутки произошло как минимум одно событие NodeDeadlock (зависание узла); - За последние сутки произошло как минимум одно событие NodeOOM (недостаток памяти); - За последние сутки произошло как минимум одно событие NodeTaskHung (зависание задачи); - За последние сутки произошло как минимум одно событие NodeCorruptDockerImage (повреждённый Docker-образ). |
pod | Все pod-ы | - Статус pod-а Error; - Pod находится в состоянии запуска более 5 минут. | - Использование CPU pod-а превышает 80%; - Использование памяти pod-а превышает 80%; - Количество перезапусков pod-а за последние 5 минут больше или равно 1. |
Certificate | - Сертификаты Certmanager - Сертификаты Kubernetes | Статус сертификата Expired. | Срок действия сертификата менее 29 дней. |
Перейдите на вкладку Resource Utilization Inspection, чтобы открыть страницу Resource Utilization Inspection.
На странице Resource Utilization Inspection вы можете просмотреть общий объём, использование и коэффициент использования CPU, памяти и диска для global
кластеров, подключённых кластеров и собственных кластеров, а также количество ресурсов, таких как кластеры, узлы, pod-ы и проекты на платформе.
Resource Usage Statistics: Вы можете просмотреть общий объём и общий коэффициент использования CPU, памяти и диска для глобальных, подключённых и собственных кластеров.
Platform Resource Quantity: Вы можете просмотреть количество ресурсов, работающих на платформе.