| etcd диск | etcd очень чувствителен к дисковому вводу-выводу в крупных кластерах. | Используйте выделенный NVMe SSD для каталога данных etcd. |
| Размер базы данных etcd | Базы данных больше ~8 ГБ значительно ухудшают задержки, использование ресурсов и время восстановления. | Держите базу данных etcd ≤ 8 ГБ; удаляйте неиспользуемые объекты и сохраняйте часто обновляемые объекты маленькими (~≤100 КБ). |
| Частая смена ключей в etcd | Высокая частота чтения/записи ключей нагружает etcd. | Анализируйте метрики etcd для выявления и уменьшения горячих ключей. |
| Размер данных по типу ресурсов в etcd | Большие объемы по типу ресурса делают операции полного списка дорогими и могут блокировать контроллеры. | Держите общий объем данных по каждому типу ресурса ≤ 800 МБ; очищайте неиспользуемые Deployments/Services. 1 |
| Пропускная способность и подключения LB API-сервера | Ограничения пропускной способности или количества подключений балансировщика нагрузки могут привести к состоянию NotReady у узлов. | Мониторьте и заранее обеспечивайте балансировщик нагрузки API-сервера. |
| Сервисы на namespace | Множество сервисов вызывают большое внедрение переменных окружения в Pods и замедляют запуск. | Держите количество сервисов на namespace < 5,000 или установите enableServiceLinks: false. 2 |
| Общее количество сервисов в кластере | Избыточное количество сервисов увеличивает правила kube-proxy и ухудшает производительность. | Держите общее количество сервисов < 10,000 и удаляйте неиспользуемые. 1 |
| CoreDNS | Большое количество Pod может ухудшать производительность CoreDNS. | Запускайте NodeLocal DNSCache (nodelocaldns). |
| Частота обновления Pod | Высокая частота обновлений вызывает распространение изменений Endpoint/EndpointSlice на все узлы и может вызывать штормы. | Снизьте churn Pod; для RollingUpdate установите консервативные значения maxUnavailable/maxSurge. |
| Монтирование токенов ServiceAccount | Каждый токен Secret может создавать watch; множество watch нагружает control plane. | Для Pod, которым не нужен доступ к API, установите automountServiceAccountToken: false. 3 |
| Количество/размер объектов | Накопленные ConfigMaps, Secrets, PVC и др. увеличивают нагрузку на control-plane. | Ограничьте историю ReplicaSet (revisionHistoryLimit) и используйте ttlSecondsAfterFinished для Jobs/CronJobs. |
| Запросы/лимиты Pod | Большие разрывы между запросами и лимитами могут вызвать каскадные сбои при потере узла. | По возможности устанавливайте запросы равными лимитам. |
| Перезапуски контроллеров и мониторинг | Перезапуски контроллеров или API-сервера вызывают повторные листинги, которые могут перегрузить API-сервер. | Мониторьте контроллеры, задавайте адекватные ресурсы, чтобы избежать перезапусков, и сокращайте ненужные операции control-plane. |