Alauda Container Platform

Русский

Повышение стабильности Kubernetes для крупных кластеров

Это руководство помогает операторам кластеров и SRE снизить нагрузку на control-plane, повысить надежность и ограничить радиус поражения в крупных кластерах Kubernetes.

Содержание

Примечания

Примечания

Настройка сети, хранилища, балансировщика нагрузки, логирования и мониторинга не рассматривается; смотрите документацию поставщиков для этих компонентов.

WARNING

Тестируйте изменения конфигурации перед внедрением в продакшен.
Избегайте одного большого кластера при высоком риске; рассмотрите управление несколькими кластерами для уменьшения радиуса поражения.

Проблема	Описание	Оптимизация
etcd диск	etcd очень чувствителен к дисковому вводу-выводу в крупных кластерах.	Используйте выделенный NVMe SSD для каталога данных etcd.
Размер базы данных etcd	Базы данных больше ~8 ГБ значительно ухудшают задержки, использование ресурсов и время восстановления.	Держите базу данных etcd ≤ 8 ГБ; удаляйте неиспользуемые объекты и сохраняйте часто обновляемые объекты маленькими (~≤100 КБ).
Частая смена ключей в etcd	Высокая частота чтения/записи ключей нагружает etcd.	Анализируйте метрики etcd для выявления и уменьшения горячих ключей.
Размер данных по типу ресурсов в etcd	Большие объемы по типу ресурса делают операции полного списка дорогими и могут блокировать контроллеры.	Держите общий объем данных по каждому типу ресурса ≤ 800 МБ; очищайте неиспользуемые Deployments/Services. ¹
Пропускная способность и подключения LB API-сервера	Ограничения пропускной способности или количества подключений балансировщика нагрузки могут привести к состоянию NotReady у узлов.	Мониторьте и заранее обеспечивайте балансировщик нагрузки API-сервера.
Сервисы на namespace	Множество сервисов вызывают большое внедрение переменных окружения в Pods и замедляют запуск.	Держите количество сервисов на namespace < 5,000 или установите `enableServiceLinks: false`. ²
Общее количество сервисов в кластере	Избыточное количество сервисов увеличивает правила kube-proxy и ухудшает производительность.	Держите общее количество сервисов < 10,000 и удаляйте неиспользуемые. ¹
CoreDNS	Большое количество Pod может ухудшать производительность CoreDNS.	Запускайте NodeLocal DNSCache (nodelocaldns).
Частота обновления Pod	Высокая частота обновлений вызывает распространение изменений Endpoint/EndpointSlice на все узлы и может вызывать штормы.	Снизьте churn Pod; для RollingUpdate установите консервативные значения `maxUnavailable`/`maxSurge`.
Монтирование токенов ServiceAccount	Каждый токен Secret может создавать watch; множество watch нагружает control plane.	Для Pod, которым не нужен доступ к API, установите `automountServiceAccountToken: false`. ³
Количество/размер объектов	Накопленные ConfigMaps, Secrets, PVC и др. увеличивают нагрузку на control-plane.	Ограничьте историю ReplicaSet (`revisionHistoryLimit`) и используйте `ttlSecondsAfterFinished` для Jobs/CronJobs.
Запросы/лимиты Pod	Большие разрывы между запросами и лимитами могут вызвать каскадные сбои при потере узла.	По возможности устанавливайте запросы равными лимитам.
Перезапуски контроллеров и мониторинг	Перезапуски контроллеров или API-сервера вызывают повторные листинги, которые могут перегрузить API-сервер.	Мониторьте контроллеры, задавайте адекватные ресурсы, чтобы избежать перезапусков, и сокращайте ненужные операции control-plane.