Планирование ёмкости компонента мониторинга

Компонент мониторинга отвечает за хранение данных метрик, собранных с одного или нескольких кластеров на платформе. Поэтому необходимо заранее оценить масштаб вашего мониторинга и спланировать ресурсы, необходимые для компонента мониторинга, согласно рекомендациям в этом документе.

Содержание

Предположения и методология

  • Данные в этом документе получены из контролируемых лабораторных отчетов по производительности и предназначены в качестве базового ориентира для планирования в продакшене.
  • В примерах для дискового пространства задан срок хранения 7 дней; для других сроков хранения корректируйте пропорционально.
  • Базовые параметры хранения соответствуют приведённому выше предупреждению (SSD, ~6000 IOPS, ~250MB/s чтение/запись, отдельный монтируемый том).
  • Тестовые нагрузки охватывали типичные страницы мониторинга, такие как "acp ns overview page" и "platform region detail page".

Prometheus

Ниже приведены рекомендации по размеру для Prometheus и связанных компонентов (Thanos Query, Thanos Sidecar и др.) в зависимости от масштаба.

Малый масштаб — 10 воркер-нод, 500 подов с двумя контейнерами

  • Скорость приёма метрик: ~2800 сэмплов/секунду
КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
courier-apicourier22C4Gi--
kube-prometheus-thanos-querythanos-query11C1Gi--
prometheus-kube-prometheus-0prometheus12C8Gi20G~10G записи за 7 дней

Средний масштаб — 50 воркер-нод, 2000 подов с двумя контейнерами

  • Скорость приёма метрик: ~7294 сэмплов/секунду
КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
courier-apicourier24C4Gi--
kube-prometheus-thanos-querythanos-query12.5C8Gi--
prometheus-kube-prometheus-0prometheus14C8Gi40G~30G записи за 7 дней

Большой масштаб — 500 воркер-нод, 10000 подов с двумя контейнерами

  • Скорость приёма метрик: ~41575 сэмплов/секунду
КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
courier-apicourier26C4Gi--
kube-prometheus-thanos-querythanos-query12C6Gi-В реальных развертываниях может использоваться 2 реплики
prometheus-kube-prometheus-0prometheus18C20Gi100GПиковая память ~15Gi; ~69G записи за 7 дней

VictoriaMetrics

Ниже приведены рекомендации по размеру для компонентов VictoriaMetrics в зависимости от масштаба.

Малый масштаб — 10 воркер-нод, 500 подов с двумя контейнерами

  • Скорость приёма метрик: ~3274 сэмплов/секунду
КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
courier-apicourier12C4Gi--
vmselect-clusterproxy11C200Mi--
vmselectvmselect1500m1Gi--
vmstorage-clustervmstorage1500m2Gi3G~1.5G записи за 7 дней

Средний масштаб — 50 воркер-нод, 2000 подов с двумя контейнерами

  • Скорость приёма метрик: ~6940 сэмплов/секунду
КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
courier-apicourier24C4Gi--
vmselect-clusterproxy11C200Mi--
vmselectvmselect12C2Gi--
vmstorage-clustervmstorage12C2Gi10G~2.6G записи за 7 дней

Большой масштаб — 500 воркер-нод, 10000 подов с двумя контейнерами

  • Скорость приёма метрик: ~34300 сэмплов/секунду
КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
courier-apicourier26C4Gi--
vmselect-clusterproxy12C200Mi--
vmselectvmselect15C3Gi--
vmstorage-clustervmstorage12C6Gi30G~16.8G записи за 7 дней