Планирование ёмкости компонента мониторинга

Компонент мониторинга отвечает за хранение данных метрик, собранных с одного или нескольких кластеров в платформе. Поэтому необходимо заранее оценить масштаб вашего мониторинга и спланировать ресурсы, необходимые для компонента мониторинга, согласно рекомендациям в этом документе.

Содержание

Предположения и методология Prometheus Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами VictoriaMetrics Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

Предположения и методология

Данные в этом документе получены из контролируемых лабораторных отчетов о производительности и предназначены в качестве базового ориентира для планирования в продакшене.
В примерах с дисковым хранением время хранения составляет 7 дней; для других целей хранения корректируйте пропорционально.
Базовые параметры хранения соответствуют приведенному выше предупреждению (SSD, ~6000 IOPS, ~250MB/s чтение/запись, отдельный монтируемый том).
Тестовые нагрузки охватывали типичные страницы мониторинга, такие как "acp ns overview page" и "platform region detail page".

Prometheus

Ниже приведены рекомендации по масштабированию для Prometheus и связанных компонентов (Thanos Query, Thanos Sidecar и др.).

Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

Скорость приема метрик: ~2800 сэмплов/секунду

Компонент	Контейнер	Реплики	Лимит CPU	Лимит памяти	Диск (если применимо)	Примечания
courier-api	courier	2	2C	4Gi	-	-
kube-prometheus-thanos-query	thanos-query	1	1C	1Gi	-	-
prometheus-kube-prometheus-0	prometheus	1	2C	8Gi	20G	~10G записи за 7 дней

Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

Скорость приема метрик: ~7294 сэмплов/секунду

Компонент	Контейнер	Реплики	Лимит CPU	Лимит памяти	Диск (если применимо)	Примечания
courier-api	courier	2	4C	4Gi	-	-
kube-prometheus-thanos-query	thanos-query	1	2.5C	8Gi	-	-
prometheus-kube-prometheus-0	prometheus	1	4C	8Gi	40G	~30G записи за 7 дней

Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

Скорость приема метрик: ~41575 сэмплов/секунду

Компонент	Контейнер	Реплики	Лимит CPU	Лимит памяти	Диск (если применимо)	Примечания
courier-api	courier	2	6C	4Gi	-	-
kube-prometheus-thanos-query	thanos-query	1	2C	6Gi	-	В реальных развертываниях может использоваться 2 реплики
prometheus-kube-prometheus-0	prometheus	1	8C	20Gi	100G	Пиковая память ~15Gi; ~69G записи за 7 дней

VictoriaMetrics

Ниже приведены рекомендации по масштабированию для компонентов VictoriaMetrics.

Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

Скорость приема метрик: ~3274 сэмплов/секунду

Компонент	Контейнер	Реплики	Лимит CPU	Лимит памяти	Диск (если применимо)	Примечания
courier-api	courier	1	2C	4Gi	-	-
vmselect-cluster	proxy	1	1C	200Mi	-	-
vmselect	vmselect	1	500m	1Gi	-	-
vmstorage-cluster	vmstorage	1	500m	2Gi	3G	~1.5G записи за 7 дней

Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

Скорость приема метрик: ~6940 сэмплов/секунду

Компонент	Контейнер	Реплики	Лимит CPU	Лимит памяти	Диск (если применимо)	Примечания
courier-api	courier	2	4C	4Gi	-	-
vmselect-cluster	proxy	1	1C	200Mi	-	-
vmselect	vmselect	1	2C	2Gi	-	-
vmstorage-cluster	vmstorage	1	2C	2Gi	10G	~2.6G записи за 7 дней

Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

Скорость приема метрик: ~34300 сэмплов/секунду

Компонент	Контейнер	Реплики	Лимит CPU	Лимит памяти	Диск (если применимо)	Примечания
courier-api	courier	2	6C	4Gi	-	-
vmselect-cluster	proxy	1	2C	200Mi	-	-
vmselect	vmselect	1	5C	3Gi	-	-
vmstorage-cluster	vmstorage	1	2C	6Gi	30G	~16.8G записи за 7 дней

#Планирование ёмкости компонента мониторинга

#Содержание

#Предположения и методология

#Prometheus

#Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

#Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

#Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

#VictoriaMetrics

#Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

#Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

#Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

Планирование ёмкости компонента мониторинга

Содержание

Предположения и методология

Prometheus

Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

VictoriaMetrics

Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами