• Русский
  • Планирование ёмкости компонента мониторинга

    Компонент мониторинга отвечает за хранение данных метрик, собранных с одного или нескольких кластеров в платформе. Поэтому необходимо заранее оценить масштаб вашего мониторинга и спланировать ресурсы, необходимые для компонента мониторинга, согласно рекомендациям в этом документе.

    Предположения и методология

    • Данные в этом документе получены из контролируемых лабораторных отчетов о производительности и предназначены в качестве базового ориентира для планирования в продакшене.
    • В примерах с дисковым хранением время хранения составляет 7 дней; для других целей хранения корректируйте пропорционально.
    • Базовые параметры хранения соответствуют приведенному выше предупреждению (SSD, ~6000 IOPS, ~250MB/s чтение/запись, отдельный монтируемый том).
    • Тестовые нагрузки охватывали типичные страницы мониторинга, такие как "acp ns overview page" и "platform region detail page".

    Prometheus

    Ниже приведены рекомендации по масштабированию для Prometheus и связанных компонентов (Thanos Query, Thanos Sidecar и др.).

    Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

    • Скорость приема метрик: ~2800 сэмплов/секунду
    КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
    courier-apicourier22C4Gi--
    kube-prometheus-thanos-querythanos-query11C1Gi--
    prometheus-kube-prometheus-0prometheus12C8Gi20G~10G записи за 7 дней

    Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

    • Скорость приема метрик: ~7294 сэмплов/секунду
    КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
    courier-apicourier24C4Gi--
    kube-prometheus-thanos-querythanos-query12.5C8Gi--
    prometheus-kube-prometheus-0prometheus14C8Gi40G~30G записи за 7 дней

    Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

    • Скорость приема метрик: ~41575 сэмплов/секунду
    КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
    courier-apicourier26C4Gi--
    kube-prometheus-thanos-querythanos-query12C6Gi-В реальных развертываниях может использоваться 2 реплики
    prometheus-kube-prometheus-0prometheus18C20Gi100GПиковая память ~15Gi; ~69G записи за 7 дней

    VictoriaMetrics

    Ниже приведены рекомендации по масштабированию для компонентов VictoriaMetrics.

    Малый масштаб — 10 рабочих узлов, 500 подов с двумя контейнерами

    • Скорость приема метрик: ~3274 сэмплов/секунду
    КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
    courier-apicourier12C4Gi--
    vmselect-clusterproxy11C200Mi--
    vmselectvmselect1500m1Gi--
    vmstorage-clustervmstorage1500m2Gi3G~1.5G записи за 7 дней

    Средний масштаб — 50 рабочих узлов, 2000 подов с двумя контейнерами

    • Скорость приема метрик: ~6940 сэмплов/секунду
    КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
    courier-apicourier24C4Gi--
    vmselect-clusterproxy11C200Mi--
    vmselectvmselect12C2Gi--
    vmstorage-clustervmstorage12C2Gi10G~2.6G записи за 7 дней

    Большой масштаб — 500 рабочих узлов, 10000 подов с двумя контейнерами

    • Скорость приема метрик: ~34300 сэмплов/секунду
    КомпонентКонтейнерРепликиЛимит CPUЛимит памятиДиск (если применимо)Примечания
    courier-apicourier26C4Gi--
    vmselect-clusterproxy12C200Mi--
    vmselectvmselect15C3Gi--
    vmstorage-clustervmstorage12C6Gi30G~16.8G записи за 7 дней