logo
Alauda Container Platform
English
Русский
English
Русский
logo
Alauda Container Platform
Навигация

Обзор

Архитектура
Примечания к выпуску

Установка

Обзор

Подготовка к установке

Предварительные требования
Загрузка
Предварительная обработка узлов
Установка
Восстановление после катастрофы для глобального кластера

Обновление

Обзор
Подготовка к обновлению
Обновление глобального кластера
Обновление рабочих кластеров

Пользовательский интерфейс

Веб-консоль

Обзор
Доступ к веб-консоли
Настройка веб-консоли
Настройка левой навигации

CLI Инструменты

ACP CLI (ac)

Начало работы с ACP CLI
Настройка ACP CLI
Использование команд ac и kubectl
Управление профилями CLI
Расширение ACP CLI с помощью плагинов
AC CLI Developer Command Reference
AC CLI Справочник команд администратора
violet CLI

Настройка

Конфигурация Feature Gate

Кластеры

Обзор
Неизменяемая инфраструктура

Управление узлами

Обзор
Добавление узлов в локальные кластеры
Управление узлами
Мониторинг узлов

Управляемые кластеры

обзор

Импорт кластеров

Обзор
Импорт стандартного кластера Kubernetes
Импорт кластера OpenShift
Импорт кластера Amazon EKS
Импорт кластера GKE
Импорт кластера Huawei Cloud CCE (публичное облако)
Импорт кластера Azure AKS
Импорт кластера Alibaba Cloud ACK
Импорт кластера Tencent Cloud TKE
Регистрация кластера

Инициализация кластера в публичном облаке

Инициализация сети

Конфигурация инициализации сети кластера AWS EKS
Дополнительная информация по AWS EKS
Инициализация конфигурации сети кластера Huawei Cloud CCE
Конфигурация инициализации сети кластера Azure AKS
Конфигурация инициализации сети кластера Google GKE

Инициализация хранилища

Обзор
Конфигурация инициализации хранилища кластера AWS EKS
Инициализация конфигурации хранилища кластера Huawei Cloud CCE
Конфигурация инициализации хранилища кластера Azure AKS
Конфигурация инициализации хранилища кластера Google GKE

Как сделать

Настройка сети для импортируемых кластеров
Получение информации о импортируемом кластере
Доверие небезопасному реестру образов
Сбор сетевых данных с сетевых карт с пользовательскими именами
Создание локального кластера
Хостинг контрольной плоскости
Планирование узлов кластера
Шифрование etcd

Как сделать

Добавление внешнего адреса для встроенного реестра
Выбор контейнерного рантайма
Обновление учетных данных публичного репозитория

Резервное копирование и восстановление

Обзор
Установка
Репозиторий резервного копирования

Управление резервным копированием

Резервное копирование ETCD
Создание расписания резервного копирования приложения
Хуки

Управление восстановлением

Выполнение задачи восстановления приложения
Замена реестра образов

Сетевые взаимодействия

Введение

Архитектура

Понимание Kube-OVN
Понимание ALB
Понимание MetalLB

Основные понятия

Совместимость ALB с аннотациями Ingress-NGINX
Сравнение Service, Ingress, Gateway API и ALB Rule
GatewayAPI

Руководства

Создание сервисов
Создание Ingress
Создание доменного имени
Создание сертификатов
Создание пула внешних IP-адресов
Создание BGP-пиров
Настройка подсетей
Настройка сетевых политик
Создание Admin Network Policies
Настройка сети Kube-OVN для поддержки нескольких сетевых интерфейсов Pod (Alpha)
Настройка сетевых политик кластера
Настройка Egress Gateway
Наблюдаемость сети
Настройка правил ALB
Межкластерное соединение (Alpha)
Endpoint Health Checker
NodeLocal DNSCache

Как сделать

Подготовка физической сети Kube-OVN Underlay
Soft Data Center LB Solution (Alpha)
Автоматическое взаимное подключение подсетей Underlay и Overlay
Установка Ingress-Nginx через Cluster Plugin
Установка Ingress-Nginx через Ingress Nginx Operator
Задачи для Ingress-Nginx

ALB

Auth
Развертывание высокодоступного VIP для ALB
Модификация заголовков
HTTP Redirect
L4/L7 Таймаут
ModSecurity
TCP/HTTP Keepalive
Использование OAuth Proxy с ALB
Настройка GatewayApi Gateway через ALB
Привязка NIC в ALB
Принятие решений по выбору производительности ALB
Развертывание ALB
Проброс IPv6-трафика на IPv4-адреса внутри кластера через ALB
OTel
ALB Monitoring
CORS
Политика сессионной аффинности балансировки нагрузки в ALB
Перезапись URL
Calico Network поддерживает шифрование WireGuard
Kube-OVN Overlay Network поддерживает шифрование IPsec
Руководство пользователя DeepFlow

Устранение неполадок

Как решить проблемы межузловой коммуникации в ARM-средах?
Определение причины ошибки

Хранение

Введение

Основные понятия

Основные понятия
Persistent Volume
Режимы доступа и режимы томов

Руководства

Создание Storage Class типа CephFS File Storage
Создание класса блочного хранилища CephRBD
Создание локального Storage Class TopoLVM
Создание общего класса хранения NFS
Развертывание компонента Volume Snapshot
Создание PV
Создание PVC
Использование снимков томов

Как сделать

Generic ephemeral volumes
Использование emptyDir
Настройка постоянного хранилища с использованием NFS
Руководство по аннотированию возможностей стороннего хранилища

Устранение неполадок

Восстановление после ошибки расширения PVC
Конфигурация машины

Масштабируемость и производительность

Оценка ресурсов для глобального кластера
Оценка ресурсов для рабочей нагрузки кластера
Повышение стабильности Kubernetes для крупных кластеров
Конфигурация диска

Хранение

Распределённое хранилище Ceph

Введение

Установка

Создание кластера стандартного типа
Создание Stretch Type кластера
Архитектура

Основные понятия

Основные концепции

Руководства

Доступ к сервисам хранения
Управление Storage Pools
Развертывание компонентов на конкретных узлах
Добавление устройств/классов устройств
Мониторинг и оповещения

Как сделать

Настройка выделенного кластера для распределённого хранилища
Очистка распределённого хранилища

Восстановление после сбоев

Восстановление после сбоев файлового хранилища
Восстановление после сбоев блочного хранилища
Восстановление после сбоев в объектном хранилище
Обновление параметров оптимизации
Создание пользователя ceph object store

MinIO Object Storage

Введение
Установка
Архитектура

Основные понятия

Основные концепции

Руководства

Добавление пула хранения
Мониторинг и оповещения

Как сделать

Восстановление данных после аварий

Локальное хранилище TopoLVM

Введение
Установка

Руководства

Управление устройствами
Мониторинг и оповещения

Как сделать

Резервное копирование и восстановление PVC файловой системы TopoLVM с помощью Velero

Безопасность

Alauda Container Security

Безопасность и соответствие

Соответствие требованиям

Введение
Установка Alauda Container Platform Compliance с Kyverno

Как сделать

Конфигурация доступа к приватному реестру
Политика проверки подписи образов
Политика проверки подписей образов с использованием Secrets
Политика проверки реестра образов
Политика предотвращения выхода из контейнера
Политика Принудительного Применения Security Context
Политика сетевой безопасности
Политика безопасности томов

API Refiner

Введение
Установка Alauda Container Platform API Refiner
О сервисе соответствия Alauda Container Platform

Пользователи и роли

Пользователь

Введение

Руководства

Управление ролями пользователей
Создание пользователя
Управление пользователями

Группа

Введение

Руководства

Управление ролями групп пользователей
Создание локальной группы пользователей
Управление членством в локальной группе пользователей

Роль

Введение

Руководства

Создание роли
Управление пользовательскими ролями

IDP

Введение

Руководства

Управление LDAP
Управление OIDC

Устранение неполадок

Удаление пользователя

Политика пользователя

Введение

Мультиарендность (Project)

Введение

Руководства

Создание проекта
Управление квотами проекта
Управление проектом
Управление кластером проекта
Управление участниками проекта

Аудит

Введение

Телеметрия

Установка

Сертификаты

Автоматическая ротация сертификатов Kubernetes
cert-manager
Сертификаты OLM
Мониторинг сертификатов

Виртуализация

Виртуализация

Обзор

Введение
Установка

Образы

Введение

Руководства

Добавление образов виртуальных машин
Обновление/Удаление образов виртуальных машин
Обновление/удаление учетных данных образа

Как сделать

Создание образов Windows на основе ISO с использованием KubeVirt
Создание образов Linux на основе ISO с использованием KubeVirt
Экспорт образов виртуальных машин
Разрешения

Виртуальная машина

Введение

Руководства

Создание виртуальных машин/групп виртуальных машин
Пакетные операции с виртуальными машинами
Вход в виртуальную машину с использованием VNC
Управление ключевыми парами
Управление виртуальными машинами
Мониторинг и оповещения
Быстрый поиск виртуальных машин

Как сделать

Настройка проброса USB-хоста
Горячая миграция виртуальной машины
Восстановление виртуальной машины
Клонирование виртуальных машин в KubeVirt
Подготовка среды для физического GPU Passthrough
Настройка высокой доступности для виртуальных машин
Создание шаблона ВМ на основе существующей виртуальной машины

Устранение неполадок

Миграция Pod виртуальных машин и восстановление после аварийного завершения работы узлов виртуальных машин
Сообщения об ошибках горячей миграции и решения

Сеть

Введение

Руководства

Настройка сети

Как сделать

Контроль сетевых запросов виртуальной машины через Network Policy
Настройка SR-IOV
Настройка виртуальных машин для использования режима сетевого биндинга с поддержкой IPv6

Хранение данных

Введение

Руководства

Управление виртуальными дисками

Резервное копирование и восстановление

Введение

Руководства

Использование снимков

Разработчик

Обзор

Быстрый старт

Creating a simple application via image

Создание приложений

Построение архитектуры приложения

Основные понятия

Типы приложений
Custom Applications
Типы рабочих нагрузок
Понимание параметров
Понимание переменных окружения
Понимание команд запуска
Описание единиц ресурсов

Пространства имён

Создание пространств имён
Импорт пространств имён
Resource Quota
Limit Range
Pod Security Admission
Назначение UID/GID
Коэффициент Overcommit
Управление участниками пространства имён
Обновление Namespaces
Удаление/Исключение Namespaces

Создание приложений

Создание приложений из образа
Создание приложений из Chart
Создание приложений из YAML
Создание приложений из кода
Creating applications from Operator Backed
Создание приложений с использованием CLI

Эксплуатация и сопровождение приложений

Развертывание приложений

Установка Alauda Container Platform Argo Rollouts
Application Blue Green Deployment
Application Canary Deployment
Описание статуса

KEDA (Kubernetes Event-driven Autoscaling)

KEDA Overview
Установка KEDA

Как сделать

Интеграция ACP Monitoring с плагином Prometheus
Приостановка автоскейлинга в KEDA
Настройка HPA
Запуск и остановка приложений
Настройка VerticalPodAutoscaler (VPA)
Настройка CronHPA
Обновление приложений
Экспорт приложений
Обновление и удаление Chart-приложений
Управление версиями приложений
Удаление приложений
Обработка ошибок нехватки ресурсов
Проверки состояния

Рабочие нагрузки

Deployments
DaemonSets
StatefulSets
CronJobs
Jobs
Pods
Контейнеры
Работа с Helm charts

Конфигурации

Настройка ConfigMap
Настройка Secrets

Наблюдаемость приложения

Мониторинговые панели
Логи
События

Как сделать

Настройка правил срабатывания планировщика задач

Образы

Обзор образов

Как сделать

Создание образов
Управление образами

Реестр

Введение

Установка

Установка через YAML
Установка через Web UI

Руководство пользователя

Распространённые операции с командами CLI
Using Alauda Container Platform Registry in Kubernetes Clusters

Source to Image

Обзор

Введение
Архитектура
Примечания к выпуску
Политика жизненного цикла

Установка

Installing Alauda Container Platform Builds

Обновление

Обновление сборок Alauda Container Platform

Руководства

Управление приложениями, созданными из кода

Как сделать

Создание приложения из кода

Стратегия изоляции узлов

Введение
Архитектура

Основные понятия

Основные понятия

Руководства

Создание стратегии изоляции узлов
Разрешения
Часто задаваемые вопросы

GitOps

Введение

Установка

Установка Alauda Build of Argo CD
Установка Alauda Container Platform GitOps

Обновление

Обновление Alauda Container Platform GitOps
Архитектура

Основные понятия

GitOps

Концепция Argo CD

Введение
Application
ApplicationSet
Tool
Helm
Kustomize
Directory
Sync
Health

Концепции GitOps в Alauda Container Platform

Введение
Alauda Container Platform GitOps Sync and Health Status

Руководства

Создание GitOps приложения

Creating GitOps Application
Creating GitOps ApplicationSet

Наблюдаемость GitOps

Argo CD Component Monitoring
GitOps Applications Ops

Как сделать

Интеграция репозиториев кода через панель управления Argo CD
Создание приложения Argo CD через панель управления Argo CD
Создание Argo CD Application через веб-консоль
Как получить информацию для доступа к Argo CD
Устранение неполадок

Расширение

Обзор
Оператор
Плагин кластера
Загрузка пакетов

Наблюдаемость

Обзор

Мониторинг

Введение
Установка

Архитектура

Архитектура модуля мониторинга
Руководство по выбору компонента мониторинга
Планирование ёмкости компонента мониторинга
Основные понятия

Руководства

Управление метриками
Управление оповещениями
Управление уведомлениями
Управление мониторинговыми панелями
Управление Probe

Как сделать

Резервное копирование и восстановление данных мониторинга Prometheus
Резервное копирование и восстановление данных мониторинга VictoriaMetrics
Сбор сетевых данных с сетевых интерфейсов с пользовательскими именами

Распределённое трассирование

Введение
Установка
Архитектура
Основные понятия

Руководства

Query Tracing
Query Trace Logs

Как сделать

Безвредная интеграция трассировки в Java-приложения
Бизнес-логи, связанные с TraceID

Устранение неполадок

Невозможно выполнить запрос требуемого трассирования
Неполные данные трассировки

Логи

Введение
Установка

Архитектура

Архитектура модуля логирования
Руководство по выбору компонента логирования
Планирование ёмкости компонента логирования
Основные понятия

Руководства

Логи

Как сделать

Как архивировать логи в стороннее хранилище
Как взаимодействовать с внешними кластерами ES Storage

События

Введение
События

Инспекция

Введение
Архитектура

Руководства

Inspection
Component Health Status

Аппаратные ускорители

О Alauda Build of Hami
О плагине устройства NVIDIA GPU от Alauda Build

Alauda Service Mesh

Service Mesh 1.x
Service Mesh 2.x

Alauda AI

О Alauda AI

Alauda DevOps

О платформе Alauda DevOps

Управление затратами Alauda

О системе управления затратами Alauda

Alauda Application Services

Обзор

Введение
Архитектура
Установка
Обновление

Alauda Database Service для MySQL

О сервисе Alauda Database Service для MySQL-MGR
О сервисе Alauda Database Service для MySQL-PXC

Сервис кэширования Alauda для Redis OSS

О сервисе Alauda Cache Service for Redis OSS

Alauda Streaming Service for Kafka

О сервисе Alauda Streaming Service for Kafka

Сервис потоковой передачи Alauda для RabbitMQ

О сервисе Alauda Streaming Service for RabbitMQ

Поддержка PostgreSQL в Alauda

О поддержке PostgreSQL в Alauda

Управление операциями

Введение

Управление шаблонами параметров

Введение

Руководства

Управление шаблонами параметров

Управление резервным копированием

Введение

Руководства

Внешнее хранилище S3
Управление резервным копированием

Управление инспекциями

Введение

Руководства

Создание задачи инспекции
Задача Exec Inspection
Обновление и удаление задач инспекции

Как сделать

Как настроить расписание инспекций?

Рекомендации по оптимизации инспекций

MySQL

Оптимизация IO нагрузки MySQL
Оптимизация использования памяти MySQL
Оптимизация использования дискового пространства MySQL
Оптимизация количества активных потоков MySQL
Оптимизация блокировок строк MySQL

Redis

Redis BigKey
Высокая загрузка CPU в Redis
Высокое использование памяти в Redis

Kafka

Высокая загрузка CPU в Kafka
Оптимизация Rebalance в Kafka
Оптимизация использования памяти Kafka
Оптимизация пространства хранения Kafka

RabbitMQ

Обработка исключений базы данных RabbitMQ Mnesia

Управление оповещениями

Введение

Руководства

Взаимосвязь с возможностями платформы

Управление обновлениями

Введение

Руководства

Обновление экземпляра

Справочник API

Обзор

Введение
Руководство по использованию Kubernetes API

Advanced APIs

Alert APIs

AlertHistories [v1]
AlertHistoryMessages [v1]
AlertStatus [v2]
SilenceStatus [v2]

Event APIs

Search

Log APIs

Aggregation
Archive
Context
Search

Monitoring APIs

Indicators [monitoring.alauda.io/v1beta1]
Metrics [monitoring.alauda.io/v1beta1]
Variables [monitoring.alauda.io/v1beta1]

Kubernetes APIs

Alert APIs

AlertTemplate [alerttemplates.aiops.alauda.io/v1beta1]
PrometheusRule [prometheusrules.monitoring.coreos.com/v1]

Inspection APIs

Inspection [inspections.ait.alauda.io/v1alpha1]

Notification APIs

Notification [notifications.ait.alauda.io/v1beta1]
NotificationGroup [notificationgroups.ait.alauda.io/v1beta1]
NotificationTemplate [notificationtemplates.ait.alauda.io/v1beta1]
Предыдущая страницаУстановка
Следующая страницаОбновление

Просмотреть полную документацию в формате PDF

#Восстановление после катастрофы для глобального кластера

#Содержание

#Overview

Это решение предназначено для сценариев восстановления после катастрофы, связанных с кластером global. Кластер global служит управляющей плоскостью платформы и отвечает за управление другими кластерами. Для обеспечения непрерывной доступности платформы при сбое кластера global в рамках этого решения разворачиваются два кластера global: основной кластер (Primary Cluster) и резервный кластер (Standby Cluster).

Механизм восстановления после катастрофы основан на синхронизации данных etcd в реальном времени с основного кластера на резервный. В случае недоступности основного кластера из-за сбоя сервисы могут быстро переключиться на резервный кластер.

#Поддерживаемые сценарии катастрофы

  • Неисправимый системный сбой основного кластера, делающий его непригодным к работе;
  • Сбой физических или виртуальных машин, на которых размещён основной кластер, приводящий к его недоступности;
  • Сбой сети в месте расположения основного кластера, вызывающий прерывание сервиса;

#Неподдерживаемые сценарии катастрофы

  • Сбои приложений, развернутых внутри кластера global;
  • Потеря данных из-за сбоев в системе хранения (вне области синхронизации etcd);

Роли Primary Cluster и Standby Cluster являются относительными: кластер, обслуживающий платформу в данный момент, считается основным (DNS указывает на него), а резервный — резервным. После переключения роли меняются местами.

#Примечания

  • Это решение синхронизирует только данные etcd кластера global; данные из registry, chartmuseum и других компонентов не включены;

  • Для удобства устранения неполадок и управления рекомендуется называть узлы в стиле standby-global-m1, чтобы указывать, к какому кластеру принадлежит узел (Primary или Standby).

  • Восстановление данных приложений внутри кластера не поддерживается;

  • Для надежной синхронизации etcd требуется стабильное сетевое соединение между двумя кластерами;

  • Если кластеры основаны на гетерогенных архитектурах (например, x86 и ARM), используйте установочный пакет с поддержкой двух архитектур;

  • Следующие пространства имён исключены из синхронизации etcd. Если в этих пространствах создаются ресурсы, пользователям необходимо выполнять их резервное копирование вручную:

    cpaas-system
    cert-manager
    default
    global-credentials
    cpaas-system-global-credentials
    kube-ovn
    kube-public
    kube-system
    nsx-system
    cpaas-solution
    kube-node-lease
    kubevirt
    nativestor-system
    operators
  • Если оба кластера настроены на использование встроенных реестров образов, контейнерные образы необходимо загружать отдельно в каждый из них;

  • Если в основном кластере развернут DevOps Eventing v3 (knative-operator) и его экземпляры, те же компоненты должны быть предварительно развернуты в резервном кластере.

#Обзор процесса

  1. Подготовить единое доменное имя для доступа к платформе;
  2. Указать домен на VIP основного кластера и установить Primary Cluster;
  3. Временно переключить разрешение DNS на резервный VIP для установки Standby Cluster;
  4. Скопировать ключ шифрования ETCD основного кластера на узлы, которые впоследствии станут управляющими узлами резервного кластера;
  5. Установить и включить плагин синхронизации etcd;
  6. Проверить статус синхронизации и выполнять регулярные проверки;
  7. В случае сбоя переключить DNS на резервный кластер для завершения восстановления после катастрофы.

#Требуемые ресурсы

  • Единое доменное имя, которое будет Platform Access Address, а также TLS-сертификат и приватный ключ для обслуживания HTTPS на этом домене;

  • Выделенный виртуальный IP-адрес для каждого кластера — один для Primary Cluster и другой для Standby Cluster;

    • Предварительно настроить балансировщик нагрузки для маршрутизации TCP-трафика на порты 80, 443, 6443, 2379 и 11443 на управляющие узлы за соответствующим VIP.

#Процедура

#Шаг 1: Установка основного кластера

ПРИМЕЧАНИЯ ПО УСТАНОВКЕ DR (Среда восстановления после катастрофы)

При установке основного кластера среды DR,

  • В первую очередь задокументируйте все параметры, установленные при следовании руководству веб-интерфейса установки. Необходимо сохранить некоторые опции неизменными при установке резервного кластера.
  • ДОЛЖЕН быть предварительно настроен балансировщик нагрузки, предоставленный пользователем, для маршрутизации трафика, направленного на виртуальный IP. Опция Self-built VIP НЕ доступна.
  • Поле Platform Access Address ДОЛЖНО содержать домен, а Cluster Endpoint — виртуальный IP-адрес.
  • Оба кластера ДОЛЖНЫ быть настроены на использование An Existing Certificate (одинакового сертификата), при необходимости запросите легитимный сертификат. Опция Self-signed Certificate НЕ доступна.
  • При установке Image Repository в значение Platform Deployment поля Username и Password НЕ должны быть пустыми; поле IP/Domain ДОЛЖНО быть установлено на домен, используемый как Platform Access Address.
  • Порты HTTP Port и HTTPS Port для Platform Access Address ДОЛЖНЫ быть 80 и 443 соответственно.
  • На втором шаге установки (Step: Advanced) поле Other Platform Access Addresses ДОЛЖНО включать виртуальный IP текущего кластера.

Обратитесь к следующей документации для завершения установки:

  • Подготовка к установке
  • Установка

#Шаг 2: Установка резервного кластера

  1. Временно укажите доменное имя на VIP резервного кластера;

  2. Войдите на первый управляющий узел Primary Cluster и скопируйте конфигурацию шифрования etcd на все управляющие узлы резервного кластера:

    # Предположим, что управляющие узлы основного кластера: 1.1.1.1, 2.2.2.2 и 3.3.3.3
    # а управляющие узлы резервного кластера: 4.4.4.4, 5.5.5.5 и 6.6.6.6
    for i in 4.4.4.4 5.5.5.5 6.6.6.6  # Замените на IP управляющих узлов резервного кластера
    do
      ssh "<user>@$i" "sudo mkdir -p /etc/kubernetes/"
      scp /etc/kubernetes/encryption-provider.conf "<user>@$i:/tmp/encryption-provider.conf"
      ssh "<user>@$i" "sudo install -o root -g root -m 600 /tmp/encryption-provider.conf /etc/kubernetes/encryption-provider.conf && rm -f /tmp/encryption-provider.conf"
    done
  3. Установите резервный кластер так же, как основной

ПРИМЕЧАНИЯ ПО УСТАНОВКЕ РЕЗЕРВНОГО КЛАСТЕРА

При установке резервного кластера среды DR, следующие параметры ДОЛЖНЫ совпадать с параметрами основного кластера:

  • Поле Platform Access Address.
  • Все поля сертификата (Certificate).
  • Все поля репозитория образов (Image Repository).
  • Важно: убедитесь, что учётные данные репозитория образов и пользователь admin совпадают с теми, что установлены в Primary Cluster.

И ОБЯЗАТЕЛЬНО следуйте NOTES OF DR (Disaster Recovery Environment) INSTALLING из Шага 1.

Обратитесь к следующей документации для завершения установки:

  • Подготовка к установке
  • Установка

#Шаг 3: Включение синхронизации etcd

  1. При необходимости настройте балансировщик нагрузки для перенаправления порта 2379 на управляющие узлы соответствующего кластера. Поддерживается ТОЛЬКО TCP-режим; перенаправление на уровне L7 не поддерживается.

    INFO

    Перенаправление порта через балансировщик нагрузки не обязательно. Если из резервного кластера доступен прямой доступ к активному глобальному кластеру, укажите адреса etcd через Active Global Cluster ETCD Endpoints.

  2. Зайдите в веб-консоль резервного глобального кластера через его VIP и переключитесь в режим Administrator;

  3. Перейдите в Marketplace > Cluster Plugins, выберите кластер global;

  4. Найдите etcd Synchronizer, нажмите Install, настройте параметры:

    • Если порт 2379 не перенаправляется через балансировщик, необходимо правильно указать Active Global Cluster ETCD Endpoints;
    • Используйте значение по умолчанию для Data Check Interval;
    • Оставьте переключатель Print detail logs выключенным, если не требуется отладка.

Проверьте, что Pod синхронизации запущен на резервном кластере:

kubectl get po -n cpaas-system -l app=etcd-sync
kubectl logs -n cpaas-system $(kubectl get po -n cpaas-system -l app=etcd-sync --no-headers | head -1) | grep -i "Start Sync update"

Когда появится сообщение “Start Sync update”, пересоздайте один из pod’ов, чтобы повторно инициировать синхронизацию ресурсов с зависимостями ownerReference:

kubectl delete po -n cpaas-system $(kubectl get po -n cpaas-system -l app=etcd-sync --no-headers | head -1)

Проверьте статус синхронизации:

mirror_svc=$(kubectl get svc -n cpaas-system etcd-sync-monitor -o jsonpath='{.spec.clusterIP}')
ipv6_regex="^[0-9a-fA-F:]+$"
if [[ $mirror_svc =~ $ipv6_regex ]]; then
  export mirror_new_svc="[$mirror_svc]"
else
  export mirror_new_svc=$mirror_svc
fi
curl $mirror_new_svc/check

Объяснение вывода:

  • LOCAL ETCD missed keys: ключи, которые есть в основном кластере, но отсутствуют в резервном. Часто вызвано сборщиком мусора из-за порядка ресурсов при синхронизации. Перезапустите один pod etcd-sync для исправления;
  • LOCAL ETCD surplus keys: лишние ключи, присутствующие только в резервном кластере. Перед удалением этих ключей из резервного кластера согласуйте с командой эксплуатации.

Если установлены следующие компоненты, перезапустите их сервисы:

  • Log Storage для Elasticsearch:

    kubectl delete po -n cpaas-system -l service_name=cpaas-elasticsearch
  • Monitoring для VictoriaMetrics:

    kubectl delete po -n cpaas-system -l 'service_name in (alertmanager,vmselect,vminsert)'

#Процесс восстановления после катастрофы

  1. При необходимости перезапустите Elasticsearch на резервном кластере:

    # Скопируйте installer/res/packaged-scripts/for-upgrade/ensure-asm-template.sh в /root:
    # НЕ пропускайте этот шаг
    
    # при необходимости переключитесь на пользователя root
    sudo -i
    
    # проверьте, установлен ли Log Storage для Elasticsearch в глобальном кластере
    _es_pods=$(kubectl get po -n cpaas-system | grep cpaas-elasticsearch | awk '{print $1}')
    if [[ -n "${_es_pods}" ]]; then
        # Если скрипт вернул ошибку 401, перезапустите Elasticsearch
        # затем выполните скрипт для повторной проверки кластера
        bash /root/ensure-asm-template.sh
    
        # Перезапустите Elasticsearch
        xargs -r -t -- kubectl delete po -n cpaas-system <<< "${_es_pods}"
    fi
  2. Проверьте согласованность данных в резервном кластере (та же проверка, что и в Шаге 3);

  3. Удалите плагин синхронизации etcd;

  4. Уберите перенаправление порта 2379 с обоих VIP;

  5. Переключите DNS домена платформы на резервный VIP, который теперь становится основным кластером;

  6. Проверьте разрешение DNS:

    kubectl exec -it -n cpaas-system deployments/sentry -- nslookup <platform access domain>
    # Если разрешение некорректно, перезапустите pod’ы coredns и повторяйте попытки до успеха
  7. Очистите кэш браузера и зайдите на страницу платформы, чтобы убедиться, что отображается бывший резервный кластер;

  8. Перезапустите следующие сервисы (если установлены):

    • Log Storage для Elasticsearch:

      kubectl delete po -n cpaas-system -l service_name=cpaas-elasticsearch
    • Monitoring для VictoriaMetrics:

      kubectl delete po -n cpaas-system -l 'service_name in (alertmanager,vmselect,vminsert)'
    • cluster-transformer:

      kubectl delete po -n cpaas-system -l service_name=cluster-transformer
  9. Если рабочие кластеры отправляют данные мониторинга в основной, перезапустите warlock в рабочем кластере:

    kubectl delete po -n cpaas-system -l service_name=warlock
  10. На исходном основном кластере повторите шаги Включения синхронизации etcd, чтобы превратить его в новый резервный кластер.

#Регулярные проверки

Регулярно проверяйте статус синхронизации на резервном кластере:

curl $(kubectl get svc -n cpaas-system etcd-sync-monitor -o jsonpath='{.spec.clusterIP}')/check

Если обнаружены отсутствующие или лишние ключи, следуйте инструкциям в выводе для их устранения.

#Загрузка пакетов

WARNING

При использовании violet для загрузки пакетов в резервный кластер необходимо указать параметр --dest-repo <VIP addr of standby cluster>.
В противном случае пакеты будут загружены в репозиторий образов основного кластера, что помешает установке или обновлению расширений в резервном кластере.

Также необходимо предоставить либо данные аутентификации реестра образов резервного кластера, либо параметр --no-auth.

Подробности по подкоманде violet push см. в разделе Upload Packages.