集群创建失败

问题描述

在创建 PostgreSQL 集群时,集群状态长时间处于 "Creating" 状态,最终创建失败。

常见错误

  • 存储配置错误
  • 资源配额不足
  • 网络连接问题
  • 镜像拉取失败

排查步骤

1. 检查存储配置

kubectl get pvc -n $NAMESPACE
kubectl describe pvc <pvc名> -n $NAMESPACE

常见问题:

  • 存储类不存在
  • 存储配额不足
  • PVC 绑定失败

2. 检查资源配额

kubectl describe quota -n $NAMESPACE

常见问题:

  • CPU 配额不足
  • 内存配额不足
  • Pod 数量限制

3. 检查网络连接

kubectl get endpoints -n $NAMESPACE

常见问题:

  • 服务端点不可达
  • 网络策略限制
  • DNS 解析失败

4. 检查镜像拉取

kubectl describe pod <pod名> -n $NAMESPACE

常见问题:

  • 镜像仓库认证失败
  • 镜像标签错误
  • 网络连接超时

解决方案

存储配置问题

  1. 确认存储类存在且可用
  2. 检查存储配额是否充足
  3. 验证 PVC 绑定状态

资源配额问题

  1. 调整命名空间资源配额
  2. 优化集群资源配置
  3. 清理未使用的资源

网络连接问题

  1. 检查网络策略配置
  2. 验证 DNS 解析
  3. 测试服务端点连通性

镜像拉取问题

  1. 配置正确的镜像仓库认证
  2. 使用有效的镜像标签
  3. 检查网络连接

预防措施

  1. 创建集群前验证存储配置
  2. 确保命名空间有足够资源配额
  3. 配置正确的网络策略
  4. 使用可靠的镜像仓库