OTel

OpenTelemetry (OTel) 是一个开源项目,旨在为分布式系统(如微服务架构)中的遥测数据收集、处理和导出提供供应商中立的标准。它帮助开发者更轻松地分析软件的性能和行为,从而促进应用问题的诊断和解决。

目录

术语

术语说明
Trace提交给 OTel Server 的数据,是一组相关事件或操作的集合,用于跟踪分布式系统中请求的流转;每个 Trace 由多个 Span 组成。
SpanTrace 中的独立操作或事件,包含开始时间、持续时间及其他相关信息。
OTel Server能够接收和存储 Trace 数据的 OTel 服务器,如 Jaeger、Prometheus 等。
Jaeger一个开源的分布式追踪系统,用于监控和排查微服务架构,支持与 OpenTelemetry 集成。
Attributes附加在 Trace 或 Span 上的键值对,用于提供额外的上下文信息,包括 Resource Attributes 和 Span Attributes;详见 Attributes
Sampler决定是否采样并上报 Trace 的策略组件。可配置不同的采样策略,如全采样、比例采样等。
ALB (Another Load Balancer)在集群中分发网络请求到可用节点的软件或硬件设备;平台中使用的负载均衡器(ALB)是七层软件负载均衡器,可配置为通过 OTel 监控流量。ALB 支持将 Trace 提交到指定的 Collector,并允许不同采样策略;还支持配置是否在 Ingress 级别提交 Trace。
FT (Frontend)ALB 的端口配置,指定端口级别的配置。
Rule端口(FT)上的路由规则,用于匹配特定路由。
HotROD (Rides on Demand)Jaeger 提供的示例应用,用于演示分布式追踪的使用;详情参见 Hot R.O.D. - Rides on Demand
hotrod-with-proxy通过环境变量指定 HotROD 内部微服务地址;详情参见 hotrod-with-proxy

前提条件

  • 确保存在可用的 ALB:创建或使用已有的 ALB,本文档中 ALB 名称用 <otel-alb> 代替。有关创建 ALB 的操作步骤,请参见 Deploy ALB

  • 确保存在 OTel 数据上报服务器地址:该地址以下称为 <jaeger-server>

操作步骤

更新 ALB 配置

  1. 在集群的 Master 节点,使用 CLI 工具执行以下命令编辑 ALB 配置。

    kubectl edit alb2 -n cpaas-system <otel-alb> # 将 <otel-alb> 替换为实际的 ALB 名称
  2. spec.config 部分添加以下字段。

    otel:
      enable: true
      exporter:
        collector:
          address: "<jaeger-server>" # 将 <jaeger-server> 替换为实际的 OTel 数据上报服务器地址
          request_timeout: 1000

    完成后的示例配置:

    spec:
      address: 192.168.1.1
      config:
        otel:
         enable: true
         exporter:
           collector:
             address: "http://jaeger.default.svc.cluster.local:4318"
             request_timeout: 1000
        antiAffinityKey: system
        defaultSSLCert: cpaas-system/cpaas-system
        defaultSSLStrategy: Both
        gateway:
        ...
    type: nginx
  3. 执行以下命令保存更新。更新后,ALB 默认启用 OpenTelemetry,所有请求的 Trace 信息将上报到 Jaeger Server。

    :wq

相关操作

在 Ingress 中配置 OTel

  • 启用或禁用 Ingress 上的 OTel

    通过配置是否启用 Ingress 上的 OTel,可以更好地监控和调试应用的请求流,追踪请求在不同服务间的传播,识别性能瓶颈或错误。

    操作步骤

    在 Ingress 的 metadata.annotations 字段下添加如下配置:

    nginx.ingress.kubernetes.io/enable-opentelemetry: "true"

    参数说明:

    • nginx.ingress.kubernetes.io/enable-opentelemetry:设置为 true 表示 Ingress 控制器在处理该 Ingress 的请求时启用 OpenTelemetry 功能,即会收集并上报请求的 Trace 信息。设置为 false 或移除此注解则表示不收集或上报请求 Trace 信息。
  • 启用或禁用 Ingress 上的 OTel Trust

    OTel Trust 决定 Ingress 是否信任并使用来自请求的 Trace 信息(如 trace ID)。

    操作步骤

    在 Ingress 的 metadata.annotations 字段下添加如下配置:

    nginx.ingress.kubernetes.io/opentelemetry-trust-incoming-span: "true"

    参数说明:

    • nginx.ingress.kubernetes.io/opentelemetry-trust-incoming-span:设置为 true 时,Ingress 会继续使用已有的 Trace 信息,有助于保持跨服务追踪的一致性,使整个请求链路能在分布式追踪系统中完整追踪和分析。设置为 false 时,会为请求生成新的追踪信息,可能导致请求进入 Ingress 后被视为新的追踪链,打断跨服务追踪的连续性。
  • 在 Ingress 上添加不同的 OTel 配置

    该配置允许针对不同的 Ingress 资源自定义 OTel 的行为和数据导出方式,实现对各服务追踪策略或目标的精细化控制。

    操作步骤

    在 Ingress 的 metadata.annotations 字段下添加如下配置:

    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      annotations:
        alb.ingress.cpaas.io/otel: >
          {
             "enable": true,
             "exporter": {
                 "collector": {
                     "address": "<jaeger-server>", # 将 <jaeger-server> 替换为实际的 OTel 数据上报服务器地址,例如 "address": "http://128.0.0.1:4318"
                     "request_timeout": 1000
                 }
             }
          }

    参数说明:

    • exporter:指定如何将采集到的 Trace 数据发送到 OTel Collector(OTel 数据上报服务器)。
    • address:指定 OTel Collector 的地址。
    • request_timeout:请求超时时间。

在应用中使用 OTel

以下配置展示了完整的 OTel 配置结构,可用于定义如何在应用中启用和使用 OTel 功能。

在集群 Master 节点,使用 CLI 工具执行以下命令获取完整的 OTel 配置结构。

kubectl get crd alaudaloadbalancer2.crd.alauda.io -o json|jq ".spec.versions[2].schema.openAPIV3Schema.properties.spec.properties.config.properties.otel"

回显结果:

{
    "otel": {
        "enable": true
    }
    "exporter": {
        "collector": {
            "address": ""
          },
    },
    "flags": {
        "hide_upstream_attrs": false
        "notrust_incoming_span": false
        "report_http_request_header": false
        "report_http_response_header": false
    },
    "sampler": {
        "name": "",
        "options": {
            "fraction": ""
            "parent_name": ""
          },
      },
 }

参数说明:

参数说明
otel.enable是否启用 OTel 功能。
exporter.collector.addressOTel 数据上报服务器地址,支持 http/https 协议及域名。
flags.hide_upstream_attrs是否上报上游规则相关信息。
flag.notrust_incoming_span是否信任并使用来自请求的 OTel Trace 信息(如 trace ID)。
flags.report_http_request_header是否上报请求头。
flags.report_http_response_header是否上报响应头。
sampler.name采样策略名称;详情见 Sampling Strategies
sampler.options.fraction采样率。
sampler.options.parent_nameparent_base 采样策略的父策略。

继承关系

默认情况下,如果 ALB 配置了某些 OTel 参数且 FT 未配置,则 FT 会继承 ALB 的参数作为自身配置;即 FT 继承 ALB 配置,而 Rule 可以继承 ALB 和 FT 的配置。

  • ALB:ALB 上的配置通常是全局和默认的,可配置全局参数如 Collector 地址,供下层 FT 和 Rule 继承。

  • FT:FT 可以继承 ALB 的配置,未配置的 OTel 参数将使用 ALB 配置。但 FT 也可进一步细化,例如选择性地启用或禁用 FT 上的 OTel,不影响其他 FT 或 ALB 的全局设置。

  • Rule:Rule 可继承 ALB 和 FT 的配置,也可进一步细化,例如某条 Rule 可选择不信任传入的 OTel Trace 信息,或调整采样策略。

操作步骤

通过在 ALB、FT 和 Rule 的 YAML 文件中配置 spec.config.otel 字段,即可添加 OTel 相关配置。

附加说明

采样策略

参数说明
always on始终上报所有追踪数据。
always off从不上报追踪数据。
traceid-ratio根据 traceid 决定是否上报。traceparent 格式为 xx-traceid-xx-flag,其中 traceid 的前 16 个字符代表一个 32 位十六进制整数。若该整数小于 fraction 乘以 4294967295(即 (2^32-1)),则上报。
parent-base根据请求中 traceparent 的 flag 部分决定是否上报。flag 为 01 时上报,例如:curl -v "http://$ALB_IP/" -H 'traceparent: 00-xx-xx-01';flag 为 02 时不上报,例如:curl -v "http://$ALB_IP/" -H 'traceparent: 00-xx-xx-02'

Attributes

  • 资源属性(Resource Attributes)

    这些属性默认上报。

    参数说明
    hostnameALB Pod 的主机名
    service.nameALB 名称
    service.namespaceALB 所在命名空间
    service.type默认为 ALB
    service.instance.idALB Pod 名称
  • Span 属性

    • 默认上报的属性:

      参数说明
      http.status_code状态码
      http.request.resend_count重试次数
      alb.rule.rule_name本次请求匹配的规则名称
      alb.rule.source_type本次请求匹配的规则类型,当前仅支持 Ingress
      alb.rule.source_nameIngress 名称
      alb.rule.source_nsIngress 所在命名空间
    • 默认上报但可通过修改 flag.hide_upstream_attrs 字段排除的属性:

      参数说明
      alb.upstream.svc_name流量转发的 Service(内网路由)名称
      alb.upstream.svc_ns被转发的 Service(内网路由)所在命名空间
      alb.upstream.peer被转发 Pod 的 IP 地址和端口
    • 默认不上报但可通过修改 flag.report_http_request_header 字段上报的属性:

      参数说明
      **http.request.header.<header>**请求头
    • 默认不上报但可通过修改 flag.report_http_response_header 字段上报的属性:

      参数说明
      **http.response.header.<header>**响应头

配置示例

以下 YAML 配置部署一个 ALB,使用 Jaeger 作为 OTel 服务器,Hotrod-proxy 作为示范后端。通过配置 Ingress 规则,当客户端请求 ALB 时,流量将转发到 HotROD。同时,HotROD 内部微服务间的通信也通过 ALB 路由。

  1. 将以下 YAML 保存为名为 all.yaml 的文件。

    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: hotrod
    spec:
      replicas: 1
      selector:
        matchLabels:
          service.cpaas.io/name: hotrod
          service_name: hotrod
      template:
        metadata:
          labels:
            service.cpaas.io/name: hotrod
            service_name: hotrod
        spec:
          containers:
            - name: hotrod
              env:
                - name: PROXY_PORT
                  value: "80"
                - name: PROXY_ADDR
                  value: "otel-alb.default.svc.cluster.local:"
                - name: OTEL_EXPORTER_OTLP_ENDPOINT
                  value: "http://jaeger.default.svc.cluster.local:4318"
              image: theseedoaa/hotrod-with-proxy:latest
              imagePullPolicy: IfNotPresent
              command: ["/bin/hotrod", "all", "-v"]
    ---
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: hotrod-frontend
    spec:
      ingressClassName: otel-alb
      rules:
        - http:
            paths:
              - backend:
                  service:
                    name: hotrod
                    port:
                      number: 8080
                path: /dispatch
                pathType: ImplementationSpecific
              - backend:
                  service:
                    name: hotrod
                    port:
                      number: 8080
                path: /frontend
                pathType: ImplementationSpecific
    ---
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: hotrod-customer
    spec:
      ingressClassName: otel-alb
      rules:
        - http:
            paths:
              - backend:
                  service:
                    name: hotrod
                    port:
                      number: 8081
                path: /customer
                pathType: ImplementationSpecific
    ---
    apiVersion: networking.k8s.io/v1
    kind: Ingress
    metadata:
      name: hotrod-route
    spec:
      ingressClassName: otel-alb
      rules:
        - http:
            paths:
              - backend:
                  service:
                    name: hotrod
                    port:
                      number: 8083
                path: /route
                pathType: ImplementationSpecific
    ---
    apiVersion: v1
    kind: Service
    metadata:
      name: hotrod
    spec:
      internalTrafficPolicy: Cluster
      ipFamilies:
        - IPv4
      ipFamilyPolicy: SingleStack
      ports:
        - name: frontend
          port: 8080
          protocol: TCP
          targetPort: 8080
        - name: customer
          port: 8081
          protocol: TCP
          targetPort: 8081
        - name: router
          port: 8083
          protocol: TCP
          targetPort: 8083
      selector:
        service_name: hotrod
      sessionAffinity: None
      type: ClusterIP
    ---
    apiVersion: apps/v1
    kind: Deployment
    metadata:
      name: jaeger
    spec:
      replicas: 1
      selector:
        matchLabels:
          service.cpaas.io/name: jaeger
          service_name: jaeger
      template:
        metadata:
          labels:
            service.cpaas.io/name: jaeger
            service_name: jaeger
        spec:
          containers:
            - name: jaeger
              env:
                - name: LOG_LEVEL
                  value: debug
              image: jaegertracing/all-in-one:1.58.1
              imagePullPolicy: IfNotPresent
          hostNetwork: true
          tolerations:
            - operator: Exists
    ---
    apiVersion: v1
    kind: Service
    metadata:
      name: jaeger
    spec:
      internalTrafficPolicy: Cluster
      ipFamilies:
        - IPv4
      ipFamilyPolicy: SingleStack
      ports:
        - name: http
          port: 4318
          protocol: TCP
          targetPort: 4318
      selector:
        service_name: jaeger
      sessionAffinity: None
      type: ClusterIP
    ---
    apiVersion: crd.alauda.io/v2
    kind: ALB2
    metadata:
      name: otel-alb
    spec:
      config:
        loadbalancerName: otel-alb
        otel:
          enable: true
          exporter:
            collector:
              address: "http://jaeger.default.svc.cluster.local:4318"
              request_timeout: 1000
        projects:
          - ALL_ALL
        replicas: 1
        resources:
          alb:
            limits:
              cpu: 200m
              memory: 2Gi
            requests:
              cpu: 50m
              memory: 128Mi
          limits:
            cpu: "1"
            memory: 1Gi
          requests:
            cpu: 50m
            memory: 128Mi
      type: nginx
  2. 在 CLI 工具中执行以下命令,部署 Jaeger、ALB、HotROD 及所有测试所需的 CR。

    kubectl apply ./all.yaml
  3. 执行以下命令获取 Jaeger 的访问地址。

    export JAEGER_IP=$(kubectl get po -A -o wide |grep jaeger | awk '{print $7}');echo "http://$JAEGER_IP:16686"
  4. 执行以下命令获取 otel-alb 的访问地址。

    export ALB_IP=$(kubectl get po -A -o wide|grep otel-alb | awk '{print $7}');echo $ALB_IP
  5. 执行以下命令通过 ALB 向 HotROD 发送请求,此时 ALB 会将 Trace 上报到 Jaeger。

    curl -v "http://<$ALB_IP>:80/dispatch?customer=567&nonse=" # 将命令中的 <$ALB_IP> 替换为上一步获取的 otel-alb 访问地址
  6. 打开第 3 步 获取的 Jaeger 访问地址查看结果。