该平台提供丰富的流量监控指标数据,使用户可以从多个维度分析服务的流量质量。
服务已经注入 Sidecar,有关详细信息,请参考 添加服务。
在左侧导航栏中,点击 监控。
选择要查看监控数据的服务及时间范围。
注意:查询时间范围受 Prometheus 监控数据保留期的限制。例如:如果监控数据保留时间为 7 天,而设置的时间范围为过去 30 天,则统计数据仅覆盖 7 天。
点击各自的标签以查看该服务的流量监控数据和 API 流量监控数据。
说明:当服务网格管理多个集群时,如果有多个集群中存在 相同命名空间和名称 的服务(非 Dubbo 协议服务),流量监控面板将显示跨多个集群的服务的聚合监控数据。
使用 集群流量对比 面板比较每个集群中服务的监控数据。
刷新数据:当前页面的监控统计在打开页面时仅会自动刷新一次。要再次刷新,可以使用以下两种方法:
手动刷新:点击页面右下角的 手动刷新数据。
设置自动刷新(默认为关闭):点击 设置自动刷新数据的时间间隔。
查看/设置图例:点击图表右上角的 展开监控图表中的图例。点击图例可隐藏/显示图表中相应的曲线。
查看放大的监控图表:点击图表右上角的 在弹出对话框中查看放大且更详细的监控图表。
监控指标 | 描述 |
---|---|
平均响应时间 | 查询时间范围内的平均响应时间(总响应时间/响应总数)。 |
平均进入/离开 RPS | 查询时间范围内的进入/离开 RPS(每秒请求数)的平均值。 |
响应时间 | 服务之间或服务内部的响应时间,展示为平均值、TP 50、TP 95、TP 99。 TP(Top Percentile)xx 表示 xx 百分比的网络请求所需的最小持续时间,通常用于系统性能监控场景。 将鼠标悬停在曲线图上可查看特定时间段的响应时间。 |
进入/离开 RPS | 查询时间范围内的总进入/离开流量 RPS 和错误的进入/离开流量 RPS。 RPS = 查询时间内的请求数量 / 查询持续时间(秒)。 |
进入/离开流量 | 查询时间范围内的总进入/离开请求量,以及按 HTTP 返回码(正常/2xx,3xx,4xx,5xx)的流量比例。 将鼠标悬停在柱状图上可查看每个分类的流量比例。 |
客户端流量对比 | 客户端 指的是向当前服务(上游服务)发起请求的客户端服务(下游服务)。客户端流量对比 将比较和展示不同客户端调用当前服务的 响应时间、进入 RPS 和入站 RPS 错误率(错误 RPS/RPS)。 说明: - 未知客户端 指在服务网格中调用当前服务的客户端集合(HTTP 协议),其流量未由 Sidecar 管理。 - 如果客户端属于当前命名空间,点击客户端名称旁的 追踪 将跳转到追踪页面。 - 当加速发布服务中有两个版本时,将显示两版本的聚合数据。 |
监控指标 | 描述 |
---|---|
进入/离开流量 | 查询时间范围内的进入和离开流量的字节流大小。 |
平均进入/离开流量 | 查询时间范围内的进入/离开流量(流量/持续时间)的平均值。 |
进入/离开 | 进入和离开服务网络的字节流传输速率(每秒字节数)。 |
TCP 连接数 | 连接的总数。 错误率 = 失败连接数 / 总连接数 成功率 = 成功连接数 / 总连接数 将鼠标悬停在不同颜色的柱状图上可查看每个类别的连接数量。 |
客户端流量对比 | 比较访问当前服务的客户端服务与服务之间的网络进入字节流传输速率。 |
为确保监控系统的性能,您需要首先在平台上 声明服务 API。随后,平台将在服务的流量指标中区分声明的 API 流量质量。
成功声明服务 API 后,您可以在 API 流量监控选项卡中选择该服务下的 API。
提示:在查看数据时,您可以参考 常规操作 刷新监控数据或隐藏与图例相关的数据。
平均响应时间:选定时间范围内的平均响应时间(总响应时间/响应总数)。
响应时间:展示为平均、TP 50、TP 95、TP 99。支持查看单个值的响应时间。将鼠标移动到曲线图上可查看特定时间段的响应时间。 TP xx 表示 xx 百分比的网络请求所需的最小持续时间,通常用于系统性能监控场景。
平均进入 RPS:选定时间范围内 RPS 的平均值。
进入 RPS:每秒请求数,展示流量曲线。支持查看总流量 RPS,或点击选择错误流量 RPS。
流量:展示选定时间范围内的总访问量、平均成功率和平均错误率。颜色表示不同的 HTTP 状态码:深绿色表示成功状态(2XX),浅绿色表示重定向(3XX),橙色表示客户端请求错误(4XX),红色表示服务器错误(5XX)。平均错误率 = (4XX + 5XX) / 总流量 × 100%。