操作场景

服务依赖拓扑包含了查询服务之间相互依赖调用的拓扑关系,查询特定集群特定命名空间下服务之间调用的统计结果等功能。

以下视频将为您介绍服务依赖拓扑的使用方法:

操作步骤

查询拓扑关系

  1. 登录 腾讯微服务框架控制台
  2. 在左侧导航栏选择【运维中心】>【依赖分析】>【服务依赖拓扑】,进入服务依赖拓扑界面。
  3. 在页面顶部数据中心位置,选择需要查看的服务所属命名空间。
  4. 下方按钮选择需要依赖拓扑的时间,近30分钟、近10分钟、近5分钟以及选择特定时间段(特定时间段的时间跨度最长为32天)。
  5. 选择之后将在下方空白处出现对应的服务依赖调用关系。
    • 灰色的圆圈表示主动调用的服务,箭头表示发出调用。
    • 绿色的圆圈表示成功调用,黄色表示调用失败。
    • 绿色和黄色组成的圆圈,绿色所占的比例是成功调用的比例,黄色为失败的比例。
    • 圆圈中的数字表示平均请求耗时(单位:ms)和请求频率(单位:次/分钟)。
    • 服务间带箭头曲线上的数字表示两个服务间调用的平均耗时。

      在选中时间范围内,consumer-demo 调用了 provider-demo 服务,调用成功比例为 100% (绿色部分)。其中平均每次调用耗时1.91ms,请求频率为每分钟59.8次。
说明:

  • 当前服务依赖拓扑图中可以展示消息队列组件(CKafka)、网关组件(微服务网关、API 网关)、数据库(Redis、MySQL)。
  • 调用中出现消息队列组件时,暂时无法支持批量消费场景下的服务依赖拓扑图。

查询依赖详情

鼠标放置到图上特定位置可以显示调用依赖详情。

  • 放置在服务间的依赖线条上,弹出面板显示被调用者和调用次数统计,单击弹出框上的“查看调用链”可以进入到调用链查询界面。
  • 放置在服务圈内(白色底),可以展示被调用次数,单击弹出框上的“查看调用链”可以进入到调用链查询界面。

查看监控

说明:

要使用该功能,需要更新到1.12.0版本之后的 agent 和 SDK(Spring Cloud),否则无法看到调用概览。

单击依赖详情对话框中【查看图表】,侧边弹出半屏的调用概览。调用概览的时间范围和调用链查询的时间范围一致。监控概览页面中包括4部分信息:

  • 健康概览:显示按分钟统计的正常请求和失败请求数量。

  • 延时概览:显示请求耗时在不同时间段的分配比例。

  • 状态码概览:显示不同请求状态码的分配比例。

  • 并发概览:显示每分钟统计的连接并发数。

可视化参考


1. 对依赖拓扑图的数据说明:
图中,调用线上的时间,指从上游服务发出请求、到上游服务受到下游服务回包的时间。
调用线上会经历 Client service send、Server service receive、Server service send、Client service receive 的过程。
图中,服务圈内的数据,是站在服务 server 端采集到的。
从平均耗时角度而言,会经历从 Server receive 到 Server send 的过程。
Client-Server 过程可参考下图:

2. Apdex 释义
服务依赖拓扑使用应用性能指数(Apdex)对应用性能满意度进行量化,并使用不同颜色对不同区间 Apdex 的值进行标识,显示 span 健康度,方便您快速发现应用性能问题。
应用性能指数(Apdex)的计算方式如下:

默认情况下,调用时延说明如下:

  • 正常调用:指调用时延小于200ms的调用。
  • 慢调用:指调用时延大于200ms小于800的调用(4 × 200ms)。
  • 极慢调用:指调用时延大于800的调用。

Apdex 取值范围说明如下:

Apdex 取值 说明
Apdex > 0.75 表示调用延时正常,箭头为绿色。
0.75 ≥ Apdex > 0.25 表示调用延时较大,箭头为黄色。
Apdex ≤ 0.25 表示调用延时非常大,箭头为红色。

通用参考

Apdex(Application Performance Index)是由 Apdex 联盟开发的用于评估应用性能的工业标准。Apdex 标准从用户的角度出发,将对应用响应时间的表现,转为用户对于应用性能的可量化范围为 0-1 的满意度评价。

Apdex 的原理
Apdex 定义了应用响应时间的最优门槛为 T(即 Apdex 阈值,T 由性能评估人员根据预期性能要求确定),根据应用响应时间结合 T 定义了三种不同的性能表现:

性能表现 说明 示例
Satisfied
(满意)
应用响应时间低于或等于 T。 例如,T 为1.5s,则一个耗时1s的响应结果则可以认为是 Satisfied 的。
Tolerating
(可容忍)
应用响应时间大于 T,但同时小于或等于4T。 例如,应用设定的T值为1s,则4 × 1=4s为应用响应时间的容忍上限。
Frustrated
(烦躁期)
应用响应时间大于 4T。 -