【skywalking】仪表盘介绍

 skywalking相关版本信息

  • jdk:17
  • skywalking:10.1.0
  • apache-skywalking-java-agent:9.3.0
  • ElasticSearch : 8.8.2

仪表盘介绍

首页

侧边菜单

  • 市场
  • 常规服务
  • 告警
  • 仪表盘
  • 设置

常规服务

  • 服务
  • 虚拟数据库
  • 虚拟缓存

服务

  • Load (calls / min):服务加载时间

  • Success Rate (%):服务成功率,衡量的是服务或端点的成功请求占总请求的百分比。这个指标对于评估服务的稳定性和可靠性至关重要。成功请求通常是指那些在预定时间内完成并且没有返回错误的请求。例如,对于HTTP服务,通常意味着返回状态码为200的请求。成功率的计算方法可以简化为:

  • Latency (ms):

    通常指的是服务或端点在处理请求时的响应时间,以毫秒(ms)为单位。这个指标反映了系统处理请求的速度,是衡量应用性能的关键指标之一。

    响应时间(Latency)可以分为几个不同的层面:

    • 服务平均响应时间(Service Avg Response Time):这是在选定时间范围内,服务处理所有请求所需的平均时间。它提供了服务整体性能的一个概览。

    • 端点响应时间(Endpoint Response Time):具体到服务中的某个接口或操作,端点响应时间是指单个端点处理请求所需的时间。这有助于识别服务中哪些具体操作可能是性能瓶颈。

  • Apdex:一段时间服务的Apdex指标,Apdex(应用性能指数)是一个用于评估应用性能的标准,主要衡量用户对应用响应时间的满意度。Apdex 的值范围从 0 到 1,0 表示没有用户满意,1 表示所有用户都满意。Apdex 的计算公式为:

服务详情

涉及到的TAB页面

1. Overview
  • 定义:服务的概览页面,展示服务的整体性能和健康状态。

  • 内容:包括服务的基本信息、Apdex 值、成功率、平均响应时间、负载等关键指标。

  • 作用:快速了解服务的整体性能和健康状况,识别潜在问题。

2. Instance
  • 定义:服务的实例页面,展示服务的各个实例的性能和健康状态。

  • 内容:包括实例的负载、成功率、平均响应时间、慢实例等指标。

  • 作用:监控单个服务实例的性能,识别性能较差的实例,进行优化。

3. Endpoint
  • 定义:服务的端点页面,展示服务的各个端点的性能和健康状态。

  • 内容:包括端点的负载、成功率、平均响应时间、慢端点等指标。

  • 作用:监控特定端点的性能,识别性能较差的端点,进行优化。

4. Topology
  • 定义:服务的拓扑页面,展示服务与其他服务之间的调用关系和依赖关系。

  • 内容:包括服务的调用链、依赖关系图、调用次数、响应时间等。

  • 作用:分析服务的调用链和依赖关系,识别性能瓶颈和潜在问题。

5. Trace
  • 定义:服务的调用链页面,展示服务的调用链和详细调用信息。

  • 内容:包括调用链的开始时间、结束时间、持续时间、调用路径、错误信息等。

  • 作用:详细分析服务的调用链,识别性能瓶颈和错误原因。

6. Trace Profiling
  • 定义:服务的调用链分析页面,提供更详细的调用链分析和性能优化建议。

  • 内容:包括调用链的详细信息、性能瓶颈分析、优化建议等。

  • 作用:深入分析调用链,提供性能优化建议,帮助提升服务性能。

7. eBPF Profiling
  • 定义:基于 eBPF 的性能分析页面,提供更底层的系统性能分析。

  • 内容:包括系统调用、内核函数、CPU 使用率、内存使用率等。

  • 作用:通过 eBPF 技术深入分析系统性能,识别底层性能瓶颈,进行优化。

8. Log
  • 定义:服务的日志页面,展示服务的日志信息。

  • 内容:包括日志的时间、级别、内容、调用链关联等。

  • 作用:监控服务的日志信息,识别错误和异常,进行问题排查和优化。

Overview涉及到的指标项

1. Service Apdex
  • 定义:服务性能指数,衡量用户对服务响应时间的满意度。

  • 作用:评估服务的整体性能,识别性能瓶颈。

2. Success Rate
  • 定义:服务成功率,表示成功请求占总请求的百分比。

  • 作用:监控服务的健康状态,识别错误和异常。

3. Service Load
  • 定义:服务负载,表示每分钟服务的调用次数。

  • 作用:评估服务的繁忙程度,识别高负载时段。

4. Service Avg Response Time (ms)
  • 定义:服务平均响应时间,表示所有请求的平均响应时间。

  • 作用:监控服务的响应速度,识别性能瓶颈。

5. Service Response Time Percentile (ms)
  • 定义:服务响应时间百分位数,如 P90、P95、P99 等。

  • 作用:评估服务在不同百分位下的响应时间,识别慢请求。

6. Service Load (calls / min)
  • 定义:服务负载,表示每分钟服务的调用次数。

  • 作用:评估服务的繁忙程度,识别高负载时段。

7. Success Rate (%)
  • 定义:成功率,表示成功请求占总请求的百分比。

  • 作用:监控服务的健康状态,识别错误和异常。

8. Message Queue Consuming Count
  • 定义:消息队列消费次数,表示消息队列中被消费的消息数量。

  • 作用:监控消息队列的消费情况,识别消费瓶颈。

9. Message Queue Avg Consuming Latency (ms)
  • 定义:消息队列平均消费延迟,表示消息从进入队列到被消费的平均时间。

  • 作用:监控消息队列的消费效率,识别延迟问题。

10. Service Instances Load (calls / min)
  • 定义:服务实例负载,表示每分钟服务实例的调用次数。

  • 作用:评估单个服务实例的繁忙程度,识别高负载实例。

11. Slow Service Instance (ms)
  • 定义:慢服务实例,表示响应时间超过阈值的服务实例。

  • 作用:识别性能较差的单个服务实例,进行优化。

12. Service Instance Success Rate (%)
  • 定义:服务实例成功率,表示单个服务实例的成功请求百分比。

  • 作用:监控单个服务实例的健康状态,识别异常实例。

13. Endpoint Load in Current Service (calls / min)
  • 定义:当前服务中的端点负载,表示每分钟端点的调用次数。

  • 作用:评估特定端点的繁忙程度,识别高负载端点。

14. Slow Endpoints in Current Service (ms)
  • 定义:当前服务中的慢端点,表示响应时间超过阈值的端点。

  • 作用:识别性能较差的端点,进行优化。

15. Endpoint Success Rate in Current Service (%)
  • 定义:当前服务中的端点成功率,表示特定端点的成功请求百分比。

  • 作用:监控特定端点的健康状态,识别异常端点。




猜你喜欢

转载自blog.csdn.net/wochunyang/article/details/143306078