skywalking相关版本信息
- jdk:17
- skywalking:10.1.0
- apache-skywalking-java-agent:9.3.0
- ElasticSearch : 8.8.2
仪表盘介绍
首页
侧边菜单
- 市场
- 常规服务
- 告警
- 仪表盘
- 设置
常规服务
- 服务
- 虚拟数据库
- 虚拟缓存
服务
-
Load (calls / min):服务加载时间
-
Success Rate (%):服务成功率,衡量的是服务或端点的成功请求占总请求的百分比。这个指标对于评估服务的稳定性和可靠性至关重要。成功请求通常是指那些在预定时间内完成并且没有返回错误的请求。例如,对于HTTP服务,通常意味着返回状态码为200的请求。成功率的计算方法可以简化为:
-
Latency (ms):
通常指的是服务或端点在处理请求时的响应时间,以毫秒(ms)为单位。这个指标反映了系统处理请求的速度,是衡量应用性能的关键指标之一。
响应时间(Latency)可以分为几个不同的层面:
-
服务平均响应时间(Service Avg Response Time):这是在选定时间范围内,服务处理所有请求所需的平均时间。它提供了服务整体性能的一个概览。
-
端点响应时间(Endpoint Response Time):具体到服务中的某个接口或操作,端点响应时间是指单个端点处理请求所需的时间。这有助于识别服务中哪些具体操作可能是性能瓶颈。
-
-
Apdex:一段时间服务的Apdex指标,Apdex(应用性能指数)是一个用于评估应用性能的标准,主要衡量用户对应用响应时间的满意度。Apdex 的值范围从 0 到 1,0 表示没有用户满意,1 表示所有用户都满意。Apdex 的计算公式为:
服务详情
涉及到的TAB页面
1. Overview
-
定义:服务的概览页面,展示服务的整体性能和健康状态。
-
内容:包括服务的基本信息、Apdex 值、成功率、平均响应时间、负载等关键指标。
-
作用:快速了解服务的整体性能和健康状况,识别潜在问题。
2. Instance
-
定义:服务的实例页面,展示服务的各个实例的性能和健康状态。
-
内容:包括实例的负载、成功率、平均响应时间、慢实例等指标。
-
作用:监控单个服务实例的性能,识别性能较差的实例,进行优化。
3. Endpoint
-
定义:服务的端点页面,展示服务的各个端点的性能和健康状态。
-
内容:包括端点的负载、成功率、平均响应时间、慢端点等指标。
-
作用:监控特定端点的性能,识别性能较差的端点,进行优化。
4. Topology
-
定义:服务的拓扑页面,展示服务与其他服务之间的调用关系和依赖关系。
-
内容:包括服务的调用链、依赖关系图、调用次数、响应时间等。
-
作用:分析服务的调用链和依赖关系,识别性能瓶颈和潜在问题。
5. Trace
-
定义:服务的调用链页面,展示服务的调用链和详细调用信息。
-
内容:包括调用链的开始时间、结束时间、持续时间、调用路径、错误信息等。
-
作用:详细分析服务的调用链,识别性能瓶颈和错误原因。
6. Trace Profiling
-
定义:服务的调用链分析页面,提供更详细的调用链分析和性能优化建议。
-
内容:包括调用链的详细信息、性能瓶颈分析、优化建议等。
-
作用:深入分析调用链,提供性能优化建议,帮助提升服务性能。
7. eBPF Profiling
-
定义:基于 eBPF 的性能分析页面,提供更底层的系统性能分析。
-
内容:包括系统调用、内核函数、CPU 使用率、内存使用率等。
-
作用:通过 eBPF 技术深入分析系统性能,识别底层性能瓶颈,进行优化。
8. Log
-
定义:服务的日志页面,展示服务的日志信息。
-
内容:包括日志的时间、级别、内容、调用链关联等。
-
作用:监控服务的日志信息,识别错误和异常,进行问题排查和优化。
Overview涉及到的指标项
1. Service Apdex
-
定义:服务性能指数,衡量用户对服务响应时间的满意度。
-
作用:评估服务的整体性能,识别性能瓶颈。
2. Success Rate
-
定义:服务成功率,表示成功请求占总请求的百分比。
-
作用:监控服务的健康状态,识别错误和异常。
3. Service Load
-
定义:服务负载,表示每分钟服务的调用次数。
-
作用:评估服务的繁忙程度,识别高负载时段。
4. Service Avg Response Time (ms)
-
定义:服务平均响应时间,表示所有请求的平均响应时间。
-
作用:监控服务的响应速度,识别性能瓶颈。
5. Service Response Time Percentile (ms)
-
定义:服务响应时间百分位数,如 P90、P95、P99 等。
-
作用:评估服务在不同百分位下的响应时间,识别慢请求。
6. Service Load (calls / min)
-
定义:服务负载,表示每分钟服务的调用次数。
-
作用:评估服务的繁忙程度,识别高负载时段。
7. Success Rate (%)
-
定义:成功率,表示成功请求占总请求的百分比。
-
作用:监控服务的健康状态,识别错误和异常。
8. Message Queue Consuming Count
-
定义:消息队列消费次数,表示消息队列中被消费的消息数量。
-
作用:监控消息队列的消费情况,识别消费瓶颈。
9. Message Queue Avg Consuming Latency (ms)
-
定义:消息队列平均消费延迟,表示消息从进入队列到被消费的平均时间。
-
作用:监控消息队列的消费效率,识别延迟问题。
10. Service Instances Load (calls / min)
-
定义:服务实例负载,表示每分钟服务实例的调用次数。
-
作用:评估单个服务实例的繁忙程度,识别高负载实例。
11. Slow Service Instance (ms)
-
定义:慢服务实例,表示响应时间超过阈值的服务实例。
-
作用:识别性能较差的单个服务实例,进行优化。
12. Service Instance Success Rate (%)
-
定义:服务实例成功率,表示单个服务实例的成功请求百分比。
-
作用:监控单个服务实例的健康状态,识别异常实例。
13. Endpoint Load in Current Service (calls / min)
-
定义:当前服务中的端点负载,表示每分钟端点的调用次数。
-
作用:评估特定端点的繁忙程度,识别高负载端点。
14. Slow Endpoints in Current Service (ms)
-
定义:当前服务中的慢端点,表示响应时间超过阈值的端点。
-
作用:识别性能较差的端点,进行优化。
15. Endpoint Success Rate in Current Service (%)
-
定义:当前服务中的端点成功率,表示特定端点的成功请求百分比。
-
作用:监控特定端点的健康状态,识别异常端点。