- Auteur : Wan Kai
- Réimprimé de : skywalking.apache.org/zh/2023-03-…
arrière-plan
En tant qu'outil de surveillance des performances des applications pour les systèmes distribués, Apache SkyWalking fournit des fonctionnalités de surveillance, de suivi et de diagnostic pour les systèmes distribués sous l'architecture cloud native. Prometheus est une boîte à outils de surveillance et d'alerte de système open source avec un écosystème actif. En particulier, les métriques Prometheus sont largement prises en charge par les exportateurs et les intégrations . PromQL, en tant que langage de requête Prometheus, contient un ensemble d'expressions et expose une API HTTP pour lire les métriques.
SkyWalking prend en charge l'ingestion de métriques Prometheus via le collecteur OpenTelemetry et fournit diverses surveillances du système, telles que la surveillance Linux et la surveillance Kubernetes, via le calcul agrégé de ces métriques. SkyWalking fournit déjà aux utilisateurs une interface utilisateur native et une API GraphQL . Cependant, afin de fournir une gamme plus large de capacités d'intégration écologique, à partir de 9.4.0, il fournit des services PromQL, grâce auxquels des systèmes tiers ou des plates-formes de visualisation (telles que Grafana) qui prennent déjà en charge PromQL peuvent obtenir des indicateurs. Les utilisateurs de SkyWalking bénéficieront de l'intégration avec différents systèmes.
Qu'est-ce que le service PromQL dans SkyWalking ?
Le service PromQL est un moteur de requête au-dessus de la requête native GraphQL de SkyWalking, avec des capacités de calcul de phase de requête supplémentaires alimentées par des expressions Prometheus. Il peut accepter les requêtes de l'API HTTP PromQL, analyser les expressions Prometheus et effectuer la conversion entre les métriques Prometheus et les métriques SkyWalking.
Le service PromQL suit tous les protocoles et la syntaxe de PromQL, et les utilisateurs peuvent l'utiliser comme PromQL. Étant donné que SkyWalking est fondamentalement différent de Prometheus en termes de classification des métriques, de format, de stockage, etc., il n'est pas nécessaire que les services PromQL implémentent toutes les fonctionnalités de PromQL. Voir la documentation pour plus de détails .
Concept de base du SkyWalking
Voici quelques concepts de base que les utilisateurs doivent comprendre lors de l'utilisation des services PromQL et les différences avec Prometheus : les indicateurs Prometheus spécifient le format et la structure de dénomination, et les noms et étiquettes des indicateurs réels sont déterminés par le fournisseur client et stockent des informations détaillées. Les utilisateurs agrègent et calculent les métriques à l'aide d'expressions dans PromQL. Contrairement à Prometheus, le mécanisme de métriques de SkyWalking est construit autour des concepts de base suivants avec une hiérarchie :
-
Couche (Layer): Représente un cadre abstrait en informatique, tel que le système d'exploitation (couche OS_LINUX), Kubernetes (couche k8s). Cette couche sera propriétaire de différents services détectés à partir de différentes technologies. disponible ici
Trouvez toutes les définitions de couches.
-
Service : représente un groupe/ensemble de charges de travail qui fournissent le même comportement pour les demandes entrantes.
-
Instance de service : une seule charge de travail dans un groupe de services.
-
Point de terminaison : chemin de service pour les demandes entrantes.
-
Processus : processus du système d'exploitation. Dans certains scénarios,
service instance
il ne s'agit pas d'un processus. Par exemple, un pod Kubernetes peut contenir plusieurs processus.
Metric 名称和属性(标签)由 SkyWalking OAP 服务器根据数据源以及 OAL 和 MAL 配置。SkyWalking 提供了对时间序列指标进行下采样(down-sampling),并生成不同时间段数据(分钟、小时、天)的能力。
SkyWalking 指标流如下:
流量
- Service/ServiceRelation/Instance/ServiceInstanceRelation/Endpoint/EndpointRelation/Process/ProcessRelation 的元数据。包括名称、层、属性、它们之间的关系等。
指标
- 名称(Name):指标名称,来自 OAL 和 MAL 的配置。
- 实体(Entity):表示指标的归属,用于查询。一个 Entity 根据
Scope
不同会包含如下信息: Scope 代表指标级别,在查询阶段代表 Scope catalog,Scope catalog 为所有的 scope 提供了高维的分类,层次结构。
Scope | 实体信息 |
---|---|
Service | 服务(包括图层信息) |
ServiceInstance | 服务、服务实例 |
Endpoint | 服务、端点 |
ServiceRelation | 服务,目标服务 |
ServiceInstanceRelation | 服务实例、目标服务实例 |
EndpointRelation | 端点、目标端点 |
Process | 服务、服务实例、流程 |
ProcessRelation | 进程、服务实例、DestProcess |
- 值:
- 单值:long
- 标签值:文本,
label1,value1|label2,value2|...
,例如L2 aggregation,5000 | L1 aggregation,8000
- TimeBucket:时间精确到分钟、小时、天
如何使用 PromQL 服务
设置
PromQL 服务在 v9.4.0 之后默认开启,不需要额外配置。例如,可以使用 OAP 环境变量配置默认端口:
restHost: ${SW_PROMQL_REST_HOST:0.0.0.0}
restPort: ${SW_PROMQL_REST_PORT:9090}
restContextPath: ${SW_PROMQL_REST_CONTEXT_PATH:/}
restMaxThreads: ${SW_PROMQL_REST_MAX_THREADS:200}
restIdleTimeOut: ${SW_PROMQL_REST_IDLE_TIMEOUT:30000}
restAcceptQueueSize: ${SW_PROMQL_REST_QUEUE_SIZE:0}
复制代码
使用 Prometheus 表达式
PromQL 通过 Prometheus 表达式匹配指标。这是一个典型的 Prometheus 指标。
为了匹配指标,Prometheus 表达式如下:
在 PromQL 服务中,这些保留的标签将被解析为度量名称和实体信息字段以及用于查询的其他标签。映射如下。
SkyWalking 概念 | Prometheus 表达 |
---|---|
指标名称 | 指标名称 |
层 | 标签 |
服务 | 标签 |
服务实例 | 标签 <服务实例> |
端点 | 标签 |
…… | …… |
例如,以下表达式用于匹配查询指标:service_cpm、service_instance_cpm、endpoint_cpm
service_cpm {service='agent::songs', layer='GENERAL'}
service_instance_cpm {service='agent::songs', service_instance='agent::songs_instance_1', layer='GENERAL'}
endpoint_cpm {service='agent::songs', endpoint='GET:/songs', layer='GENERAL'}
复制代码
典型查询示例
在这里,我们将 SkyWalking Showcase 部署作为 Playground 来演示如何使用 PromQL 获取 SkyWalking 指标。
以下示例可用于通过 PromQL 服务查询服务的元数据和指标。
获取指标名称
查询:
http://localhost:9099/api/v1/label/__name__/values
复制代码
结果:
{
"status": "success",
"data": [
"meter_mysql_instance_qps",
"service_cpm",
"envoy_cluster_up_rq_active",
"instance_jvm_class_loaded_class_count",
"k8s_cluster_memory_requests",
"meter_vm_memory_used",
"meter_apisix_sv_bandwidth_unmatched",
"meter_vm_memory_total",
...
]
}
复制代码
选择一个指标并获取标签
查询:
http://localhost:9099/api/v1/labels?match []=service_cpm
复制代码
结果:
{
"status": "success",
"data": [
"layer",
"service",
"top_n",
"order"
]
}
复制代码
从特定层获取服务
查询:
http://127.0.0.1:9099/api/v1/series?match []=service_traffic {layer='GENERAL'}&start=1677479336&end=1677479636
复制代码
结果:
{
"status": "success",
"data": [
{"__name__": "service_traffic",
"service": "agent::songs",
"scope": "Service",
"layer": "GENERAL"
},
{"__name__": "service_traffic",
"service": "agent::recommendation",
"scope": "Service",
"layer": "GENERAL"
},
{"__name__": "service_traffic",
"service": "agent::app",
"scope": "Service",
"layer": "GENERAL"
},
{"__name__": "service_traffic",
"service": "agent::gateway",
"scope": "Service",
"layer": "GENERAL"
},
{"__name__": "service_traffic",
"service": "agent::frontend",
"scope": "Service",
"layer": "GENERAL"
}
]
}
复制代码
查询服务的特定指标
查询:
http://127.0.0.1:9099/api/v1/query?query=service_cpm {service='agent::songs', layer='GENERAL'}
复制代码
结果:
{
"status": "success",
"data": {
"resultType": "vector",
"result": [
{"metric": {
"__name__": "service_cpm",
"layer": "GENERAL",
"scope": "Service",
"service": "agent::songs"
},"value": [
1679559960,
"6"
]
}
]
}
}
复制代码
关于 range query
和不同的 metrics type for query
可以参考 这里的 文档。
构建 Grafana Dashboard
从上面我们知道了 PromQL 服务的机制和查询方式,现在我们可以为上面的服务示例构建 Grafana Dashboard。注:以下所有配置均基于 Grafana 9.1.0 版本。
SkyWalking Showcase 提供了 General Service
和 Service Mesh
层等 Dashboard 文件,我们可以通过导入 Dashboard JSON 文件快速为层服务创建 Dashboard。
部署 Grafana 应用程序后,请按照以下步骤操作:
配置数据源
首先,我们需要创建一个数据源: 在数据源配置面板中,选择 Prometheus
并设置 URL 为 OAP 服务器地址,默认端口为 9090
。 SkyWalking
如果有多个 Prometheus 数据源,请在此处设置数据源名称。
导入 Dashboard 文件
-
创建一个名为
SkyWalking
的 Dashboard 文件夹。 -
将 Dashboard 文件导入到 Grafana 中,有两种获取文件的方式:
- 来自 SkyWalking Showcase
- 转到 SkyWaking Demo:在 Grafana 上预览指标,并将其从
General Service
Dashboard 导出。
-
完毕!现在我们可以看到 Dashboard 正在运行,服务位于下拉列表中,指标显示在面板上。
这是一种简单的构建方式,但是如果我们想要自定义它,我们需要知道它是如何工作的。
Dashboard 的工作原理
Dashboard 设置
打开 Settings-Variables
我们可以看到如下变量:
让我们看看每个变量的作用:
-
$DS_SkyWalking
这是一个数据源 ty 变量,它指定了之前定义为
SkyWalking
的 Prometheus 数据源。 -
$layer
这是一个常量类型,因为在 ‘General Service’ Dashboard 中,所有服务都属于 ‘GENERAL’ 层,因此可以在每个查询中直接使用它们。注意,当您自定义其他层时,必须在
Layer
上面定义该值。 -
$service
查询类型变量,为下拉列表获取该层下的所有服务名称。
查询表达式:
label_values (service_traffic {layer='$layer'}, service) 复制代码
查询表达式将查询 HTTP API
/api/v1/series
,以获取$layer
中服务元数据,并根据标签(服务)提取服务名称。 -
$service_instance
与
$service
一样,是一个查询变量,用于在下拉列表中选择服务的所有实例。查询表达式:
label_values (instance_traffic {layer='$layer', service='$service'}, service_instance) 复制代码
这里的查询表达式不仅指定了
$layer
还包含$service
变量,用于关联下拉列表的服务。 -
$endpoint
与
$service
一样,是一个查询变量,用于在下拉列表中选择服务的所有端点。查询表达式:
label_values (endpoint_traffic {layer='$layer', service='$service', keyword='$endpoint_keyword', limit='$endpoint_limit'}, endpoint) 复制代码
此处的查询表达式指定
$layer
和$service
用于与下拉列表的服务相关联的。并且还接受$endpoint_keyword
和$endpoint_limit
变量作为过滤条件。 -
$endpoint_keyword
一个文本类型的变量,用户可以输入它来过滤
$endpoint
的返回值。 -
$endpoint_limit
自定义类型,用户可以选择它以限制返回端点的最大数量。
Dashboard 配置
这个 Dashboard 上有几个典型的指标面板,让我们看看它是如何配置的。
普通值指标
选择 Time series chart
面板 Service Apdex
并单击 edit。
-
查询表达式
service_apdex {service='$service', layer='$layer'} / 10000 复制代码
指标范围为
Service
,添加service
和layer
标签用于匹配,label 值使用上面配置的变量。该计算Divided by 10000
用于匹配结果单位。查询文档可以参考 这里。 -
设置
Query options --> Min interval = 1m
,因为 SkyWalking 中的指标最小时间段是 1m。 -
设置
Connect null values --> AlwaysShow points --> Always
,因为当查询间隔大于 1 小时或 1 天时,SkyWalking 返回小时 / 天步长指标值。
标签值指标
选择 Time series chart
面板 Service Response Time Percentile
并单击 edit
。
-
查询表达式
service_percentile {service='$service', layer='$layer', labels='0,1,2,3,4', relabels='P50,P75,P90,P95,P99'} 复制代码
指标范围为
Service
,添加service
和layer
标签用于匹配,label 值使用上面配置的变量。添加labels='0,1,2,3,4'
过滤结果标签,并添加relabels='P50,P75,P90,P95,P99'
重命名结果标签。查询文档可以参考 这里。 -
设置
Query options --> Min interval = 1m
,因为 SkyWalking 中的指标最小时间段是 1m。 -
设置
Connect null values --> AlwaysShow points --> Always
,因为当查询间隔 > 1 小时或 1 天时,SkyWalking 返回小时 / 天步长指标值。 -
设置
Legend
为{{label}}
来展示。
排序指标
选择 Time series chart
面板 Service Response Time Percentile
并单击 edit
。
-
查询表达式
service_instance_cpm {parent_service='$service', layer='$layer', top_n='10', order='DES'} 复制代码
该表达式用于查询服务下的排序指标,因此添加标签
parent_service
和layer
进行匹配。添加top_n='10'
和order='DES'
过滤结果。查询文档可以参考 这里。 -
设置
Query options --> Min interval = 1m
,因为 SkyWalking 中的指标最小时间段是 1m。 -
设置
Calculation --> Latest*
。 -
设置
Legend
为{{service_instance}}
来展示。
结论
在这篇文章中,我们介绍了 SkyWalking 中的 PromQL 服务是什么以及它的背景。详细介绍了 PromQL 服务的使用方法和 SkyWalking 相关的基本概念,展示了如何使用 PromQL 服务为 SkyWalking 构建 Grafana Dashboard。
未来,将会有更多的集成利用这个协议,比如 CI/CD、HPA(缩放)等。