本文内容预告
本文将带您深入了解如何使用SPARQL查询语言来检索RDF数据,掌握其基础语法,并通过实例学习如何执行查询。
什么是 SPARQL
SPARQL,即SPARQL Protocol and RDF Query Language,是W3C推荐的RDF数据查询语言。作为语义网技术的核心之一,SPARQL为图数据库提供了强大的查询能力。相比于SQL这种关系型数据库查询语言,SPARQL为我们在图数据库中检索信息提供了全新的途径。
SPARQL 语法组成部分
-
PREFIX
:定义前缀,简化URI的书写,类似于Python中的import
语句。 -
SELECT
:声明所需检索的变量。 -
WHERE
:设定查询条件,WHERE
条件使用的一些保留字的命名空间要在PREFIX
中指定。 -
变量:作为检索结果的列名,如 ?movie
,在SELECT
和WHERE
子句中使用。
写个查询看看漫威系列有哪些电影
打开DBPedia的查询终端https://dbpedia.org/sparql
,尝试以下查询以发现漫威系列电影:
PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX dbr: <http://dbpedia.org/resource/>
SELECT ?movie ?movieName WHERE {
?movie dbp:publisher dbr:Marvel_Comics ;
rdfs:label ?movieName .
?movie dbo:starring ?actor .
FILTER (LANG(?movieName) = ‘en’)
}
查询结果将显示漫威的经典之作,第一个结果就是《美国队长》
基本的符号
-
逗号
,
分号;
还有句号.
的用法跟它们在 RDF 中 Turtle 语法一样。,
用于分格共用同一谓语的多个宾语,;
分格共用同一主语的多个谓语,.
表示逻辑与
。?
用于构造变量名称。比如?var
,?friend_1
等等。 -
#
用于注释,与 Python 中的注释类似。比如# ?movie dbo:starring ?actor .
。 -
<>
用于包围 URI。比如dbr:Marvel_Comics
可以用<http://dbpedia.org/resource/Marvel_Comics>
代替。 -
*
和+
正则匹配 ”零个或多个“ 和 ”一个或多个“ 谓语。比如:假设朋友的朋友也是我的朋友,我想查找所有朋友可以用 `
SELECT * WHERE {
?friend ex:friend+ ex:jason
}
查询的结果会包含ex:jena
, ex:lily
, 和ex:saber_lion
。这里注意SELECT
中的*
跟 SQL 中的用法类似返回所有的变量值。
-
^
用来反向谓语匹配,比如,同样查询我的所有的朋友,可以这样写
SELECT * WHERE {
ex:jason ^ex:friend+ ?friend
}
因为 ex:friend
这个关系里ex:jason
在谓语的位置,如果要把ex:jason
作为主语使用,那意味着要构造一个新的反向谓语 (^ex:friend
) 要以ex:jason
作为主语。
-
|
用来表示谓语 1 或者谓语 2。比如我想查找ex:jason
的最近的朋友或者女朋友,我们可以这样写
SELECT * WHERE {
ex:jason (^ex:friend | ex:girlfriend) ?friend
}
此时结果会返回 ex:saber_lion
和 ex:annie
。
-
/
用来分割多个连续谓语。比如查询所有我的距离为 2 朋友。我们可以这样写
SELECT * WHERE {
?friend ex:friend/ex:friend ex:jason
}
-
>
,<
,>=
,<=
,= 用于数值比较。 比如查询年纪大于 20 的人。
SELECT ?person WHERE {?person ex:age ?age . FILTER(?age > 20)}
-
!
表示布尔否定,&&
表示布尔与,||
表示布尔或。一般在FILTER
子句中使用来构造筛选条件,也可以用在HAVING
子句中。比如查询年纪大于 20 的男性。
SELECT ?person WHERE {
?person ex:age ?age .
?person ex:sex ?sex .
FILTER(?age > 20 && ?sex == "man")
}
查询类型
SELECT
查询是最常用的一种获取数据的查询,跟SQL查询类比。
SELECT [DISTINCT] <VAR> [<VAR> ...]
[FROM ...]
WHERE
{
triple pattern 1.
[triple pattern 2.]
...
[附加条件...]
}
[OFFSET 数字]
[LIMIT 数字]
[ORDER BY | GROUP BY <VAR>]
triple pattern
是一个三元组,它的结构跟 RDF 三元组要求基本相同,唯一不同的就是他的主谓宾可以是变量。比如 ?s ?p ?o
这个会匹配 RDF 图数据中所有的三元组。
DISTINCT
的使用跟它在 SQL 中一样,用于去掉重复数据值。
FROM
用于指定在哪个数据图中检索。因为一个数据终端可以检索多个 RDF 数据图的内容,比如 FROM <http://dbpedia.org>
就是从这个 URI <http://dbpedia.org>
指定的数据图中检索。
OFFSET n
用于指定跳过前 n 个检索结果。
LIMIT m
用于指定返回结果的数量 m。
ORDER BY VAR
根据变量VAR
的值对返回的结果排序。对比 SQL。
GROUP BY VAR
根据变量VAR
的值对返回结果进行分组。对比 SQL。
CONSTRUCT
查询 跟 SELECT
查询同样用于查询数据,但是前者返回的是列表,这个返回的是 RDF 图数据。CONSTRUCT
中的
CONSTRUCT
{
triple pattern .
...
}
WHERE
{
triple pattern .
...
[附加条件...]
}
ASK
查询 用于验证结果真假,判断 RDF 数据中是否包含指定的结果。
ASK
{
triple pattern .
...
[附加条件...]
}
DESCRIBE
查询 用于返回关于某个 URI 或者 变量 的 RDF 数据。
DESCRIBE <VAR>|<URI> [<VAR>|<URI> ...]
WHERE
{
triple pattern .
...
[附加条件...]
}
之前的文章
关注不走丢,欢迎反馈、点赞、加星

参考
-
Scientific Data Management & Knowledge Graph, by Maria-Esther Vidal -
https://docs.data.world/tutorials/sparql/index.html -
https://cosmosning.github.io/2020/07/22/sparql-grammar-tutorial/