SPARQL查询：如何高效检索Web数据 (5)

本文内容预告

本文将带您深入了解如何使用SPARQL查询语言来检索RDF数据，掌握其基础语法，并通过实例学习如何执行查询。

什么是 SPARQL

SPARQL，即SPARQL Protocol and RDF Query Language，是W3C推荐的RDF数据查询语言。作为语义网技术的核心之一，SPARQL为图数据库提供了强大的查询能力。相比于SQL这种关系型数据库查询语言，SPARQL为我们在图数据库中检索信息提供了全新的途径。

SPARQL 语法组成部分

PREFIX：定义前缀，简化URI的书写，类似于Python中的 import语句。
SELECT：声明所需检索的变量。
WHERE：设定查询条件， WHERE 条件使用的一些保留字的命名空间要在 PREFIX 中指定。
变量：作为检索结果的列名，如 ?movie，在 SELECT和 WHERE子句中使用。

写个查询看看漫威系列有哪些电影

打开DBPedia的查询终端https://dbpedia.org/sparql，尝试以下查询以发现漫威系列电影：

PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX dbr: <http://dbpedia.org/resource/>

SELECT ?movie ?movieName WHERE {
?movie dbp:publisher dbr:Marvel_Comics ;
rdfs:label ?movieName .

?movie dbo:starring ?actor .

FILTER (LANG(?movieName) = ‘en’)
}

查询结果将显示漫威的经典之作，第一个结果就是《美国队长》

基本的符号

逗号 , 分号 ; 还有句号 . 的用法跟它们在 RDF 中 Turtle 语法一样。,用于分格共用同一谓语的多个宾语，;分格共用同一主语的多个谓语，.表示逻辑 与 。 ?用于构造变量名称。比如 ?var, ?friend_1 等等。
# 用于注释，与 Python 中的注释类似。比如# ?movie dbo:starring ?actor .。
<> 用于包围 URI。比如 dbr:Marvel_Comics 可以用 <http://dbpedia.org/resource/Marvel_Comics> 代替。
* 和 + 正则匹配 ”零个或多个“ 和 ”一个或多个“ 谓语。比如：假设朋友的朋友也是我的朋友，我想查找所有朋友可以用 `

SELECT * WHERE {
	?friend ex:friend+ ex:jason
}

查询的结果会包含ex:jena, ex:lily, 和ex:saber_lion。这里注意SELECT中的*跟 SQL 中的用法类似返回所有的变量值。

^ 用来反向谓语匹配，比如，同样查询我的所有的朋友，可以这样写

SELECT * WHERE {
	ex:jason ^ex:friend+ ?friend
}

因为 ex:friend 这个关系里ex:jason在谓语的位置，如果要把ex:jason作为主语使用，那意味着要构造一个新的反向谓语 (^ex:friend) 要以ex:jason作为主语。

| 用来表示谓语 1 或者谓语 2。比如我想查找 ex:jason的最近的朋友或者女朋友，我们可以这样写

SELECT * WHERE {
	ex:jason (^ex:friend | ex:girlfriend) ?friend
}

此时结果会返回 ex:saber_lion 和 ex:annie。

/ 用来分割多个连续谓语。比如查询所有我的距离为 2 朋友。我们可以这样写

SELECT * WHERE {
	?friend ex:friend/ex:friend ex:jason
}

>， <， >=， <=，= 用于数值比较。比如查询年纪大于 20 的人。

SELECT ?person WHERE {?person ex:age ?age . FILTER(?age > 20)}

! 表示布尔否定， && 表示布尔与， || 表示布尔或。一般在 FILTER 子句中使用来构造筛选条件，也可以用在 HAVING子句中。比如查询年纪大于 20 的男性。

SELECT ?person WHERE {
	?person ex:age ?age . 
	?person ex:sex ?sex . 
	FILTER(?age > 20 && ?sex == "man")
}

查询类型

SELECT 查询是最常用的一种获取数据的查询，跟SQL查询类比。

SELECT [DISTINCT] <VAR> [<VAR> ...]
[FROM ...]
WHERE
{
    triple pattern 1.
    [triple pattern 2.]
    ...
    [附加条件...]
}
[OFFSET 数字]
[LIMIT 数字]
[ORDER BY | GROUP BY <VAR>]

triple pattern 是一个三元组，它的结构跟 RDF 三元组要求基本相同，唯一不同的就是他的主谓宾可以是变量。比如 ?s ?p ?o 这个会匹配 RDF 图数据中所有的三元组。

DISTINCT 的使用跟它在 SQL 中一样，用于去掉重复数据值。

FROM 用于指定在哪个数据图中检索。因为一个数据终端可以检索多个 RDF 数据图的内容，比如 FROM <http://dbpedia.org> 就是从这个 URI <http://dbpedia.org> 指定的数据图中检索。

OFFSET n 用于指定跳过前 n 个检索结果。

LIMIT m 用于指定返回结果的数量 m。

ORDER BY VAR 根据变量VAR的值对返回的结果排序。对比 SQL。

GROUP BY VAR 根据变量VAR的值对返回结果进行分组。对比 SQL。

CONSTRUCT 查询 跟 SELECT 查询同样用于查询数据，但是前者返回的是列表，这个返回的是 RDF 图数据。CONSTRUCT 中的

CONSTRUCT 
{ 
    triple pattern .
    ...
} 
WHERE 
{ 
    triple pattern . 
    ...
    [附加条件...]
}

ASK 查询 用于验证结果真假，判断 RDF 数据中是否包含指定的结果。

ASK    
{   
    triple pattern . 
    ...
    [附加条件...] 
}

DESCRIBE 查询 用于返回关于某个 URI 或者变量的 RDF 数据。

DESCRIBE <VAR>|<URI> [<VAR>|<URI> ...]  
WHERE   
{  
    triple pattern .  
    ...
    [附加条件...]
}

之前的文章

关注不走丢，欢迎反馈、点赞、加星

参考

Scientific Data Management & Knowledge Graph, by Maria-Esther Vidal
https://docs.data.world/tutorials/sparql/index.html
https://cosmosning.github.io/2020/07/22/sparql-grammar-tutorial/