寒假日报day04

  今日整理webmagic的知识点。

所有的选择器返回的值都是seclectable的类型的值。

遇到的问题:

1.使用css选择器来找自己想要的东西的时候,要根据属性不同来切换选择器的标识,例如

“.”后面跟的是class,"#"跟的是id

原网页

第一次使用的是“.”

得到的值是null,而下面那个通过xpath选择器的得到了正确的内容。将“.”改为“#”后,得到的如下

 正确的到了我们所需的内容。如果想得到多个我们所需要的东西的话,我们可以使用".all()"这个后缀,效果如下:

 我们可以看到,虽然显示的不多,但是滚动条很长啊,这个暂且这样。

按条件进一步查找我们想要的,比如,带“京东”字的a标签,就该这样啊,“.regex(".*京东.*")”加上这个之后,就可以了。

 得到的结果如下:

 这就是正则表达式的体现形式,

以下是选择器的分类与使用:

 今日成果:

 这些是抓取的数据,虽然没啥用。

猜你喜欢

转载自www.cnblogs.com/msdog/p/12200753.html