python爬虫入门(三)

抓取豆瓣首页菜单

地址:https://www.douban.com/

一、分析

打开豆瓣首页:https://www.douban.com/

 通过前端位置定位,找到上图中的HTML代码

这里要找的代码就是

<div class="anony-nav-links">
......
</div>

二、代码实现

 1 import requests
 2 from lxml import etree
 3 
 4 def getPage(url):
 5     try:
 6         page = requests.get(url)
 7         return page
 8     except Exception as e:
 9         print(str(e))
10 
11 def get_data() :
12     url = 'http://www.douban.com/'
13     data = getPage(url)
14     data.encoding = 'utf-8'
15     selector = etree.HTML(data.text)
16     informations = selector.xpath('//div[@class="anony-nav-links"]/ul/li')
17     for inf in informations:
18         print(inf.xpath('./a/text()')[0])
19 
20 def main() :
21     data = get_data()
22 
23 if __name__ == '__main__':
24     main()

注意:XPath 可用来在 XML 文档中对元素和属性进行遍历,这里通过xpath解析元素和属性

运行结果:

豆瓣读书
豆瓣电影
豆瓣音乐
豆瓣小组
豆瓣同城
豆瓣FM
豆瓣时间
豆瓣豆品

成功抓取想要的信息。

猜你喜欢

转载自www.cnblogs.com/UniqueColor/p/10881718.html