开始入门爬虫(1)

import requests
from bs4 import BeautifulSoup
import bs4
url="http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html"
data=requests.get(url)
ulist=[]
data.encoding=data.apparent_encoding
soup=BeautifulSoup(data.text,"html.parser")
for ff in soup.find('tbody').children:
    if isinstance(ff,bs4.element.Tag): #这个判断条件必不可少,少了会编译出现错误
       tds=ff('td')#这里是将ff标签下所有的td标签找到
       
       
    ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string,tds[4].string,tds[5].string])
for u in range(100):
    print(ulist[u])#直接打印出来

 参照mooc上面北京理工大学的教程,爬去中国大学排名,我就直接写了,不写函数了。这个很简单,主要就是按照html文本的标签树一直找下来就可以了。

猜你喜欢

转载自www.cnblogs.com/illfuckingkyzb/p/10453810.html