本次需要爬取的内容如图(图为一部分)
首先需要获取网页的xpath
在网页中右键,点击检查
当我们鼠标在< table class=“table”>处时,整个表格被覆盖,如图
在< table class=“table”>处右键,找到复制,复制xpath就行了
from selenium import webdriver
from bs4 import BeautifulSoup
driver=webdriver.Chrome()
url="https://www.kylc.com/stats/global/yearly/g_gdp/1960.html"
xpath="/html/body/div[2]/div[1]/div[5]/div[1]/div/div/div/table"
driver.get(url)
tablel=driver.find_element_by_xpath(xpath).get_attribute('innerHTML')
soup=BeautifulSoup(tablel,"html.parser")
table=soup.find_all('tr')
for row in table:
cols=[col.text for col in row.find_all('td')]
print(cols)
代码看不懂没关系,要用的时候直接拿过来套公式改一些参数就行
运行结果如图