python_爬虫_学习

爬取京东商品信息

代码:

import requests
# url = "https://item.jd.com/2967929.html"
url = "https://item.jd.com/100011585270.html"
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

运行结果1:

<script>window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http%3A%2F%2Fitem.jd.com%2F100011585270.html'</script>

运行结果2:

能爬取到信息,但是信息不够全面。结果2只出现过一次,没有及时保存。

曾经怀疑结果1的出现是因为没有登陆,可是登陆后仍然会出现结果1。故排除该可能。

由于偶然出现结果2,所以怀疑可能是网络原因,或者爬虫被禁止。

想尝试更改header,模拟浏览器进行访问,但是由于现在要做scratch的分型雪花,所以暂时搁置。

以上止步于python网络爬虫与信息获取(嵩天老师_MOOC)第一周第三单元第一个视频

猜你喜欢

转载自www.cnblogs.com/Jane-share/p/13203817.html