# coding:utf-8 import requests import json import simplejson import time if __name__=="__main__": headers={ 'Connection':'keep-alive', 'User-Agent':'Mozilla/5.0 (Windows NT 6.1;Win64;x64;rv:58.0) Gecko/20100101 Firefox/58.0' } #在base_url后面添加¤tPage=1就可以访问不同页码的评论 base_url='https://rate.tmall.com/list_detail_rate.htm?itemId=38975978198&spuId=279689783&sellerId=92889104&order=3' for i in range(2,4,1): url=base_url+'¤tPage=%s' % str(i) #响应内容的文本取出 tb_req=requests.get(base_url,headers=headers).text[15:] #将str格式的文本格式化为字典 tb_dict=simplejson.loads(tb_req) #编码:将字典内容转化为json格式对象 tb_json=json.dumps(tb_dict,indent=2)#indent参数为缩进,这样打印出来的是树形json结构,方便直观 #解码:将json格式字符串转化为python对象 review_j=json.loads(tb_json) # print(review_j) #这里的0是当前页的第一个评论,每个页面其实是有20个评论 for i in range(1,20,1): f=open('comment.txt','a') f.writelines(str(i)+':'+review_j["rateList"][i]['rateContent']) f.writelines('\n') #print(review_j["rateList"][i]['rateContent']) time.sleep(1)
天猫爬虫第一例
猜你喜欢
转载自blog.csdn.net/eason_oracle/article/details/79929705
今日推荐
周排行