爬取豆瓣top250音乐时长出版商存入Mongo数据库 - 代码天地

爬取豆瓣top250音乐时长出版商存入Mongo数据库

其他 2018-07-12 09:44:58 阅读次数: 0

import requests
from lxml import etree
import re
import pymongo
import time

client = pymongo.MongoClient('localhost',27017)
mydb = client['mydb']
musictop = mydb['musictop']

headers ={'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)'}

def get_url_music(url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
music_hrefs = selector.xpath('//a[@class="nbg"]/@href')
for music_href in music_hrefs:
get_music_info(music_href)

def get_music_info(url):
html = requests.get(url,headers=headers)
selector = etree.HTML(html.text)
name = selector.xpath('//*[@id="wrapper"]/h1/span/text()')[0]
# author = selector.xpath('//*[@id="info"]/span[1]/span/a/text()')
author = re.findall('表演者:.*?>(.*?)</a>',html.text,re.S)
styles = re.findall('<span class="pl">流派:</span> (.*?)<br/>',html.text,re.S)
if len(styles) == 0:
style = '未知'
else:
style = styles[0].strip()
time = re.findall('发行时间:</span> (.*?)<br />',html.text,re.S)[0].strip()
publishers = re.findall('出版者:.*?>(.*?)</a>'.html.text,re.S)
if len(publishers) == 0:
publisher = '未知'
else:
publisher = publishers[0].strip()
score = selector.xpath('//[@id="interest_sectl"]/div/div[2]/strong/text()')[0]
print(name,author,style,time,publisher,score)
info = {
'name':name,
'author':author,
'style':style,
'time':time,
'publisher':publisher,
'score':score
}
musictop.insert_one(info)

if __name__ == '__main__':
urls = ['https://music.douban.com/top250?start={}',format(str(i)) for i in range(0,250,25)]
for url in urls:
get_url_music(url)
time.sleep(2)
问题：各种数据库安装失败无法debug各种代码

猜你喜欢

转载自www.cnblogs.com/zhentaoFrezt/p/9297854.html

爬取豆瓣top250音乐时长出版商存入Mongo数据库

爬取豆瓣音乐Top250并存入xls

爬取豆瓣音乐TOP250的数据

爬虫练习-爬取豆瓣音乐TOP250的数据

Python爬虫学习-豆瓣电影TOP250数据爬取（存入mongo数据库中）

实例学习——爬取豆瓣音乐TOP250数据（数据库存储）

爬取电影top250 电影名导演演员风格国家时长评分录入mySQL数据库

Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细)

python爬取豆瓣电影top250数据存入数据库

爬虫学习之11：爬取豆瓣电影TOP250并存入数据库

爬取豆瓣图书Top250并存入xls

实例学习——爬取豆瓣网TOP250数据

爬虫练习-爬取豆瓣电影TOP250的数据

豆瓣Top250电影数据爬取学习

豆瓣Top250数据爬取小项目

python爬取豆瓣电影top250数据存入excel

python爬虫(九、爬取豆瓣top250电影信息并插入数据库sqlite)

scrapy爬取豆瓣top250并插入到MySQL数据库（入门级）

爬取豆瓣读书Top250，导入sqlist数据库（或excel表格）中

爬虫项目：requests爬取豆瓣电影TOP250存入excel中

Python3 爬取豆瓣图书Top250并存入Excel中

爬取豆瓣电影排名前250部电影并且存入Mongo数据库

利用Requests库和正则表达式爬取豆瓣影评Top250

【数据分析】豆瓣电影Top250爬取的数据的可视化分析

Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析

数据-爬虫-上手项目1-爬取豆瓣电影TOP250

豆瓣电影top250信息爬取与数据分析

爬虫练习-爬取豆瓣网图书TOP250的数据

浅层阐述如何爬取豆瓣电影top250以及可视化数据

Python网络爬虫数据采集实战：豆瓣电影top250爬取

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)