3 작업 -MOOC 연구 노트 : 파이썬 웹 크롤러 및 정보 추출

1. 등록 중문 대학 MOOC

기술 송 일 교사 "파이썬 웹 크롤러 및 정보 추출"MOOC 과정의 베이징 연구소를 선택합니다

3. 사주, 매주의 첫 번째 0주 과정을 완료하는 배우와 작업을 완료

4. 이미지를 제공하거나 웹 사이트는 학습 과정을 증명하기 위해, 학습 진행 상황을 보여줍니다.

연구 노트의 적은 1,000 단어를 쓰기 5. 학습 경험과 이익에 대해 이야기.

  선생님의 "학습 노래 일 파이썬 에서 웹 크롤러 및 정보 추출"물론 0 ~ 4 주 임무는, 나는 혜택. 첫째, 전체 교육 비디오의 관점에서 간단한 섬세한, 그것은 피로와 뇌의 시각의 과도한 사용을 가져올 수 없습니다. 교육 이론과 조합의 예를 전체 모드로 촬영, 그 결과 효과가 우수합니다. 그럼, 내가 분석하고 정리했다 배운 것을 말했다.

  첫 번째웹 크롤러의 주에 전주곡, 송 일 교사는 우리에게 몇 가지 불만을 말했다 파이썬 언어 선택 개발 도구, 나는 선택 파이썬이 함께 제공 IDLE .

  第1周的网络爬虫之规则中,嵩天老师讲诉了Requests库的安装,以及Requests库的两个重要对象ResponseRequest.然后详细讲了Requests库的7个主要方法。然后通过5Requests库网络爬取实战:实例1京东商品页面的爬取、实例2亚马逊商品页面的爬取、实例3百度/360搜索关键字提交、实例4网络图片的爬取和存储、实例5IP地址归属地的自动查询,对Requests库的方法进行了实践。并且还留下了源代码供学生课下进行操作,真的是在十分严谨的教学任务中,透露出一股对学生们的贴心。

  第2周的网络爬虫之提取中,嵩天老师详细给我们介绍了Beautiful Soup库。我在自己电脑的cmd中用pip install beautifulsoup4 命令安装了Beautiful Soup库。通过学习我明白了Beautiful Soup库是解析、遍历、维护“标签树”的功能库,而标签树即HTML。在这个周的视频中嵩天老师给我们讲诉了一个较为复杂的实例-中国大学排名定向爬虫,通过这个实例让我们对Beautiful Soup库有了更加深刻的了解和认识,也从中知道了爬虫也有必须遵守的协议Robots协议。

  第3周的网络爬虫之实战,在这周中嵩天老师详细向我们介绍了正则表达式,正则表达式是用来简洁表达一组字符串的表达式。使用正则表达式的优势就是简洁。可能正是正则表达式的这种化复为简,让我学起来倍感困难,很多时候都搞不清楚这个表达式所表示的意思或者不太正确的认识表达式。总而言之这是个难点,需要我自己付出时间和实践才能掌握的东西,所以需要自己的努力。嵩天老师在这里讲了两个实例--淘宝商品比价定向爬虫和股票数据定向爬虫,来帮助我们了解正则表达式。

  第4周的网络爬虫之框架,在这里老师向我们介绍了和Requests库相对应的Scrapy爬虫框架。Scrapy不是一个函数功能库而是一个爬虫框架,是实现爬虫功能的一个软件结构和功能结构的集合,是一个半成品,能帮助用户实现专业网络爬虫。Requests库是页面级爬虫,Scrapy是网站级爬虫。在这里嵩天老师用实例股票数据scrapy爬虫对Scrapy爬虫框架有了一个详细的介绍,其中同样运用到正则表达式,对数据进行优化,同时也是对上一节的正则表达式进行简单的复习。

  通过这段时间对嵩天老师的《Python网络爬虫与信息提取》课程的学习,让我学到了很多的知识,让我第一次认识到什么是爬虫、怎么爬虫、爬虫有什么好处等等。同时也让我认识到了python这门语言的魅力,可以用它来实现很多东西。同时也让我清楚了自己知识面的单薄,所以接下来的日子,要更加努力学习,丰富我的知识面,提高我的专业能力。

추천

출처www.cnblogs.com/BoYCB/p/11684734.html