3 작업 -MOOC 연구 노트 : 파이썬 웹 크롤러 및 정보 추출 1. 등록 중문 대학 MOOC

 

1. 등록 중문 대학 MOOC

기술 송 일 교사 "파이썬 웹 크롤러 및 정보 추출"MOOC 과정의 베이징 연구소를 선택합니다 

 

 

주 4 코스 내용 0 번째 주에 완료 알아합니다

4. 이미지를 제공하거나 웹 사이트는 학습 과정을 증명하기 위해, 학습 진행 상황을 보여줍니다.

연구 노트의 적은 1,000 단어를 쓰기 5. 학습 경험과 이익에 대해 이야기.

 

        소개 교사에서, 중국 뮤 클래스 내 첫 접촉. 이 과정의 주위에, 나는 "파이썬 웹 크롤러 및 정보 추출"수확을 많이 가지고함으로써 노래 스승의 날, 나는 많은 것을 배웠습니다. 처음부터 교사는 파이썬, 파충류,하지만 너무 많이하지 이해하기 위해, 이전의 연구에서, 그것은 단지 이해의 표면에 말한다. 널리 사용되는 아마존, 구글, 페이팔의 내용에 대해 요청-BS4 - 재 및 Scrapy,이 과정은 웹 크롤러 기술이 개 중요한 경로를 구축 할 특정 기능을 가르치는 기술을 크롤링하고 분석하는 최고의 네트워크 데이터의 파이썬 컴퓨팅 생태계를 소개합니다 , 트위터 및 기타 잘 알려진 국제 기업. 물론 컨텐츠가 입력되는 대량의 데이터 처리 , 데이터 마이닝 , 데이터 중심의 인공 지능 중요한 실용적인 기초 분야한다. 일반 웹 크롤러 파충류는 전체 네트워크에 크롤링 대상 자원 웹 크롤러입니다 전체 네트워크를했다. 같은 파충류가 엄청 크롤링 및 범위가 큰 데이터의 매우 전형적인 엄청난 양이기 때문에 크롤링의 성능 요구 사항이 매우 높은 주로 대규모 검색 엔진에 사용되는 기어 등 대상 데이터 한다. 초점 웹 크롤러 : 크롤러, 또한 테마로 알려진, 주제는에 따른다 미리 정의 된 선택 우리가 일반적으로 크롤러를 사용하는 것입니다 웹 크롤링 파충류의 한 종류, 파충류을 실시하고 있습니다. 증분 파충류 :이 파충류 기어는 업데이트되지 않습니다 장소를 변경하지 않고, 장소 페이지 업데이트를 취할. 그래서 시간 새 페이지 깊은 웹 크롤러의 대부분은 : 크롤러는이 깊은 페이지를 크롤링. 상대적으로 깊은 일입니다.

        코스의 첫 주에, 나는 일곱 주요 접근 방법을 배웠습니다, 타사 라이브러리를 요청 라이브러리를 도입

request.request()构造一个请求,支撑以下各方法的基础

request.get() 获取HTML网页的主要方法,对应于HTTP的GET

request.head()获取HTML网页头信息的方法,对应于HTTP的HEAD

request.post()向HTML网页提交POST请求的方法,对应于HTTP的POST

request.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT

request.patch()向HTML网页提交局部修改请求的方法,对应于HTTP的PATCH

request.delete()向HTML网页提交删除请求的方法,对应于HTTP的DELETE

通过学习让我知道了request库是同步请求,也就是从发出请求到收到响应,这样可以节省我们大量的工作时间,完全的满足HTTP的测试需求。

       在第二周的课程中,学习了Beautiful Soup库。学习了它的基本元素如:Tag,Name,Attributes,NavigableString,Comment。通过学习了解到HTML的基本格式是树形结构。之后我还了解到了scrapy框架,它是一个快速功能强大的网络爬虫框架。常用的命令有:startproject创建一个新工程;genspider创建一个爬虫;settings获得爬虫配置信息;crawl运行一个爬虫;list列出工程中的所有爬虫;shell启动URL调试命令行;scrapy是一种具有持续爬取,商业服务,高可靠性的功能和特点,而且是Python语言里最好的爬虫框架,可具备千万级URL爬取管理与部署,是一种爬虫能力很强的框架,具备企业级专业爬虫的扩展性,可以很好的在企业中进行使用。

       在这几周的课程学习中,让我对网络数据爬取和网页解析的基本能力有了一个详细的梳理,从Requests自动爬取HTML页面自动网络请求提交——Robots.txt网络爬虫排除标准——Beautiful Soup解析HTML页面→Re正则表达式详解提取页面关键信息→scrapy框架。从requests库到scrapy框架的学习,让我意识到了Python的学习是一个漫长的过程,包含了许许多多的知识点,需要掌握的东西也很多,也让我感受到了爬虫在我们的日常生活中的重要性,现如今是互联网的时代,而网络爬虫已经成为自动获取互联网数据的一种主要方式,Python对于我们学习和工作都起到了很重要的作用,大大的降低了我们的时间,更快更好的对信息进行提取。通过这次课程的学习,使我受益匪浅。接下来我会继续对Python网络爬虫与信息提取这门课程的学习,在未来有更好的发展。

추천

출처www.cnblogs.com/Chenjim/p/11756353.html