마이크로 채널 그룹의 주 : 예비 파이썬 웹 크롤러

1989 년 귀도 반 로섬 (Guido van Rossum) 다니엘 발명에 의한 파이썬 언어, 그것은, 세계에서 가장 인기있는 컴퓨터 프로그래밍 언어 중 하나입니다뿐만 아니라 컴퓨팅 생태계의 언어 "유용한 학습에 시간이 오래 배울 수 배울 수 있습니다."

이를 위해, CSDN 특히 팬의 대부분을 중국 최대 IT 커뮤니티로보다 효율적으로 배울 도로에 도움 사람들 우회에 파이썬 파이썬 클래스를 설정합니다. 여신 축제 어제, 우리는 유명한 전문 양 Xiuzhang 교사 CSDN 블로그, 수업 시간에 회의실 활동 개최 블로그 전문가를 초대하는 것을 계속한다.

양 Xiuzhang : 웹 데이터 마이닝 / 소프트웨어 공학. 대학원 연구 관련 웹 데이터 마이닝과 지식지도, 파이썬 셀레늄 크롤러 및 데이터 마이닝 알고리즘에 쓰여진 숫자와 함께. 2013 몇 가지 기술을 공유하기 위해 한 달에 쓰기 CSDN에서 블로그, 준수 시작부터, 우리는 여덟 열을 완료했습니다. 블로그 주소 : http://blog.csdn.net/Eastmount

여기에 양 주의 파이썬 클래스에 있습니다 :

매우 행복 당신을 알고, 당신은 단순히 파이썬에 관한 몇 가지 기본적인 지식을 교환한다. 그룹과 위대하신 하나님이 많이 있었다, 나는 주로 그들이 한 일에, 일부 파이썬 지식을 설명, 이것은 파이썬 관심을 배우는 학생들을 향상시키기 위해 몇 가지 간단한 실용적인 응용 프로그램을 통해 주요 학습 파이썬 파충류 관련 지식이다.
이 마이크로 채널 강의이기 때문에, ~도 용서해주십시오, 좋은 곳을 말한다

내가 전에 말했듯이 : 파이썬 파이썬을 배울 수있는 가장 중요한 장소 그래서 내용, 관심을 향상시키기 위해, 그들이 좋아하는 몇 가지 일을하는 것입니다, 파이썬, 데이터 분석, 자동화 된 테스트, 웹 사이트, GUI 게임을 포함한 파충류.

웹 크롤러

또한 다음과 특정 규칙 인 웹 거미, 웹 로봇, 월드 와이드 웹 프로그램이나 스크립트에 자동으로 잡아 정보로 알려진 웹 크롤러 (웹 스파이더).

쓰기 사진은 여기에 설명

파이썬 파충류 일반적인 도구는 다음과 같습니다 정규 표현식, XPath는 기술, 셀레늄, BeautifulSoup로, Scrapy 등등을. 이 레슨 강의는 주로 셀레늄 자동 파이썬 크롤링 정보를 설치합니다.

셀렌

셀레늄은 웹 응용 프로그램 테스트를위한 도구입니다. 셀레늄 테스트는 동일한 작업에서 실제 사용자로, 브라우저에서 직접 실행합니다. 일반적으로 우리가 간단한 파충류로 사용되는 자동화 된 테스트에 사용.

1 단계 : 셀레늄 설치
핍 셀레늄 설치 설치 호출, 다음 스크립트 경로로 이동 CD를
참고 : 전화 PIP 또는 타사 라이브러리를 설치 easy_install을 파이썬 설치는 일반적인 사용이다.

쓰기 사진은 여기에 설명

2 단계 : 파이어 폭스 브라우저를 설치

세 번째 단계 : 간단한 액세스 바이 페이지

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print data

쓰기 사진은 여기에 설명

여기서 webdriver.Firefox ()는 파이어 폭스 브라우저를 호출하는 것입니다,이 문장은 자동으로 파이어 폭스 브라우저 나타납니다
액세스 페이지 URL을 브라우저를 호출 한 후 driver.get (URL)를
드라이버에 포함 된 속성과 메서드를, 여기에 출력 제목입니다 "바이두, 당신은 알고있다."

참고 : 파이썬 수입 구문은 XXXX 수입 XXXX의에서 일반적인 패키지
예 : sklearn.cluster 가져 오기 Kmeans에서
컴퓨터에서 sklearn 패키지 가져 오기 Kmeans 클러스터 클러스터 클러스터링 방법을 학습
Kmeans 클러스터에, 물론 다른 클러스터가 방법

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print data
driver.save_screenshot('baidu.png')  

쓰기 사진은 여기에 설명

코드를 추가, 로컬로 다운로드 할 수있는 전체 페이지를 복사합니다.

쓰기 사진은 여기에 설명

셀레늄 공통 요소 위치 및 동작 방법

참고이 드라이버는 일반적인 포함 메서드와 속성의 수를 포함 아래 :
(요소를 찾을 수), 당신은 셀레늄이 페이지의 요소를 정의하기 위해 다음과 같은 방법을 제공하고, 가장 적합한 솔루션을 선택할 수있는 웹 페이지 요소를 찾기위한 다양한 전략이있다 :

•find_element_by_id
•find_element_by_name
•find_element_by_xpath
•find_element_by_link_text
•find_element_by_partial_link_text
•find_element_by_tag_name
•find_element_by_class_name
•find_element_by_css_selector

여기가 (이 방법은 목록을 반환합니다) 여러 요소를 찾을 수 있습니다 :

•find_elements_by_name
•find_elements_by_xpath
•find_elements_by_link_text 
•find_elements_by_partial_link_text
•find_elements_by_tag_name
•find_elements_by_class_name
•find_elements_by_css_selector

위의 지정된 공개 방법뿐만 아니라,이 유용한 페이지 오브젝트 로케이터 개인 방법도 있습니다. 이 두 가지 방법은 개인 및 find_elements find_element된다.

예를 들면 :

쓰기 사진은 여기에 설명

쓰기 사진은 여기에 설명

텍스트 대응 :

쓰기 사진은 여기에 설명

쓰기 사진은 여기에 설명

from selenium import webdriver
driver = webdriver.Firefox()
driver.get("http://www.baidu.com")
data = driver.title
print data
driver.save_screenshot('baidu.png')  

포지셔닝 부재 ID별로

word = driver.find_element_by_id('u1')
print word.text

초점은 사이트 DOM 트리 구조를 분석하는 것입니다 :

페이지는 일반적으로 같은 나무의 형태로 저장되어 있음을 주목해야한다 :

우리는 분석을 해당 인터페이스의 검토 요소를 잘 배울 필요가있다 :

쓰기 사진은 여기에 설명

쓰기 사진은 여기에 설명

우주에서 모두를위한 지식의 비교의 기초

주제 :

  1. 핍은 다양한 라이브러리 함수, 아나콘다 전화 핍 작업을 설치하는 방법에 대해서도 알아 봅니다.
  2. 셀레늄 바이두 홈 페이지를 크롤링 파이썬 통화를 배울 간단하다.
  3. 셀레늄 호출 요소는 파충류의 페이지를 작성하려고 할 위치 파이썬을 배울 수 있습니다.
  4. 셀레늄은 파이썬은 자동으로 작업을 로그 호출을 배웁니다.
  5. , IP 주소 변환, 시뮬레이션 착륙 및 기타 작업을 실현하는 경우 (하드) 403 금지 오류 방지.

동시에, 의견 강의의 존재도, 나에게 피드백을 제공 서로 배우고 서로를 개선하기 위해 환영합니다.

당신의 도움이 과정의 희망, 나는 느낌이 매우 좋지 않은 말을 주셔서 감사합니다, 저와 통신하기 위해 많은 지식을주고 싶다 -
이 플랫폼 CSDN 감사합니다.

파이썬 파충류

    • URLLIB 다른 간단한 다운로드 데이터 패킷
    • 셀레늄 파충류 = "자동화 도구
    • BeautifulSoup로 파충류
    • 돔 트리 분석
    • 분산 파충류, 스레드

파이썬 데이터 분석

  1. 일반적인 파이썬 데이터 분석 패키지
  2. Sklearn, NumPy와, scipy,하기 matplotlib
  3. 데이터 마이닝 기본

기본 흐름

  • 파이썬 웹 디자인
  • Odoo ERP 프레임 워크

클래스 하이라이트

쓰기 사진은 여기에 설명

파이썬 언어를 배우고 싶은에, 교환 기술의 학생들이 우리의 CSDN 파이썬 클래스에 가입 사랑에 오신 것을 환영합니다. 이차원 코드 아래 그룹으로 그룹을 청소하십시오.

현재 그룹이 가득, 다음과 같은 보조 계정을 스캔 그룹에 입학 신청을하시기 바랍니다

쓰기 사진은 여기에 설명

게시 된 155 개 원래 기사 · 원 찬양 964 ·은 80000 +를 볼

추천

출처blog.csdn.net/mengyidan/article/details/80128511