파이썬 - 파충류 소개

파충류는 무엇입니까?
  1. 웹 서버에 요청을 보내는 브라우저 시뮬레이션
  2. 서버에서 반환한 응답 데이터를 구문 분석하고 데이터를 저장합니다.
크롤러는 어떤 데이터를 얻을 수 있습니까?
  1. 원칙적으로 브라우저를 통해 얻을 수 있는 모든 데이터는 크롤링 가능
  2. 크롤러는 크롤링 브라우저가 일반적으로 얻을 수 있는 데이터만 얻을 수 있습니다.
크롤러의 애플리케이션 시나리오?
  1. 데이터 분석(영화 흥행, 주가정보, 상품판매 등)
  2. 여론 모니터링(웨이보, 포럼 등)
  3. 검색엔진 브라우징 재생량 등 (각종 셀프미디어 계정 등)
  4. 티켓 수령 및 투표(티켓 구매 및 투표 인터페이스에 요청 보내기)
  5. 네트워크 보안(SMS 폭격 - 여러 웹사이트에서 인증 코드 전송)
왜 반발이 있습니까?
  1. 중요한 데이터가 악의적으로 취득되지 않도록 방지
  2. 정크 트래픽 차단, 서버 부담 및 운영 비용 절감
파충류와 크롤러의 대결?
  1. 일부 데이터는 로그인이 필요합니다.
  2. 인증 코드를 통해 실제 사람과 파충류 식별
  3. 동일한 IP 주소에 대한 단위 시간당 요청량 모니터링
  4. 요청은 특정 데이터를 전달해야 합니다.
  5. 응답 데이터는 암호화되며 암호를 해독하려면 특정 알고리즘이 필요합니다.
학습 콘텐츠
  • 웹 페이지 데이터를 크롤링하는 방법은 무엇입니까? (소스 파일을 얻기 위해 서버에 요청을 보내는 방법)
    • 요청 모듈(서버에 요청 보내기, 데이터 가져오기)
    • 실제 브라우저 상태 시뮬레이션
    • 프록시 프록시 IP 설정(서버에서 크롤러로 간주되는 단일 IP를 너무 빨리 보내는 것을 방지하기 위해)
  • 핵심 데이터를 추출하는 방법은 무엇입니까? (소스 파일에서 유용한 데이터를 얻는 방법)
    • 정규 표현식
    • XPath 표현식
  • 추출된 데이터는 어떻게 저장하나요?
    • 몽고DB 데이터베이스
  • Scrapy 프레임워크는 방대한 데이터를 크롤링합니다.
    • 전송 요청, 데이터 구문 분석 및 데이터 저장 통합
    • Scrapy는 MongoDB를 결합하여 데이터를 저장합니다.
  • Scrapy-Redis 분산 크롤러(여러 컴퓨터가 작업을 함께 크롤링)
    • 레디스 데이터베이스
    • Scrapy-Redis 프레임워크
  • 시뮬레이션 로그인
    • 로그인 원칙: 쿠키 및 세션
    • Selenium 브라우저 자동화
    • 얻기 위해 로그인이 필요한 크롤링 데이터
  • 식별 코드
    • OpenCV 컴퓨터 비전
    • OCR 텍스트 인식 엔진
    • EasyDL 머신러닝 클라우드 서비스
  • 등반 방지 및 등반 방지
    • 크랙 텍스트 암호화 및 등반 방지
    • 다양한 암호화 알고리즘: MD5, SHA256, AES, RSAc
    • JS 역분석: 웹사이트의 암호화 프로세스 복원
  • 콘텐츠 펼치기
    • 데이터 분석: Pandas 모듈
    • 자주 묻는 인터뷰 질문
파충류는 합법적입니까?
  • 기술 자체는 법으로 금지되어 있지 않기 때문에
  • 크롤러가 얻을 수 있는 데이터는 일반적으로 브라우저를 통해 얻을 수 있는 공개 데이터입니다.
  • 크롤러는 많은 데이터를 더 빠르게 가져옵니다.

법적 위험 상황? 

  • 크롤러를 결합하여 웹사이트 서버 해킹
  • 획득한 데이터로 인한 금전적 이득
  • 크롤러를 통한 부적절한 상업적 경쟁
  • 크롤링된 데이터가 상대방의 저작권 또는 개인 정보를 침해합니다.

법적 위험을 피하는 방법은 무엇입니까?

  • 웹 서버를 대량으로 요청하지 마십시오.
  • 크롤링된 데이터를 공개적으로 유포하거나 판매하지 마십시오.
  • 지적 재산권 및 사용자 개인 정보와 관련된 데이터를 크롤링하지 마십시오.

추천

출처blog.csdn.net/violetta521/article/details/132199039