파이썬 - 파충류 소개
프로그래밍 언어
2023-08-11 17:20:52
독서 시간: null
파충류는 무엇입니까?
- 웹 서버에 요청을 보내는 브라우저 시뮬레이션
- 서버에서 반환한 응답 데이터를 구문 분석하고 데이터를 저장합니다.
크롤러는 어떤 데이터를 얻을 수 있습니까?
- 원칙적으로 브라우저를 통해 얻을 수 있는 모든 데이터는 크롤링 가능
- 크롤러는 크롤링 브라우저가 일반적으로 얻을 수 있는 데이터만 얻을 수 있습니다.
크롤러의 애플리케이션 시나리오?
- 데이터 분석(영화 흥행, 주가정보, 상품판매 등)
- 여론 모니터링(웨이보, 포럼 등)
- 검색엔진 브라우징 재생량 등 (각종 셀프미디어 계정 등)
- 티켓 수령 및 투표(티켓 구매 및 투표 인터페이스에 요청 보내기)
- 네트워크 보안(SMS 폭격 - 여러 웹사이트에서 인증 코드 전송)
왜 반발이 있습니까?
- 중요한 데이터가 악의적으로 취득되지 않도록 방지
- 정크 트래픽 차단, 서버 부담 및 운영 비용 절감
파충류와 크롤러의 대결?
- 일부 데이터는 로그인이 필요합니다.
- 인증 코드를 통해 실제 사람과 파충류 식별
- 동일한 IP 주소에 대한 단위 시간당 요청량 모니터링
- 요청은 특정 데이터를 전달해야 합니다.
- 응답 데이터는 암호화되며 암호를 해독하려면 특정 알고리즘이 필요합니다.
학습 콘텐츠
- 웹 페이지 데이터를 크롤링하는 방법은 무엇입니까? (소스 파일을 얻기 위해 서버에 요청을 보내는 방법)
- 요청 모듈(서버에 요청 보내기, 데이터 가져오기)
- 실제 브라우저 상태 시뮬레이션
- 프록시 프록시 IP 설정(서버에서 크롤러로 간주되는 단일 IP를 너무 빨리 보내는 것을 방지하기 위해)
- 핵심 데이터를 추출하는 방법은 무엇입니까? (소스 파일에서 유용한 데이터를 얻는 방법)
- 추출된 데이터는 어떻게 저장하나요?
- Scrapy 프레임워크는 방대한 데이터를 크롤링합니다.
- 전송 요청, 데이터 구문 분석 및 데이터 저장 통합
- Scrapy는 MongoDB를 결합하여 데이터를 저장합니다.
- Scrapy-Redis 분산 크롤러(여러 컴퓨터가 작업을 함께 크롤링)
- 레디스 데이터베이스
- Scrapy-Redis 프레임워크
- 시뮬레이션 로그인
- 로그인 원칙: 쿠키 및 세션
- Selenium 브라우저 자동화
- 얻기 위해 로그인이 필요한 크롤링 데이터
- 식별 코드
- OpenCV 컴퓨터 비전
- OCR 텍스트 인식 엔진
- EasyDL 머신러닝 클라우드 서비스
- 등반 방지 및 등반 방지
- 크랙 텍스트 암호화 및 등반 방지
- 다양한 암호화 알고리즘: MD5, SHA256, AES, RSAc
- JS 역분석: 웹사이트의 암호화 프로세스 복원
- 콘텐츠 펼치기
- 데이터 분석: Pandas 모듈
- 자주 묻는 인터뷰 질문
파충류는 합법적입니까?
- 기술 자체는 법으로 금지되어 있지 않기 때문에
- 크롤러가 얻을 수 있는 데이터는 일반적으로 브라우저를 통해 얻을 수 있는 공개 데이터입니다.
- 크롤러는 많은 데이터를 더 빠르게 가져옵니다.
법적 위험 상황?
- 크롤러를 결합하여 웹사이트 서버 해킹
- 획득한 데이터로 인한 금전적 이득
- 크롤러를 통한 부적절한 상업적 경쟁
- 크롤링된 데이터가 상대방의 저작권 또는 개인 정보를 침해합니다.
법적 위험을 피하는 방법은 무엇입니까?
- 웹 서버를 대량으로 요청하지 마십시오.
- 크롤링된 데이터를 공개적으로 유포하거나 판매하지 마십시오.
- 지적 재산권 및 사용자 개인 정보와 관련된 데이터를 크롤링하지 마십시오.
출처blog.csdn.net/violetta521/article/details/132199039