HTML 콘텐츠 BS4 라이브러리를 기반으로 조직과 정보 추출 방법 (3) 방법을 찾기 - 파이썬 파충류 노트 (오) 추출 웹 크롤러

HTML 콘텐츠 BS4 라이브러리를 기반으로하는 방법을 찾기 1

1.1 <>. Find_all () 재 (정규식 라이브러리)

 

(1) 하나의 매개 변수 문자열

 

(2) 파라미터리스트

 

(3) 매개 변수는 모든 라벨의 내용을 반환 True 인

 

에 나타내는 (4)  (B)  등의 (B), 바디로서 시작 태그. (재사용 : 정규 표현식 라이브러리)

수입 요청
 에서 BS4의 수입 BeautifulSoup로의
 수입 을 다시 

R = requests.get ( " http://python123.io/ws/demo.html " ) 

데모 = r.text 

수프 = BeautifulSoup로 (데모, " html.parser " )
 에 대한 태그  soup.find_all (re.compile ( ' ' )) :
     인쇄 (tag.name)

(5)find_all中的 attrs:返回带有 attr属性值的 name标签

 

추천

출처www.cnblogs.com/douzujun/p/12241185.html