DAY03 : LXML

html_doc = "" " 
<HTML> <HEAD> <TITLE>는 겨울잠 쥐의 이야기 </ 제목> </ head>
<body> <P 클래스 ="자매 "> <B> $ (37) </ B> </ P>
<P 클래스 = "이야기"ID = "P"> 일단 세 자매가 있었다 옛적에,
그들의 이름이 있었다 <a href="http://example.com/elsie" class="sister"> 엘지 </ A >
<a href="http://example.com/lacie" class="sister" id="link2"> 라씨 </a>을
하고 <A HREF = "http://example.com/tillie"클래스 = "자매"ID = "LINK3는"> Tillie </a>을
그들은 잘 하단에 살고 있습니다. </ p> <p 클래스 = "이야기"> ... </ P>
"" "

발 BeautifulSoup로 BS4 오기
스프가 BeautifulSoup로 (html_doc 'LXML') =

#NAME 태그 이름
#attrs 룩업 속성
과 일치하는 텍스트하는 #text
# 문서 검색 find_all 찾기

''
문자열 필터
''
p = soup.find (NAME = 'P')
P_S = soup.find_all (NAME = 'P')

인쇄 (p)
pirnt (P_S)

# 명칭 바인드합니다 +
p = soup.find (NAME = 'P'= 바인드합니다 { "ID": "P"})
인쇄 (P)

# 이름 + 텍스트
태그 = soup.find (이름 = '제목', 문자 =는 "겨울잠 쥐의 이야기")
인쇄 (태그)
a_s = soup.find_all (이름 = re.compile ( 'A'))
인쇄 (a_s가)

#attrs
A = soup.find (바인드합니다 = { "ID": re.compile ( '링크')})
인쇄 (A)

#列表过滤器
#列表内的数据匹配
인쇄 (soup.find (이름 = 'A', 'P', 'HTML're.compile ( 'A')]))
프린트 (soup.find_all (이름 = 'A', 'P' 'HTML', re.compile ( 'A')]))

필터 #Bool
#true 일치
인쇄 (soup.find (이름 = 진정한 attrs에이 = { "ID": TRUE}))

# 필터 방법
#은 일부 속성에 사용 속성 수 원치 않는 조회

데프 have_id_not_class (태그) :
#pirnt (tag.name)
: tag.name는 == 'P'와 tag.has_attr ( "ID")와하지 (이하 "클래스") tag.has_attr 경우
반환 태그

#print (soup.find_all를 (NAME =函数对象))
프린트 (soup.find_all (NAME = have_id_not_class))

#补充知识点
#ID
A = soup.find (ID = '링크 2')
인쇄 (a)

#class
p = soup.find (= class_ '누나')
인쇄 (P)

추천

출처www.cnblogs.com/friendg/p/11129339.html