화이트 파이썬 학습 기록 BeautifulSoup4 학습

발 BS4 BeautifulSoup로 임포트 된 
텍스트 = "" "
 <UL ID = " navList 「 클래스 = " W1 " > 
<LI> <A ID = " blog_nav_sitehome 「 클래스 = " 메뉴 " HREF = " https://www.cnblogs.com/ " >博客园</a>를 
</ 리> 
<LI> 
<A ID = " blog_nav_myhome "  클래스 = " 메뉴 " HREF = " 은 https : //www.cnblogs.COM / jswf / " > 홈 </a>를 
</ 리>
<LI>
<a id= "blog_nav_newpost"클래스 = "메뉴"href= "https://i.cnblogs.com/EditPosts.aspx?opt=1">新随笔</a>에 
</ 리> 
<LI> 
<A 이드 = " blog_nav_contact 「클래스 = " 메뉴 " HREF = " https://msg.cnblogs.com/send/jswf " >联系</A> </ 리> 
<LI> 
<A ID = " blog_nav_rss 「클래스 = " 메뉴 "HREF = " https://www.cnblogs.com/jswf/rss/ "    >订阅</a>에 
<! - < 부분 이름 = " ./Shared/_XmlLink.cshtml " 모델 = " 모델 " /> </ 리> -> </ 리> 
<LI> 
<A ID = " blog_nav_admin 「 클래스 = " 메뉴 " HREF = " https://i.cnblogs.com/ " >管理</a>에 
</ 리> 
</ UL> 
<UL> 
<LI> 1213123 </ 리> 
</ UL> "" "
 수프 = BeautifulSoup로 (텍스트, "LXML " ) 
UL = soup.find_all ( " UL "
상기 class_ = " W1 " , ID = " navList " , 제한 = 2 ) [ 0 ] 
# 및 모든 태그 UL 클래스 ID가 지정된 검색 만 나열 후의리스트 얻었다 영차 두을 
#ul = 스프 .find_all ( " ULS " attrs에 = { " 클래스 " : " W1 " , " ID " : " navList " }) [ 0 ] 
#, 및 UL ID가 클래스 지정된 모든 태그를 찾아 제로 번째 후의리스트의 목록을 얻을 수를 
인쇄 (UL) 
인쇄 (목록 (ul.strings)) 
# GET 라벨 아래에있는 모든 텍스트가 캐리지 리턴을 UL 등 
인쇄 (목록 (ul.stripped_strings))
# 모든 UL에서 비어 있지 않은 텍스트 레이블 받기 
AES = ul.find_all ( " " )
 에 대한 을 에 AES : 
    HREF = A [ " HREF " ] 
    # 가져 오기 HREF 태그의 속성 
    #href = a.attrs ( " HREF " ) 
    # GET 라벨의 HREF 속성 
    인쇄 (HREF)

볼륨 ul.get_text ()와 ul.strings 같은 역할도 있습니다 (둘 공간이 반환 캐리지를 포함하는 UL 라벨의 모든 텍스트를 반환)

그러나 문자열 형식 문자열은 () 형식의 발전기를 돌려줍니다 get_text

화이트 파이썬 학습 기록 BeautifulSoup4 학습

추천