발 BS4 BeautifulSoup로 임포트 된 텍스트 = "" " <UL ID = " navList 「 클래스 = " W1 " > <LI> <A ID = " blog_nav_sitehome 「 클래스 = " 메뉴 " HREF = " https://www.cnblogs.com/ " >博客园</a>를 </ 리> <LI> <A ID = " blog_nav_myhome " 클래스 = " 메뉴 " HREF = " 은 https : //www.cnblogs.COM / jswf / " > 홈 </a>를 </ 리> <LI> <a id= "blog_nav_newpost"클래스 = "메뉴"href= "https://i.cnblogs.com/EditPosts.aspx?opt=1">新随笔</a>에 </ 리> <LI> <A 이드 = " blog_nav_contact 「클래스 = " 메뉴 " HREF = " https://msg.cnblogs.com/send/jswf " >联系</A> </ 리> <LI> <A ID = " blog_nav_rss 「클래스 = " 메뉴 "HREF = " https://www.cnblogs.com/jswf/rss/ " >订阅</a>에 <! - < 부분 이름 = " ./Shared/_XmlLink.cshtml " 모델 = " 모델 " /> </ 리> -> </ 리> <LI> <A ID = " blog_nav_admin 「 클래스 = " 메뉴 " HREF = " https://i.cnblogs.com/ " >管理</a>에 </ 리> </ UL> <UL> <LI> 1213123 </ 리> </ UL> "" " 수프 = BeautifulSoup로 (텍스트, "LXML " ) UL = soup.find_all ( " UL " 상기 class_ = " W1 " , ID = " navList " , 제한 = 2 ) [ 0 ] # 및 모든 태그 UL 클래스 ID가 지정된 검색 만 나열 후의리스트 얻었다 영차 두을 #ul = 스프 .find_all ( " ULS " attrs에 = { " 클래스 " : " W1 " , " ID " : " navList " }) [ 0 ] #, 및 UL ID가 클래스 지정된 모든 태그를 찾아 제로 번째 후의리스트의 목록을 얻을 수를 인쇄 (UL) 인쇄 (목록 (ul.strings)) # GET 라벨 아래에있는 모든 텍스트가 캐리지 리턴을 UL 등 인쇄 (목록 (ul.stripped_strings)) # 모든 UL에서 비어 있지 않은 텍스트 레이블 받기 AES = ul.find_all ( " " ) 에 대한 을 에 AES : HREF = A [ " HREF " ] # 가져 오기 HREF 태그의 속성 #href = a.attrs ( " HREF " ) # GET 라벨의 HREF 속성 인쇄 (HREF)
볼륨 ul.get_text ()와 ul.strings 같은 역할도 있습니다 (둘 공간이 반환 캐리지를 포함하는 UL 라벨의 모든 텍스트를 반환)
그러나 문자열 형식 문자열은 () 형식의 발전기를 돌려줍니다 get_text