05.Python网络爬虫之三种数据解析方式

一、正则解析

二、Xpath解析

-->   测试页面数据

 1 <html lang="en">
 2 <head>
 3     <meta charset="UTF-8" />
 4     <title>测试bs4</title>
 5 </head>
 6 <body>
 7     <div>
 8         <p>百里守约</p>
 9     </div>
10     <div class="song">
11         <p>李清照</p>
12         <p>王安石</p>
13         <p>苏轼</p>
14         <p>柳宗元</p>
15         <a href="http://www.song.com/" title="赵匡胤" target="_self">
16             <span>this is span</span>
17         宋朝是最强大的王朝,不是军队的强大,而是经济很强大,国民都很有钱</a>
18         <a href="" class="du">总为浮云能蔽日,长安不见使人愁</a>
19         <img src="http://www.baidu.com/meinv.jpg" alt="" />
20     </div>
21     <div class="tang">
22         <ul>
23             <li><a href="http://www.baidu.com" title="qing">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a></li>
24             <li><a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a></li>
25             <li><a href="http://www.126.com" alt="qi">岐王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a></li>
26             <li><a href="http://www.sina.com" class="du">杜甫</a></li>
27             <li><a href="http://www.dudu.com" class="du">杜牧</a></li>
28             <li><b>杜小月</b></li>
29             <li><i>度蜜月</i></li>
30             <li><a href="http://www.haha.com" id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a></li>
31         </ul>
32     </div>
33 </body>
34 </html>
测试代码

猜你喜欢

转载自www.cnblogs.com/mwhylj/p/10238667.html