抓取文章内容

function actionHaha(){




   header('content-type:text/html;charset=gbk');
   $obj=M('caiji');
   $data1=array();

    //$b=0;

//下面这两行用来实时输出的

   ob_end_clean();
   ob_implicit_flush(1);
   for($a=10986;$a<13073;$a++){
      $url="http://www.jtyxzz.com/portal.php?mod=view&aid=".$a;
      $arr=$this->file_from_url_content($url);


      //var_dump($arr);exit;
      $regex4="/<h1 class=\"ph\">.*?<\/h1>/";//标题
      $regex5="/<p class=\"xg1\">[\s\S]*?<\/p>/";//时间等
      $regex6="/<div class=\"s\">[\s\S]*?<\/div>/"; //摘要
      $regex7="/<table cellpadding=\"0\" cellspacing=\"0\" class=\"vwtb\">[\s\S]*?<\/table>/";
      $regex8="/<div id=\"pt\" class=\"bm cl\">[\s\S]*?<\/div>/";//所属栏目
      preg_match($regex5,$arr,$result1);
      preg_match($regex4,$arr,$result);
      preg_match($regex6,$arr,$result2);
      preg_match($regex7,$arr,$result3);
      preg_match($regex8,$arr,$result4);
       $b=$a/500;
      if(is_int($b)){//让其抓取500条休息一会免得服务器将自己电脑IP屏蔽
         echo $a;
         sleep(rand(30,50));
      }
      if($result){
         $data=array(
                'id'=>$a,
               'title'=>iconv('GBK','UTF-8',$result[0]),
               'description'=>iconv('GBK','UTF-8',$result2[0]),
               'zaxia'=>iconv('GBK','UTF-8',$result1[0]),
               'content'=>iconv('GBK','UTF-8',$result3[0]),
               'cate'=>iconv('GBK','UTF-8',$result4[0])
         );


              $re=$obj->create($data);
         if(!$re){
            //var_dump($data);exit;
            echo $a.'tianjiashibai';
            echo '<br/>';
         }
         $data1[]=$data;


      }else{
         echo $a.'id no wenzhang or no permit';
         echo '<br/>';
      }
   }
   echo  '抓取完毕';exit;




}




/**
 * 异步将远程链接上的内容
 * @param unknown $url 远程地址
 * @param unknown $saveName 保存在服务器上的文件名
 * @param unknown $path 保存路径
 * @return boolean
 */
function file_from_url_content($url) {
   // 设置运行时间为无限制
   set_time_limit ( 0 );
   $url = trim ( $url );
   $curl = curl_init ();
   // 设置你需要抓取的URL
   curl_setopt ( $curl, CURLOPT_URL, $url );
   // 设置header
   curl_setopt ( $curl, CURLOPT_HEADER, 0 );
   // 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
   curl_setopt ( $curl, CURLOPT_RETURNTRANSFER, 1 );
   // 运行cURL,请求网页
   $file = curl_exec ( $curl );
   // 关闭URL请求
   curl_close ( $curl );
   return $file;
}

猜你喜欢

转载自blog.csdn.net/qq_40872870/article/details/79890789