简单使用phpspider采集本博客文章内容

2019-03-28 10:48:12 阅读：311 来源： 互联网

标签：dump result2 博客 selector html1 myfile 文章内容 var phpspider

采集流程

根据链接获取页面内容(curl)->获取需要采集的内容（可以通过正则、xpath、css选择器等方法进行筛选）

<?php

require_once 'phpspider/autoloader.php';
use phpspider\core\phpspider;
use phpspider\core\requests;
use phpspider\core\selector;
/* Do NOT delete this comment */
/* 不要删除这段注释 */
requests::$input_encoding = 'GB2312';
requests::$output_encoding = 'GB2312';
//获取博客文章列表的文章url
for($i=1;$i<=10;$i++){
$url = "https://www.cnblogs.com/jcydd/default.html?page=".$i;
$html = requests::get($url);
//var_dump($html);
$selector = "/<a\sid=\"homepage1_HomePageDays_DaysList_ctl0\d_DayList_TitleUrl_\d\"\sclass=\"postTitle2\"\shref=\"(.*)\">/";
$result[] = selector::select($html, $selector,'regex');
}
//var_dump($result);

//根据url循环获取文章标题和内容
  foreach($result as $k=> $v){
      foreach($v as $kk=>$vv){

    $html1 = requests::get($vv);
    //var_dump($html1);
    
    //获取文章标题，正则表达式前后要加上@，我也不知道为什么
    $selector1 = "@<a\sid=\"cb_post_title_url\"\s(?:.)+?>(.*)</a>@";
    $result1 = selector::select($html1, $selector1,'regex');
    //var_dump($result1);
    
    //文章内容正则有点问题，有些内容获取不到    
     $selector2 = "@<div\sid=\"cnblogs_post_body\"\sclass=\"blogpost-body\">((.|\n)*)<div\sid=\"MySignature\">@";     
    $result2 = selector::select($html1, $selector2,'regex');
    //var_dump($result2);
    //去除文章内容里的html标签    
     $result2=preg_replace('/<[^<]*>/',"",$result2);   
     
     //写入文件 
    $myfile = fopen("f".$k.$kk.".txt", "w") or die("Unable to open file!");
    fwrite($myfile, $result1);
    fwrite($myfile,"\r\n");
     foreach($result2 as $vvv){
        fwrite($myfile, $vvv);
    }
    
    fclose($myfile);  
 
 } 
}

标签：dump,result2,博客,selector,html1,myfile,文章内容,var,phpspider
来源： https://www.cnblogs.com/jcydd/p/phpspider.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

简单使用phpspider采集本博客文章内容