首页 > 编程语言> 文章详细

php-智能地抓取第一段/开始的文字

2019-11-05 15:32:01 阅读：227 来源： 互联网

标签：data-mining php regex

我想要一个可以在其中输入URL的脚本,它将智能地抓住文章的第一段…除了从< p>中提取文本外,我不确定从哪里开始.标签.您知道有关如何进行此类操作的任何提示/教程吗？

更新

为了进一步说明,我正在网站的一部分中,用户可以在Facebook上提交链接,该链接将从网站上获取图片以及文字.我正在使用PHP并试图确定执行此操作的最佳方法.

我之所以说“智能”,是因为我想尝试在该页面上获取重要的内容,不仅是第一段,而且是最重要内容的第一段.

解决方法:

如果您要获取的页面是外国页面,或者即使是本地页面,但您事先都不知道其结构,那么我想说,实现这一目标的最佳方法是使用php DOM functions.

function get_first_paragraph($url)
{
  $page = file_get_contents($url);
  $doc = new DOMDocument();
  $doc->loadHTML($page);
  /* Gets all the paragraphs */
  $p = $doc->getElementsByTagName('p');
  /* extracts the first one */
  $p = $p->items(0);
  /* returns the paragraph's content */
  return $p->textContent;
}

标签：data-mining,php,regex
来源： https://codeday.me/bug/20191105/1995768.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

php-智能地抓取第一段/开始的文字