您现在的位置：万盛学电脑网 >> 程序编程 >> 网络编程 >> php编程 >> 正文

php提取网页正文内容的例子

作者：佚名责任编辑：admin 更新时间：2022-06-22

　　因为难点在于如何去识别并保留网页中的文章部分，而且删除其它无用的信息，并且要做到通用化，不能像火车头那样根据目标站来制定采集规则，因为搜索引擎结果中有各种的网页。

　　抓回一个页面的数据，如何匹配出正文部分，郑晓在下班路上想了个思路是：

　　1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。

　　2. 直接匹配出非链接的、符合在div、p、h标签中的中文部分???

　　还是会有不少其它多余信息啊，比如底部信息等。。如何搞?不知道大家有木有什么思路或建议?

　　这个类是从网上找到的一个php实现的提取网页正文部分的算法，郑晓在本地也测试了下，准确率非常高。

代码如下

<?php

class Readability {
// 保存判定结果的标记位名称
const ATTR_CONTENT_SCORE = "contentScore";

// DOM 解析类目前只支持 UTF-8 编码
const DOM_DEFAULT_CHARSET = "utf-8";

// 当判定失败时显示的内容
const MESSAGE_CAN_NOT_GET = "Readability was unable to parse this page for content.";

// DOM 解析类（PHP5 已内置）
protected $DOM = null;

// 需要解析的源代码
protected $source = "";

// 章节的父元素列表
private $parentNodes = array();

// 需要删除的标签
// Note: added extra tags from http://www.45it.net

private $junkTags = Array("style", "form", "iframe", "script", "button", "input", "textarea",
"noscript", "select", "option", "object", "applet", "basefont",
"bgsound", "blink", "canvas", "command", "menu", "nav", "datalist",
"embed", "frame", "frameset", "keygen", "label", "marquee", "link");

// 需要删除的属性
private $junkAttrs = Array("style", "class", "onclick", "onmouseover", "align", "border", "margin");

/**
* 构造函数
* @param $input_char 字符串的编码。默认 utf-8，可以省略
*/
function __construct($source, $input_char = "utf-8") {
$this->source = $source;

// DOM 解析类只能处理 UTF-8 格式的字符
$source = mb_convert_encoding($source, 'HTML-ENTITIES', $input_char);

// 预处理 HTML 标签，剔除冗余的标签等
$source = $this->preparSource($source);

// 生成 DOM 解析类
$this->DOM = new DOMDocument('1.0', $input_char);
try {
//libxml_use_internal_errors(true);

上一个程序编程： PHP官方Windows扩展列表
下一个程序编程：为ckeditor编辑器修改添加一键排版功能

电脑店

您现在的位置：万盛学电脑网 >> 程序编程 >> 网络编程 >> php编程 >> 正文

php提取网页正文内容的例子

作者：佚名责任编辑：admin 更新时间：2022-06-22

php编程排行

程序编程推荐

热门文章

相关文章

图片文章

关闭HP M1536一体机传真报告的详细教程

专为设计师而写的GITHUB快速入门教程

小米note顶配版跑分怎么样小米note顶配版跑…

如何在win7旗舰版电脑中为excel2007快速加上…

万盛电脑知识网 | 设为首页 | 加入收藏 | 关于我们

您现在的位置： 万盛学电脑网 >> 程序编程 >> 网络编程 >> php编程 >> 正文

php提取网页正文内容的例子

作者：佚名 责任编辑：admin 更新时间：2022-06-22

php编程排行

程序编程推荐

热门文章

相关文章

图片文章

关闭HP M1536一体机传真报告的详细教程

专为设计师而写的GITHUB快速入门教程

小米note顶配版跑分怎么样 小米note顶配版跑…

如何在win7旗舰版电脑中为excel2007快速加上…

万盛电脑知识网 | 设为首页 | 加入收藏 | 关于我们

您现在的位置：万盛学电脑网 >> 程序编程 >> 网络编程 >> php编程 >> 正文

作者：佚名责任编辑：admin 更新时间：2022-06-22

小米note顶配版跑分怎么样小米note顶配版跑…