基于布局结构树的网页正文提取 - 2014全国文档信息处理学术会议.pdf

6 0
2026-1-10 04:13 | 查看全部 阅读模式

会议论文《基于布局结构树的网页正文提取》提出了一种利用网页布局结构树进行正文内容提取的方法。该方法通过分析网页的HTML结构,构建布局树并识别文本节点的层次关系,从而有效区分正文与广告、导航等非正文内容。实验表明,该方法在多种网页类型中具有较高的准确率和稳定性,为网页信息提取提供了新的思路。

文档为pdf格式,0.29MB,总共5页。

基于布局结构树的网页正文提取 - 2014全国文档信息处理学术会议
文件大小:
296.96 KB
高速下载
2026 资料下载 联系邮件:1991591830#qq.com 浙ICP备2024084428号-1