会议论文《基于布局结构树的网页正文提取》提出了一种利用网页布局结构树进行正文内容提取的方法。该方法通过分析网页的HTML结构,构建布局树并识别文本节点的层次关系,从而有效区分正文与广告、导航等非正文内容。实验表明,该方法在多种网页类型中具有较高的准确率和稳定性,为网页信息提取提供了新的思路。
文档为pdf格式,0.29MB,总共5页。
举报