基于XPath的Web页面自动清洗算法 - 第二十五届中国数据库学术会议(NDBC2008).pdf

11 0
2026-1-12 11:41 | 查看全部 阅读模式

会议论文《基于XPath的Web页面自动清洗算法》发表于第二十五届中国数据库学术会议(NDBC2008)。该文提出一种利用XPath表达式对Web页面进行结构化提取与清洗的方法,有效解决了网页数据冗余和格式不统一的问题。通过分析页面结构,算法能够精准定位所需数据节点,提升数据抽取的效率与准确性,为后续数据处理提供可靠支持。

文档为pdf格式,0.54MB,总共6页。

基于XPath的Web页面自动清洗算法 - 第二十五届中国数据库学术会议(NDBC2008)
文件大小:
552.96 KB
高速下载
2026 资料下载 联系邮件:1991591830#qq.com 浙ICP备2024084428号-1