会议论文《基于记录相似度估计的高效重复记录检测算法 - 2009中国计算机大会》提出了一种高效的重复记录检测方法。该算法通过计算记录之间的相似度,快速识别重复数据,提高了数据清洗的效率。研究针对大规模数据环境下的重复记录问题,优化了传统方法的性能瓶颈,具有较强的实用性与推广价值。
文档为pdf格式,0.61MB,总共14页。
举报