大数据随机样本划分模型及相关分析计算技术

190 0
2024-12-9 21:28 | 查看全部 阅读模式

文档名:大数据随机样本划分模型及相关分析计算技术
本文设计了一种新的适用于大数据的管理和分析模型——大数据随机样本划分模型(RandomSamplePartition模型,简称RSP模型),它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点上.RSP的生成操作使每个RSP数据块的数据分布与大数据的分布保持统计一致,因此,每个RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和回归模型.基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能力.本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的逼近式集成学习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成、异常点检测;最后讨论RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数据分析的优势.
作者:黄哲学何玉林魏丞昊张晓亮
作者单位:深圳大学计算机与软件学院大数据技术与应用研究所广东深圳518060;大数据系统计算技术国家工程实验室广东深圳518060
母体文献:第六届中国计算机学会大数据学术会议论文集
会议名称:第六届中国计算机学会大数据学术会议  
会议时间:2018年10月11日
会议地点:西安
主办单位:中国计算机学会
语种:chi
分类号:
关键词:大数据分析  随机样本划分  逼近式集成学习
在线出版日期:2020年11月30日
基金项目:
相似文献
相关博文
2024-12-9 21:28 上传
文件大小:
3.3 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
2026 资料下载 z3060.com 联系邮件:1991591830#qq.com 浙ICP备2024084428号-1
快速回复 返回顶部 返回列表