文档名:大规模序列分析框架的研究与实现
由工业设备产生、采集和处理的数据大多是时间序列、空间序列、高维矩阵等非结构化数据.目前单机分析环境如R、Matlab等提供了优质丰富的算法库,但随着数据生成速度和规模的不断升级,上述工具在处理大规模序列和矩阵运算时呈现低效甚至失效的现象.针对可处理数据规模和算法可移植性问题,本文设计了一种大规模时间序列分析框架LTSAF(Large-scaleTimeSeriesAnalysisFramework).基于分治原理,该框架创新地提出近似解方案,在无法有效获得精确解的情况下采用数据并行的计算方式求取近似解.建立了时空代价优化模型,求解得到序列的最优分段长度,以达到计算结果的有效性与计算开销的均衡.在Spark平台下实现了序列分析原型系统,采用跨语言、跨平台的方式集成了第三方算法库.实验结果表明,该系统在保证分析结果正确性的基础上,序列分析的处理速度和规模呈线性增长.同时,该系统易于集成与扩展,使数据分析人员免于算法重复开发,聚焦于分析任务本身.
作者:滕飞 黄齐川 李天瑞 王晨 田春华
作者单位:西南交通大学信息科学技术学院,成都610031;中铁一院轨道交通工程信息化国家重点实验室,西安710043西南交通大学信息科学技术学院,成都610031清华大学大数据系统软件国家工程实验室,北京100084
母体文献:第六届中国计算机学会大数据学术会议论文集
会议名称:第六届中国计算机学会大数据学术会议
会议时间:2018年10月11日
会议地点:西安
主办单位:中国计算机学会
语种:chi
分类号:
关键词:大数据处理 序列分析 原型系统
在线出版日期:2020年11月30日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.74 MB
- 下载次数:
- 60
-
高速下载
|
|