基于机器学习的数据处理平台研究与设计(2)

1.1.2 数据存储数据处理平台的数据存储指基于分布式存储方案，按照用户自定义或通用的存储结构，存储采集后与处理后的数据，并能够进行快速的结构化查询。过去在Hadoop分布式方案出现之前，通常采用“DB路由”的方式进行数据切分，通过规约将查询命令转发到规定的服务器数据库上存取数据。部分规模较大的企业和部门付出昂贵的设备费用用于提升单机磁盘空间与传输速率，以保证其数据存储的稳定性。本文采用的是近年来比较知名的 Hadoop存储方案。 Hadoop的运行机制来源于谷歌针对搜索引擎技术而特制的 MapReduce编程包。Hadoop是一个更易于扩展与维护的分布式计算平台，用户能够将更多的精力集中在研发算法与实现业务这几方面。Hadoop 平台主要有以下几个优点： (1) 高扩展性：Hadoop 能够按位进行数据存储-751`文~论^文.网www.751com.cn，容错能力更高。 (2) 高可靠性：Hadoop 根据MapReduce方式能够更好地实现分布式处理机制，使得集群的可靠性更高。(3) 高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 (4) 高容错性：Hadoop 能够自动将备份数据保存至硬盘，对于执行失败的调度支持重跑机制。 (5) 低成本：Hadoop是开源项目，能够大大降低软件成本。 Hadoop在数据提取加载和变形上有着数学方面的天然优势，因此能够更好地应用于大数据处理平台。Hadoop的分布式架构，在利用内存处理数据的基础上，更偏向于将数据保存在稳妥的硬盘存储系统中，对例如像 ETL这样的批处理操作相对合适，因为类似这样操作的批处理结果可以直接走向存储。而Hadoop的MapReduce模式能够将集成多个单操作的任务打碎，并将碎片任务（Map）发送到多个节点上，之后再以单个数据集的形式加载（Reduce）到数据仓库里[2]。
1.1.3 数据挖掘数据处理平台的数据挖掘指从大量采集后的数据中挖掘有意义的模式和知识的过[3]。本文中的数据挖掘包括网络的数据挖掘及媒体的数据挖掘，本文采用Spark框架进行数据挖掘，具体的技术细节将在第二章中介绍。 1960年至今，数据库存储技术已经从原始的表格处理演变成复杂的，立体的数据仓库形式。随着计算机硬件的稳步快速发展，各单位机构都积累了海量的、不同形式的无效数据[4]。尽管在这期间开发专家系统方面已经做出了很大努力，但这种系统通常依赖用户或领域专家人工地将知识输入知识库，而这些知识难免会有偏差和错误，并且录入费用高昂。因此，人们继续研发出高性能的智能计算工具，将“数据坟墓”转换为有价值的信息。由此，数据挖掘技术诞生了。 (1) 数据清洗：消除噪声和删除不一致的数据。 (2) 数据集成：将多种数据组合在一起。 (3) 数据选择：从存储系统中提取相关的数据进行分析。 (4) 数据变换：将数据矩阵进行合并、归一化等操作。 (5) 数据挖掘：使用智能算法提取数据模式 (6) 模式评估：根据某种规约度量，识别代表知识的最精确的模式。 (7) 知识表示：使用便于观察的展示界面，向用户提供最终挖掘信息。

基于机器学习的数据处理平台研究与设计(2):http://www.751com.cn/zidonghua/lunwen_43814.html