基于hadoop的数据挖掘算法研究与实现(4)

本文包括五章的内容:
第一章绪论。本章主要介绍论文的研究背景及意义，介绍了大数据的背景及大数据时代云计算的发展状况，提出了本文研究的主要内容。
第二章开源云平台Hadoop及数据挖掘概述。本章首先介绍Hadoop生态系统的组成，对Hadoop的核心技术架构HDFS、 MapReduce和HBase的体系及其相关特性进行深入的讨论分析。阐释什么是数据挖掘，包括其中的分类及聚类的概念及主要算法。
第三章基于Hadoop的数据挖掘系统的设计。本章通过搭建Hadoop平台，构建试验环境，并对集群进行了稳定性测试，为今后的实验打下基础。
第四章Naive Bayes分类算法的研究与优化。本章介绍了在Hadoop平台上的分类算法的执行过程，并详细描述了Naive Bayes分类算法的特性，及其相应的并行策略，并成功地将其移植到Hadoop平台，之后就算法优化的对比结论展开分析。
第五章K-Means聚类算法的研究与优化。本章介绍了在Hadoop平台上聚类算法的执行过程，并以K-Means算法为例，详细地解读了聚类算法的设计及实现，其中介绍了K-Means算法的特性及其并行策略，并成功地将其移植到Hadoop并行计算平台，之后就算法优化的对比结论展开分析。

2    Hadoop及数据挖掘概述
2.1    Hadoop云计算平台
2.1.1    Hadoop生态圈架构
在2005年夏天，Jeffrey Dean和Sanjay Ghemawat提出了MapReduce的框架模型，意着Google的大型数据处理系统的正式公开。当年秋天，在这篇论文的启发下，Hadoop作为lucence子项目Nutch的一个部分被Apache正式引入。
Hadoop是非常优秀的大数据解决方案，它可以对PB尺度下的散乱信息进行处理和分析，可以被开发者利用多种工具达成很多目的，例如数据挖掘。Hadoop依托Google公司的的MapReduce和分布式文件系统技术，可配置在随处可见的普通的小型计算机以及服务器上。即使是没有经验的用户也可以很方便的在Hadoop上使用其提供的分布式编程来处理大量的数据，在有需要的时候还可以方便的对载体硬件实施升级工作。还可以处于无人值守时处理多种故障，包含的工具能进行排错、修复，适用性大大增加。
这些解决方案都是针对巨额数据的，花样繁多，我们可以用盆洗脸用盆刷牙，用导弹发射卫星用导弹点烟，各有各的用途和使用环境，寻找到合适的才是最重要的。基于hadoop的数据挖掘算法研究与实现(4):http://www.751com.cn/jisuanji/lunwen_39778.html