Python基于hadoop的大规模并行数据分析系统原型设计(2)

3.1.4   网络连接层和数据连接层   13
3.2   系统所实现的功能   13
集群端功能   13
3.2.2   系统操作流程   13
3.2.3   数据通信方式   14
3.3   系统开发   15
3.3.1   Python客户端   15
3.3.2   Hadoop应用   15
4   关键技术研究及实现   17
4.1   系统核心设计   17
4.2   数据挖掘算法原理和实现   18
4.2.1   ID3算法原理   18
4.2.2   分布式ID3算法实现   20
4.2.3   其他分布式ID3算法实现   20
4.3   开发的关键技术   21
4.3.1   Python后台原理   21
4.3.2   WxPython图形界面   21
4.4   Hadoop关键技术   24
4.4.1   MapReduce编程   24
4.4.2   Hive技术   25
4.4.3   SSH通信   25
4.5   平台系统发布   26
4.5.1   服务器架设   26
4.5.2   软件发布   26
5   结论与进一步研究方向   27
5.1   本课题工作总结   27
5.2   本课题进一步研究方向   27
致谢   28
参考文献   29
附录   30
绪论
随着数据的爆炸性增长、数据规模的急剧增加、应用类型的巨大丰富，企业和个人用户信息使用模式的变化已经远远超过了原有系统平台所提供的局限，传统的技术架构已经越来越不适应当前海量数据处理的要求，传统数据分析处理领域正面临新的重大问题时，需要更多领域数据的融合和写作，而云计算正由此成为信息领域的研究热点。无论是统计还是数据挖掘，云计算都可以提供更强的数据分析功能。数据挖掘技术包含了数据库、统计学、人工智能、知识获取等方面的知识。通过数据挖掘，有价值的知识、规则或高层次的信息就能从相关数据中挖掘出来，并从不同角度显示，从而使云计算处理的海量数据成为一个可靠的服务。
为缓解交通拥挤、使路网上车辆受阻滞的程度减少到最小，国内大部分城市引进了国外的技术成果或结合了具体的国情，研发了交通信号控制系统。这些系统将会产生和积累海量的交通数据，而这些数据并没有进行有效的利用，其中在数据挖掘背后的交通信息并没有被发现，造成数据的浪费，违背了数据是无价的理论。在拥有强大的处理数据能力下的数据挖掘可以很好的弥补这个空缺，更有效的结合到智能交通信号控制系统中，从海量的数据中发现知识、规律和有效技术，从根源上为城市规划和交通设计提供建议，降低交通事故的发生率和改善路网交通情况。
研究背景和意义
近年来海量数据对数据库服务器的CPU、IO吞吐都是严峻的考验，无论是在存储空间、还是访问速度、还是清楚网络瓶颈等方面、单靠数据库系统来完成数据挖掘已经不能适应网络发展需要，如今每天产生的信息量早已经超越了TB的范畴，可谓海量。Hadoop正是一个能够对大量数据进行分布式处理的软件框架，以可靠性、高效性、成本低在云领域慢慢成为主流。本课题研究基于Hadoop的分布式处理架构，以此为基础对路网交通系统中的数据进行并发分析，以此实现实时分析能力。在路网交通系统中往往积累了巨大而复杂的交通数据，复杂的交通数据对信息的管理和处理都提出了新的要求，利用Hadoop集群组建一个类似云的集群环境提高数据挖掘和管理的效率，以此来研究大规模并行数据分析的原型。 Python基于hadoop的大规模并行数据分析系统原型设计(2):http://www.751com.cn/jisuanji/lunwen_2653.html