了解Hadoop就像是在打开大数据这扇门。首先它本身是一个分布式计算架构,更重要的是它是一个可扩展的生态系统,像IBM,EMC,Amazon,微软,甲骨文等大型IT公司都已经有了基于Hadoop的商业化大数据产品。虽然现在还有比Hadoop更为先进的分布式架构(Dremel,DataFlow等),但也都是基于Hadoop的改进升级,因此也说Hadoop是大数据的基础,基础的稳固决定了未来能走多远!!以下是小编为你整理的大数据主要学哪些内容
Hadoop是什么
Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。
HDFS(分布式文件系统):
它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提交等,如图是HDFS的基础架构
MapReduce(并行计算架构):
它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。
Cetas项目关注点
在线应用分析:
及时乃至实时的决策提供了投资的成功可能性!随着各式各样应用产生不规则的数据产生,这些数据到底想告诉你我什么呢?我们相信大数据将提供一个远见,一个对客户的洞察。那就没有理由去怀疑,基于用户的产品和服务会成功!Cetas提供了一个易于管理,自助服务的虚拟环境,支持企业自定义创建多种应用。这里提供了多维度的行为分析和大量高级的分析算法。
IT运营分析:
除了提供在线应用实时的高级分析之外,还能分析IT运营管理,提供企业的管理运营能力。这为企业提供了对企业IT运营效果的面面观。
企业Hadoop分析:
为企业或个人提供可扩展,高性能的Hadoop自助分析平台,也提供了可视化的数据发现功能,并且嵌入了大量先进的机器学习算法,这些都促进研究和深度挖掘大数据所隐藏的内容。甚至如果你有建模的需要,这个平台也能满足你!!
从虚拟化的基础上创建起的这三项服务,分别面向私人,公共,甚至是公私混合。从而Cetas使得大数据分析更加轻量化,这也是VMware公司收购Cetas之后加大投入的方向。
如今Cetas加入VMware的大家族,未来将被赋予更重要的角色和作用。这方面也让我们拭目以待VMware这架虚拟化马车驶出的大数据分析之路。
Hadoop起源
Hadoop有个背景,就是起源于Apache Lucene项目中的一个搜索引擎Nutch。Lucene目前是世界上最好,并且开源的搜索引擎框架和产品。Lucene本身就有非常多好的大数据经验和思路。这为Hadoop预备了巨大能量,使得Hadoop注定是一个伟大的产品。
Hadoop命名:
其实是一个孩子给棕黄色大象的命名。Hadoop图标在本系列中也随处可见。Google也是一个这样的例子。这样有一个很好的点就是想到Hadoop,就会想到大数据,而不会是其他。
Hadoop目标:
Hadoop的出现是为了解决搜索引擎无法接受数以亿计单位的数据量的问题。借助Google分享的GFS和MapReduce成熟理论,Hadoop一跃而出,成功解决了海量数据存储和搜索的架构问题。未来Hadoop将支持更巨大的数据和更智能的数据管理。
Pig基础知识
Pig是进行Hadoop计算的另一种框架,是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。
1、Pig概述 2、安装Pig 3、使用Pig完成手机流量统计业务
Hive
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用。
1、数据仓库基础知识 2、Hive定义 3、Hive体系结构简介 4、Hive集群 5、客户端简介 6、HiveQL定义 7、HiveQL与SQL的比较 8、数据类型 9、表与表分区概念 10、表的操作与CLI客户端 11、数据导入与CLI客户端 12、查询数据与CLI客户端 13、数据的连接与CLI客户端 14、用户自定义函数(UDF)