从数据的收集开始,到整理归类发现其隐藏的信息,再到做出分析报告,都没有概念,我们面对日益发展的环境,又该如何进行数据分析呢?以下是小编为你整理的大数据都学什么
首先,先从采购角度入手,为采购提供数据支持,分析市场行情判断采购节点,想任何工作尽可能更加专业化发展,不再依靠经验而是靠数据说话;
其次,要掌握专业的数据分析和挖掘技能,乃至于成为数据科学家,是非常非常艰难的,从零基础、在短时间内提升数据获取、数据分析、数据可视化的水平,是完全可能的;
接着,数据分析都无疑是一项重中之重的技能,不仅是技术层面,更包括思维层面;
然后,从零学会大数据核心,数据分析系列课程,Udacity-Data Analyst相关课程,Excel知识,统计学知识;
再次,入门一个新领域时,有一个前辈帮你及时纠正错误方向,还有一群互相鼓励的小伙伴们是很有必要的;
最后,每月月会写一份当月学习总结,囊括对知识的掌握和时间安排方面的感悟,并及时对计划做出适当的调整,详细规划下个月学习任务的时间安排;
云端的大数据
“云”其实指的是多台虚拟服务器的组合,云为不同的使用者提供一个计算的平台。这就是IaaS(基础设置即服务),亚马逊的Amazon EC2和Amazon S3就是这样一个服务。
IaaS带给你的是大数据计算的资源,而PaaS将为您提供更为高级的大数据服务。所谓平台即服务(PaaS)指的是提供各种开发解决方案和系统环境。按需使用的PaaS又称为中间件,极大的节省了部署环境的时间和成本。
目前主要的大数据服务提供商是Amazon/Microsoft/Google,这些大型的服务商提供IaaS和PaaS的混合服务,以满足不同业务要求。其中Google专注于大数据应用的研究上,Amazon发力提供更多规模的大数据服务平台。
Sqoop
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
1、配置Sqoop 2、使用Sqoop把数据从MySQL导入到HDFS中 3、使用Sqoop把数据从HDFS导出到MySQL中
Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。
1、Storm基础知识:包括Storm的基本概念和Storm应用场景,体系结构与基本原理,Storm和Hadoop的对比 2、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题 3、Storm组件介绍: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失败的重发 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm编程实战
Hadoop是什么
Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。
HDFS(分布式文件系统):
它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行),支持多媒体数据和流媒体数据访问,高效率访问大型数据集合,数据保持严谨一致,部署成本降低,部署效率提交等,如图是HDFS的基础架构
MapReduce(并行计算架构):
它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。如图是MapReduce的内部计算步骤
Pig/Hive(Hadoop编程):
Pig是一种高级编程语言,在处理半结构化数据上拥有非常高的性能,可以帮助我们缩短开发周期。
Hive是数据分析查询工具,尤其在使用类SQL查询分析时显示是极高的性能。可以在分分钟完成ETL要一晚上才能完成的事情,这就是优势,占了先机!