大数据技术发展到目前已经经历了几个阶段,在很多企业都已经形成了相对成熟稳定的架构,如何了解其发展中的概况。以下是小编为你整理的大数据到底怎么学
大数据系统的演化历程包括:解决数据规模问题,解决使用门槛问题,解决计算延迟问题,解决复杂场景问题。
大数据的整体架构可以按以下分层:数据源、数据采集Agent、数据存储、数据计算和数据应用。
数据源从内部来讲一般来自于企业的各个数据中心,外部一般从互联网获取,也可能与其他企业或机构通过交换传输。
数据的采集通常有批处理的传送,或者基于kafka等组件的实时接口,采集要确保准确高效。
数据的存储方式也包含多种,可以基于hadoop的分布式文件系统,或者基于hbase分布式数据库,也可以基于Kafka。
数据的计算包括离线分析(Hive、Spark、MR),即席查询/多维分析(Presto、SparkSQL、Kylin)和实时计算引擎(Flink、Spark Streaming)。
大数据运营和传统运营有什么区别
大数据基于网络有自己优势,可以短时间收集全世界数据,作为后盾分析,利用,预测但是确定,过于依赖软件,有时候不一定精准,比如我有一次到京东商城看一个产品图片,本来意图不是为了买
这个这个产品,可是京东后来一直给我发这个产品广告传统运营基于周围群体,公司员工个人经验,范围狭隘但是比较精准, 因为一切运营最终围绕人来进行,了解人,才算精准,只有人更能实际
观察对方的内在,外在,机器目前无法做到一个做生意的人,可以观察客户的一举一动,任何表情,知道客户需要什么可是机器目前还无法做到这么细微
如果把大数据和个人分析综合起来,这样大数据运营更加完美,事实上,现在很多大公司,也是这么做的,分析师很重要,依靠大数据,但是不局限于大数据,自己观察和经验也是重要参考之一
大数据概念的结构
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
Hadoop
这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完
但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。其实把Hadoop的这些组件学明白你就能做大数据的处理了,只不过你现在还可能对"大数据"到底有多大还没有个太清楚的概念,听我的别纠结这个。
等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据,到时候你就不会觉得数据大真好,越大越有你头疼的。当然别怕处理这么大规模的数据,因为这是你的价值所在,让那些个搞Javaee的php的html5的和DBA的羡慕去吧。