无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具。这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具。GigaOm的记者Derrick Harris列举了几个工具,以下是小编为你整理的怎么学大数据分析
BitDeli:BitDeli是今年11月份在旧金山成立的一家初创公司。它能衡量出任何使用Python脚本的应用程序的指标,联合创始人兼CEO Ville Tuulos告诉Derrick,脚本可以很简单,也可以很复杂——甚至未来可以延伸到机器学习。不过和“重量级选手”Hadoop相比,BitDeli自认为是一个轻量级的Ruby。
Continuuity:Continuuity是前Yahoo首席云架构师Todd Papaioannou和Facebook HBase的工程师Jonathan Gray的心血结晶,Continuuity想让所有的公司都能像Yahoo、Facebook一样运营。该团队创建了一个大数据工具,它可以简化Hadoop以及HBase集群的复杂性,而且包含一系列开发套件,旨在帮助程序员开发大数据应用,该平台采用Hadoop技术,允许开发者在防火墙内外对大数据应用软件进行部署、扩展和管理。公司联合创始人兼首席执行官Todd Papaioannou表示,作为一家初创企业,Continuuity正在试图掀起下一波大数据应用软件的浪潮,公司所提供的工具能够大大提高处于开发状态的软件不同部分与阶段的扩展性。
Flurry:Flurry是移动应用统计分析领域里的标杆,正因为在行业内独特的优势,它每年的营收高达一亿美元。Flurry拥有非常全面的功能,不仅仅只是帮助开发者构建移动应用,它还帮助开发者分析所有的数据,进而产生更大的效益。其实数据也支撑了该公司的广告网络,他们通过数据分析可以帮助开发者推送准确的广告到需要的用户面前。不过单纯从移动应用的数据统计功能来看,Flurry绝对是处于领先地位。其功能模块设置合理,分析维度全面,分析流程也易于理解。
为什么你应该关心?
Drill和Dremel相比Hadoop更好的分析即席查询。Hadoop仅仅提供批量的数据处理工作流,这些也是缺点。
Hadoop生态圈使得MapReduce作为一个很亲切有利的工具应用于广告分析。从Sawzall到Pig到Hive,很多接口层应用的建立使得Hadoop更为友好,更接近业务,但是,像SQL体系,这些抽象层忽略一个重要的事实–MapReduce(或Hadoop)是为了系统化数据处理流程而存在的。如果你不担心跑的哪些任务? 如果你不关心这些产生的问题和去寻求答案,那就保持沉默,保持洞察力。“即席探索” — 如果你已经承担数据处理,你这么优化处理的速度?你不应该运行一个新的任务或者是等待,有时候考虑的时间还不如在问个新的问题。
在堆对比的工作流基础的方法论中,很多业务驱动的BI和分析查询都是很基本的和临时交互的,低延时分析。写Map/Reduce工作流在很多业务分析中是被禁止的。等待几分钟等Jobs启动,在等几个小时等执行完成这些无溢于数据的交互体验,这些对比,和缩放比较最终产生了基本的新的视野。一些数据科学家早已经推测Drill和Dremel将优于Hadoop,并达成共识,也有一些还在考虑中,还有少部分的狂热者立即拥抱变化,但是这些是主要的优点在更面向查询的和低延时的情况下。在Infochimps我们喜欢使用Elasticsearch全文索引引擎来实现数据库的数据搜索,但是真的在大数据处理中我们认为Drill将成为主流。
R是开源的强大的统计编程语言。自1997年以来,超过200万的统计分析师使用R。这是一门诞生自贝尔实验室的在统计计算领域的现代版的S语言并迅速地成为了新的标准的统计语言。R使得复杂的数据科学变得更廉价。R是SAS和SPASS的重要的领头者,并作为最优秀的统计师的重要工具。
语言需求
javaMR语言
这种语言产生很早了,大家也或多或少的接触过,但是在大数据中使用已经有的原型进行构建庞大系统,是一种最基本的选择。
Scala语言
以java为基础的语言,和java很像,对任何想要进行大规模的机械学习或是建立高阶的算法,Scala是逐渐兴起的工具,善于呈现且拥有建立可靠系统的能力。
Hadoop
在以java为基础的大数据处理当中,Hadoop为作一批数据处理,发展以java为基础的架构关键。相对于其他处理工具而言,Hadoop慢许多,但是无比的准确可被后端数据库分析广泛使用
Kafka andStorm
它是一个特别快速的查询信息系统,但是因为太快了在实施操作时会犯错,有时候会漏掉东西。
Python语言
Python拥有R语言处理复杂数据的能力及更务实的语言特质,更简单和直观,在近几年的成长很快。在数据处理范畴内,通常在规模与复杂之间要有个选择,Python无疑当选。