1、Hadoop
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
2、HPCC
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。
3、Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。
4、Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
5、RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
6、Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
B. 大数据分析工具都有哪些
大数据分析工具好用的有以下几个,分别是Excel、BI工具、Python、Smartbi、Bokeh、Storm、Plotly等。
1、Excel
Excel可以称得上是最全能的数据分析工具之一,包括表格制作、数据透视表、VBA等等功能,保证人们能够按照需求进行分析。
2、BI工具
BI也就是商业智能,BI工具的产品设计,几乎是按照数据分析的流程来设计的。先是数据处理、整理清洗,再到数据建模,最后数据可视化,全程围绕数据指导运营决策的思想。由于功能聚焦,产品操作起来也非常简洁,依靠拖拉拽就能完成大部分的需求,没有编程基础的业务人员也能很快上手。
3、Python
python在数据分析领域,确实称得上是一个强大的语言工具。尽管入门的学习难度要高于Excel和BI,但是作为数据科学家的必备工具,从职业高度上讲,它肯定是高于Excel、BI工具的。尤其是在统计分析和预测分析等方面,Python等编程语言更有着其他工具无可比拟的优势。
4、思迈特软件Smartbi
融合传统BI、自助BI、智能BI,满足BI定义所有阶段的需求;提供数据连接、数据准备、数据分析、数据应用等全流程功能;提供复杂报表、数据可视化、自助探索分析、机器学习建模、预测分析、自然语言分析等全场景需求;满足数据角色、分析角色、管理角色等所有用户的需求。
5、Bokeh
这套可视化框架的主要目标在于提供精致且简洁的图形处理结果,用以强化大规模数据流的交互能力。其专门供Python语言使用。
6、Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
7、 Plotly
这是一款数据可视化工具,可兼容JavaScript、MATLAB、Python以及R等语言。Plotly甚至能够帮助不具备代码编写技能或者时间的用户完成动态可视化处理。这款工具常由新一代数据科学家使用,因为其属于一款业务开发平台且能够快速完成大规模数据的理解与分析。
C. 大数据在哪些领域有应用前景
1、电商行业
电商行业是最早将大数据用于精准营销的行业,它可以根据消费者的习惯提前生产物料和物流管理,这样有利于美好社会的精细化生产。随着电子商务的越来越集中,大数据在行业中的数据量变得越大,并且种类非常多。在未来的发展中,大数据在电子商务中有大多的想象,其中主要包括预测趋势,消费趋势,区域消费特征,顾客消费习惯,消费者行为,消费热点和影响消费的重要因素。
2、金融行业
大数据在金融行业的使用是非常广泛的,主要使用在交易过程中。现在许多股权交易都是使用大数据算法进行的。这些算法能够越来越多地考虑社交媒体和网站新闻,并且决定接下来的几秒内是选择购买还是出售。
3、生物技术
基因技术是人类未来挑战疾病的重要武器。科学家可以利用大数据技术的应用,这样能够加速他们自己的基因和其他动物基因的研究过程,并且还能成为人类未来克服疾病的重要武器之一。技术不仅可以改良作物,还可以利用遗传技术培育人体器官,消灭细菌等。
D. 大数据常见的应用场景有哪些
大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果,确切的说是移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。
对于大数据的应用场景,包括各行各业对大数据处理和分析的应用,最核心的还是用户需求。
一、医疗大数据看病更高效
除了较早前就开始利用大数据的互联网公司,医疗行业是让大数据分析最先发扬光大的传统行业之一。
二、生物大数据改良基因
当下,我们所说的生物大数据技术主要是指大数据技术在基因分析上的应用,通过大数据平台人类可以将自身和生物体基因分析的结果进行记录和存储,利用建立基于大数据技术的基因数据库。
三、金融大数据理财利器
大数据在金融行业的应用可以总结为以下五个方面:精准营销、风险管控、决策支持、效率提升、产品设计等。
四、零售大数据最懂消费者
零售行业大数据应用有两个层面,一个层面是零售行业可以了解客户消费喜好和趋势,进行商品的精准营销,降低营销成本。另一层面是依据客户购买产品,为客户提供可能购买的其它产品,扩大销售额,也属于精准营销范畴。另外零售行业可以通过大数据掌握未来消费趋势,有利于热销商品的进货管理和过季商品的处理。
五、电商大数据精准营销法宝
电商是最早利用大数据进行精准营销的行业,除了精准营销,电商可以依据客户消费习惯来提前为客户备货,并利用便利店作为货物中转点,在客户下单15分钟内将货物送上门,提高客户体验。
六、农牧大数据量化生产
大数据在农业应用主要是指依据未来商业需求的预测来进行农牧产品生产,降低菜贱伤农的概率。同时大数据的分析将会更见精确预测未来的天气气候,帮助农牧民做好自然灾害的预防工作。大数据同时也会帮助农民依据消费者消费习惯决定来增加哪些品种的种植,减少哪些品种农作物的生产,提高单位种植面积的产值,同时有助于快速销售农产品,完成资金回流。
七、交通大数据畅通出行
交通作为人类行为的重要组成和重要条件之一,对于大数据的感知也是最急迫的。
尽管现在已经基本实现了数字化,但是数字化和数据化还根本不是一回事,只是局部的提高了采集、存储和应用的效率,本质上并没有太大的改变。而大数据时代的到来必然带来破解难题的重大机遇。
八、教育大数据因材施教
随着技术的发展,信息技术已在教育领域有了越来越广泛的应用。考试、课堂、师生互动、校园设备使用、家校关系……只要技术达到的地方,各个环节都被数据包裹。在课堂上,数据不仅可以帮助改善教育教学,在重大教育决策制定和教育改革方面,大数据更有用武之地。
九、体育大数据夺冠精灵
大数据对于体育的改变可以说是方方面面,从运动员本身来讲,可穿戴设备收集的数据可以让自己更了解身体状况。媒体评论员,通过大数据提供的数据更好的解说比赛,分析比赛。数据已经通过大数据分析转化成了洞察力,为体育竞技中的胜利增加筹码,也为身处世界各地的体育爱好者随时随地观赏比赛提供了个性化的体验。尽管鲜有职业网球选手愿意公开承认自己利用大数据来制定比赛策划和战术,但几乎每一个球员都会在比赛前后使用大数据服务。
十、环保大数据对抗PM2.5
气象对社会的影响涉及到方方面面。传统上依赖气象的主要是农业、林业和水运等行业部门,而如今,气象俨然成为了二十一世纪社会发展的资源,并支持定制化服务满足各行各业用户需要。借助于大数据技术,天气预报的准确性和实效性将会大大提高,预报的及时性将会大大提升,同时对于重大自然灾害,例如龙卷风,通过大数据计算平台,人们将会更加精确地了解其运动轨迹和危害的等级,有利于帮助人们提高应对自然灾害的能力。
十一、食品大数据舌尖上的安全
大数据不仅能带来商业价值,亦能产生社会价值。随着信息技术的发展,食品监管也面临着众多的各种类型的海量数据,如何从中提取有效数据成为关键所在。可见,大数据管理是一项巨大挑战,一方面要及时提取数据以满足食品安全监管需求;另一方面需在数据的潜在价值与个人隐私之间进行平衡。相信大数据管理在食品监管方面的应用,可以为食品安全撑起一把有力的保护伞。
十二、调控和财政支出大数据令其有条不紊
政府利用大数据技术可以了解各地区的经济发展情况,各产业发展情况,消费支出和产品销售情况,依据数据分析结果,科学地制定宏观政策,平衡各产业发展,避免产能过剩,有效利用自然资源和社会资源,提高社会生产效率。
十三、舆情监控大数据
国家正在将大数据技术用于舆情监控,其收集到的数据除了解民众诉求,降低群体事件之外,还可以用于犯罪管理。
E. 常见的大数据分析工具有哪些
大数据分析的前瞻性使得很多公司以及企业都开始使用大数据分析对公司的决策做出帮助,而大数据分析是去分析海量的数据,所以就不得不借助一些工具去分析大数据,。一般来说,数据分析工作中都是有很多层次的,这些层次分别是数据存储层、数据报表层、数据分析层、数据展现层。对于不同的层次是有不同的工具进行工作的。下面小编就对大数据分析工具给大家好好介绍一下。
首先我们从数据存储来讲数据分析的工具。我们在分析数据的时候首先需要存储数据,数据的存储是一个非常重要的事情,如果懂得数据库技术,并且能够操作好数据库技术,这就能够提高数据分析的效率。而数据存储的工具主要是以下的工具。
1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。
2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。
3、DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;
接着说数据报表层。一般来说,当企业存储了数据后,首先要解决报表的问题。解决报表的问题才能够正确的分析好数据库。关于数据报表所用到的数据分析工具就是以下的工具。
1、Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。
2、Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为很多人经常用它来从数据库中进行报表和可视化分析。
第三说的是数据分析层。这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;
1、Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;
2、SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。
最后说表现层的软件。一般来说表现层的软件都是很实用的工具。表现层的软件就是下面提到的内容。
1、PowerPoint软件:大部分人都是用PPT写报告。
2、Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;
3、Swiff Chart软件:制作图表的软件,生成的是Flash
F. 大数据主要应用于哪些行业,有什么价值
大数据无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹,下面详细介绍一下大数据在各行各业的具体应用。
制造业, 利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程
金融行业 ,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
汽车行业, 利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。
互联网行业, 借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。
餐饮行业, 利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式
电信行业 ,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施
能源行业, 随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。
物流行业, 利用大数据优化物流网络,提高物流效率,降低物流成本
城市管理, 可以利用大数据实现智能交通、环保监测、城市规划和智能安防
生物医学, 大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘
体育娱乐 ,大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果
安全领域, 政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。
个人生活 ,大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响,对大数据感兴趣的可以到科多大数据进行更深入的了解咨询~
G. 大数据的应用领域有哪些
1.了解和定位客户
这是大数据目前最广为人知的应用领域。很多企业热衷于社交媒体数据、浏览器日志、文本挖掘等各类数据集,通过大数据技术创建预测模型,从而更全面地了解客户以及他们的行为、喜好。
利用大数据,美国零售商Target公司甚至能推测出客户何时会有Baby;电信公司可以更好地预测客户流失;沃尔玛可以更准确的预测产品销售情况;汽车保险公司能更真实的了解客户实际驾驶情况。
滑雪场利用大数据来追踪和锁定客户。如果你是一名狂热的滑雪者,想象一下,你会收到最喜欢的度假胜地的邀请;或者收到定制化服务的短信提醒;或者告知你最合适的滑行线路。。。。。。同时提供互动平台(网站、手机APP)记录每天的数据——多少次滑坡,多少次翻越等等,在社交媒体上分享这些信息,与家人和朋友相互评比和竞争。
除此之外,政府竞选活动也引入了大数据分析技术。一些人认为,奥巴马在2012年总统大选中获胜,归功于他们团队的大数据分析能力更加出众。
2.了解和优化业务流程
大数据也越来越多地应用于优化业务流程,比如供应链或配送路径优化。通过定位和识别系统来跟踪货物或运输车辆,并根据实时交通路况数据优化运输路线。
人力资源业务流程也在使用大数据进行优化。Sociometric Solutions公司通过在员工工牌里植入传感器,检测其工作场所及社交活动——员工在哪些工作场所走动,与谁交谈,甚至交流时的语气如何。美国银行在使用中发现呼叫中心表现最好的员工——他们制定了小组轮流休息制度,平均业绩提高了23%。
如果在手机、钥匙、眼镜等随身物品上粘贴RFID标签,万一不小心丢失就能迅速定位它们。假想一下未来可能创造出贴在任何东西上的智能标签。它们能告诉你的不仅是物体在哪里,还可以反馈温度,湿度,运动状态等等。这将打开一个全新的大数据时代,“大数据”领域寻求共性的信息和模式,那么孕育其中的“小数据”着重关注单个产品。
3.提供个性化服务
大数据不仅适用于公司和政府,也适用于我们每个人,比如从智能手表或智能手环等可穿戴设备采集的数据中获益。Jawbone的智能手环可以分析人们的卡路里消耗、活动量和睡眠质量等。Jawbone公司已经能够收集长达60年的睡眠数据,从中分析出一些独到的见解反馈给每个用户。从中受益的还有网络平台“寻找真爱”,大多数婚恋网站都使用大数据分析工具和算法为用户匹配最合适的对象。
4.改善医疗保健和公共卫生
大数据分析的能力可以在几分钟内解码整个DNA序列,有助于我们找到新的治疗方法,更好地理解和预测疾病模式。试想一下,当来自所有智能手表等可穿戴设备的数据,都可以应用于数百万人及其各种疾病时,未来的临床试验将不再局限于小样本,而是包括所有人!
苹果公司的一款健康APP ResearchKit有效将手机变成医学研究设备。通过收集用户的相关数据,可以追踪你一天走了多少步,或者提示你化疗后感觉如何,帕金森病进展如何等问题。研究人员希望这一过程变得更容易、更自动化,吸引更多的参与者,并提高数据的准确度。
大数据技术也开始用于监测早产儿和患病婴儿的身体状况。通过记录和分析每个婴儿的每一次心跳和呼吸模式,提前24小时预测出身体感染的症状,从而及早干预,拯救那些脆弱的随时可能生命危险的婴儿。
更重要的是,大数据分析有助于我们监测和预测流行性或传染性疾病的暴发时期,可以将医疗记录的数据与有些社交媒体的数据结合起来分析。比如,谷歌基于搜索流量预测流感爆发,尽管该预测模型在2014年并未奏效——因为你搜索“流感症状”并不意味着真正生病了,但是这种大数据分析的影响力越来越为人所知。
5.提高体育运动技能
如今大多数顶尖的体育赛事都采用了大数据分析技术。用于网球比赛的IBM SlamTracker工具,通过视频分析跟踪足球落点或者棒球比赛中每个球员的表现。许多优秀的运动队也在训练之外跟踪运动员的营养和睡眠情况。NFL开发了专门的应用平台,帮助所有球队根据球场上的草地状况、天气状况、以及学习期间球员的个人表现做出最佳决策,以减少球员不必要的受伤。
还有一件非常酷的事情是智能瑜伽垫:嵌入在瑜伽垫中的传感器能对你的姿势进行反馈,为你的练习打分,甚至指导你在家如何练习。
6.提升科学研究
大数据带来的无限可能性正在改变科学研究。欧洲核子研究中心(CERN)在全球遍布了150个数据中心,有65,000个处理器,能同时分析30pb的数据量,这样的计算能力影响着很多领域的科学研究。比如政府需要的人口普查数据、自然灾害数据等,变的更容易获取和分析,从而为我们的健康和社会发展创造更多的价值。
7.提升机械设备性能
大数据使机械设备更加智能化、自动化。例如,丰田普锐斯配备了摄像头、全球定位系统以及强大的计算机和传感器,在无人干预的条件下实现自动驾驶。Xcel Energy在科罗拉多州启动了“智能电网”的首批测试,在用户家中安装智能电表,然后登录网站就可实时查看用电情况。“智能电网”还能够预测使用情况,以便电力公司为未来的基础设施需求进行规划,并防止出现电力耗尽的情况。在爱尔兰,杂货连锁店Tescos的仓库员工佩戴专用臂带,追踪货架上的商品分配,甚至预测一项任务的完成时间。
8.强化安全和执法能力
大数据在改善安全和执法方面得到了广泛应用。美国国家安全局(NSA)利用大数据技术,检测和防止网络攻击(挫败恐怖分子的阴谋)。警察运用大数据来抓捕罪犯,预测犯罪活动。信用卡公司使用大数据来检测欺诈交易等等。
2014年2月,芝加哥警察局对大数据生成的“名单”——有可能犯罪的人员,进行通告和探访,目的是提前预防犯罪。
9.改善城市和国家建设
大数据被用于改善我们城市和国家的方方面面。目前很多大城市致力于构建智慧交通。车辆、行人、道路基础设施、公共服务场所都被整合在智慧交通网络中,以提升资源运用的效率,优化城市管理和服务。
加州长滩市正在使用智能水表实时检测非法用水,帮助一些房主减少80%的用水量。洛杉矶利用磁性道路传感器和交通摄像头的数据来控制交通灯信号,从而优化城市的交通流量。据统计目前已经控制了全市4500个交通灯,将交通拥堵状况减少了约16%。
10.金融交易
大数据在金融交易领域应用也比较广泛。大多数股票交易都是通过一定的算法模型进行决策的,如今这些算法的输入会考虑来自社交媒体、新闻网络的数据,以便更全面的做出买卖决策。同时根据客户的需求和愿望,这些算法模型也会随着市场的变化而变化。
H. 大数据主要应用于哪些行业
大数据逐渐渗透我们的日常生活与每个角落,让生活更加便利。大数据可以说是无处不在,大数据应用于各个行业,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹,下面就为大家详细介绍一下大数据主要应用于哪些行业。
01
制造业:利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺。
02
金融行业:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
03
汽车行业:利用大数据和物联网技术的无人驾驶汽车,未来会逐渐步入市场。
04
互联网行业:借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放,给客户提供方便快捷的通道。
05
餐饮行业:利用大数据打破老式的餐饮经营模式,彻底改变传统餐饮经营方式。
06
电信行业:利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施,掌握客户需求。
07
能源行业:随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。
08
物流行业:利用大数据优化物流网络,提高物流效率,降低物流成本,提高工作效率。
09
城市管理:可以利用大数据实现智能交通、环保监测、城市规划和智能防护。
10
个人生活:大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活习惯,为我们提供更加全面的服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。
最近整理了一套适合2019年学习的Java\大数据资料,从基础的Java、大数据面向对象到进阶的框架知识都有整理哦,可以来我的主页免费领取哦。
I. 大数据分析 哪些工具经常会用到
一、hadoop
是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
二、HPCC
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。
三、Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、 Admaster等等。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测 试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
四、Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel。该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。
通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
五、RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
六、 Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
Pentaho BI 平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE 服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。