现在的位置:主页 > 综合新闻 >

后 Hadoop 时代,大数据分析路在何方?

来源:大数据 【在线投稿】 栏目:综合新闻 时间:2021-06-10

【作者】:网站采编
【关键词】:
【摘要】:作者 | 史少锋 策划 | Tina 近期,Apache 软件基金会宣布归档了 13 个与大数据相关的项目,其中 10 个是属于 Hadoop 生态的项目,例如 Eagle、Sentry、Tajo 等。 Apache Hadoop 作为一个完整的开

作者 | 史少锋

策划 | Tina

近期,Apache 软件基金会宣布归档了 13 个与大数据相关的项目,其中 10 个是属于 Hadoop 生态的项目,例如 Eagle、Sentry、Tajo 等。

Apache Hadoop 作为一个完整的开源大数据套件,在过去的十多年里深刻影响了整个计算机界。但随着各类新兴技术的发展, Hadoop 生态圈已经发生了巨大的变化。Hadoop 已死吗?如果是真的话,那么谁会取代?大数据分析的未来又将走向何处?

本文整理自 Kyligence 首席架构师、Apache Kylin PMC Chair 史少锋在由七牛云主办的 2021 ECUG Con 上的主题演讲《大数据分析如何迎接后 Hadoop 时代》。

1

Hadoop 为大数据而生

过去二十年里,人类一直处在一个数据爆炸的时代。企业的传统业务数据如订单、仓储的增量相对平缓,在整体数据量中的占比逐渐减少;取而代之的是人类数据(例如社交媒体、照片、行为画像等数据)和机器数据(日志、IoT 设备等产生的数据)大量被采集和保存,它们的量级远远超过传统业务数据。在海量数据和人类既有能力之间,一直存在着巨大的技术缺口,这个缺口催生了各类大数据技术,从而诞生了我们所说的大数据时代。

根据业界普遍达成的共识,一个大数据系统需要满足 3 个方面的需求:

1) Volume:数据容量要大,这是大数据系统的首要特性。

2) Velocity:数据处理速度要快。

3) Variety:要能够处理多样的数据类型,包括结构化、半结构化、非结构化,甚至图片视频等等。

Hadoop 就是这样一个全功能的大数据处理平台,它包含了多种组件以满足不同的功能,例如 HDFS 做数据存储,Yarn 做资源管理,MapReduce 和 Spark 做数据计算和处理,Sqoop 做关系数据采集,Kafka 做实时数据管道,HBase 做在线数据存储和访问,Impala 做在线 Ad-hoc 查询等。Apache Kylin 也是 Hadoop 生态组件中的一员,借助于其它组件来完成计算和存储,自身专注于高性能 OLAP 分析,从而对 Hadoop 生态能力形成补充。Hadoop 诞生后很快就利用集群并行计算,打破了由超级计算机保持的排序记录,证明了自己的实力,进而逐渐被企业和各种组织广泛采纳。

2

Hadoop 这十年

借助「大数据」的东风以及 Apache 开源社区的影响力,Hadoop 快速普及,随之而来的是一票商业化公司涌现。此外,公有云厂商也在云上提供了托管的 Hadoop 服务。但到 2018 年,整个市场风云突变,一则重磅新闻让整个 Hadoop 生态圈炸锅了:Cloudera 和 Hortonworks 合并了,也就是说这个市场上的第一名和第二名抱团了;紧接着 HPE 宣布收购 MapR,这些迹象说明, 在 Hadoop 风光的表象之下,是企业经营困难,钱难赚了。

合并 Hortonworks 之后,Cloudera 又宣布,所有产品线全面收费,包括历史的开源版本也要付费后才能获取,开源的产品不再面向全部用户,而是仅仅针对付费用户。过去一直被大家免费使用的 HDP 发行版,也不再维护和提供下载了,未来都合并到统一的 CDP 平台了。

回看国内,华为也官宣了一个重大改变,将旗下 Hadoop 大数据平台产品 FusionInsight HD 与华为云上的 Hadoop 产品 MRS 进行合并,演变成 FusionInsight MRS 的云原生架构;坊间传言以后 FI 不再单独发行,要跟华为云一起售卖,不禁让人浮想联翩。作为多年 Hadoop 用户的你,相信此刻心情一定是五味杂陈的。

回看 Hadoop 的发展历史,它能兴起是因为用户对于大数据处理的旺盛需求。但在今天,用户对数据管理和分析有了新的需求,例如在线快速分析、存算分离或者 AI/ML 等面向人工智能与机器学习方面,Hadoop 的支持比较有限,无法和一些新兴的技术相比较,例如这几年很火的 Redis、Elastisearch、Clickhouse 等都可以做大数据分析。对于客户而言,如果用单一技术就能满足需求,那么就大可不必去部署复杂的 Hadoop 平台了。

从另一个角度来看,云计算在过去十多年快速发展壮大,不光干翻了传统企业软件厂商如 IBM、HP 等,也一定程度上蚕食了 Hadoop 所处的大数据处理和分析市场。早期,云厂商还只是在 IaaS 层提供了 Hadoop 的部署,例如 AWS EMR (它号称是全世界部署最多的 Hadoop 集群)。对于用户来说,云上托管的 Hadoop 服务可以随开随停,数据也可以放心地备份在云厂商的数据服务上,使用简单的同时也会节约资源和成本。此后,云厂商打造了更多面向特定场景的大数据服务,从而形成了一个完整的生态。例如 AWS 的 S3 实现数据的高持久低成本存储,Amazon DynamoDB 实现低延迟的 KV 数据存储和访问,以及无服务器的大数据查询服务 Athena 等。

文章来源:《大数据》 网址: http://www.dsjzz.cn/zonghexinwen/2021/0610/2434.html

上一篇:动漫行业如何利用大数据软件进行用户画像分析
下一篇:交通大数据②丨交通向西 每天59.1万辆车穿中梁山

大数据投稿 | 大数据编辑部| 大数据版面费 | 大数据论文发表 | 大数据最新目录
Copyright © 2018 《大数据》杂志社 版权所有
投稿电话: 投稿邮箱: