万博manbext网页版登录「中国」官方网站入口-万博manbext网页版登录「中国」官方网站入口不错通过调和接口进行访谒-万博manbext网页版登录「中国」官方网站入口
你的位置:万博manbext网页版登录「中国」官方网站入口 > 新闻中心 > 万博manbext网页版登录「中国」官方网站入口不错通过调和接口进行访谒-万博manbext网页版登录「中国」官方网站入口
万博manbext网页版登录「中国」官方网站入口不错通过调和接口进行访谒-万博manbext网页版登录「中国」官方网站入口
发布日期:2026-05-16 21:03    点击次数:138

万博manbext网页版登录「中国」官方网站入口不错通过调和接口进行访谒-万博manbext网页版登录「中国」官方网站入口

今天是大数据专题的终末一篇万博manbext网页版登录「中国」官方网站入口,来讲讲数据湖仓。

█ 为什么会有“数据湖仓”?

前边咱们提到,数据仓库出现于 1990 年代,主要基于 MPP(Massively Parallel Processing,大规模并行处理)或者斟酌型数据库达成,用于企业作念数据存储、处理和分析,发展数据看板、BI(生意智能)等用途。

而数据湖,出现于 2010 年代,主要基于大数据技能(Hadoop 等)生态,用于扶植各种化的数据存储,及时性更强,相宜满足批处理、流式想象等业务场景。

数据仓库的特色是,先作念数据处理,搞得范例整都之后,存起来。用的时候就径直用。它主要存的是结构化(行列)数据。

数据湖的特色是,什么数据(结构化、非结构化、半结构化)都能存,不作念预处理,先一起都存起来,等要用的时候,再处理。

两种技能,各有优舛错:

从资本的角度来看,数据湖的起步资本很低,但跟着数据体量的增大,资本会连忙飙升。而数据仓库正巧相悖,前期诞生开支很大,后期资本增多趋缓。

数据仓库和数据湖,都是基于数据进行价值挖掘,仅仅侧要点不同。对于企业来说,两者都有价值,是以,会遴荐同期诞生。

很明显,这不仅导致了腾贵的诞生投资资本,也使得数据存在冗余和重迭。

基于以上种种原因,业界就开动想考:是不是不错将数据仓库和数据湖进行勾搭,充分阐明两者的上风,弥补各自的颓势呢?

于是,就有一些管事商,开动接头如何将两者的才气进行“买通”。

主要想路包括两种:一种是让数据仓库支捏对数据湖的访谒。还有一种,是让数据湖具备数据仓库的一些才气。

前者相比有代表性的,是 2017 年 Redshift 推出的 Redshift Spectrum。它支捏 Redsift 数据仓库用户访谒 AWS S3 数据湖的数据。

后者有代表性的相比多,包括 2017 年 Hortonworks 孵化出的 Apache Atlas 和 Ranger 神色,2018 年 Nexflix 开源的里面增强版块元数据管事系统 Iceberg。2018-2019 年,Uber 和 Databricks 接踵推出了 Apache Hudi 和 DeltaLake,推出增量文献形状,用以支捏 Update / Insert、事务等数据仓库功能。

通盘这些尝试和勇猛,都多若干少存在一些颓势(数据仓库和数据湖存在骨子的区别,整合难度很大),并不算得胜。

2020 年,数据智能独角兽企业 Databricks(没错,便是提倡 Delta Lake 的阿谁公司,数据湖的代表企业)崇拜提倡了数据湖仓(Data Lakehouse)主意。

Databricks 连系创举东谈主兼首席推论官阿里・戈德西(Ali Ghodsi)默示:

“从永远来看,所特等据仓库都将被纳入数据湖仓,这不会在今夜之间发生 —— 这些东西会共存一段时间 —— 在价钱和性能上,数据湖仓完胜数据仓库。”

数据湖仓,也被称为湖仓一体。

2021 年,“湖仓一体”初度被写入 Gartner 数据照顾领域熟习度说明注解。2023 年 6 月,大数据技能圭臬鼓励委员会发布了《湖仓一体技能与产业接头说明注解(2023 年)》。这一年的 6 月 26 日,“湖仓一体”在中国大数据产业发展大会上得胜入选“2023 大数据十大症结词”。

█ 数据湖仓的主要特色

数据湖仓(湖仓一体),说白了,便是一种将数据仓库和数据湖买通的新式通达式架构。它既具备数据湖的天真性,也具备数据仓库的高性能及照顾才气,为企业进行数据治理带来了更大的便利和更高的后果。

在数据湖仓的底层,支捏多种数据类型并存,能达成数据间的互相分享。

在数据湖仓的表层,不错通过调和接口进行访谒,可同期支捏及时查询和分析。

数据仓库和数据湖这两套体系互相买通之后,数据不错在两者之间开脱流动。

也便是说,数据湖里的“崭新”数据(热数据),不错流到数据仓库里,径直被数据仓库使用。

而数据仓库里的“不崭新”数据(冷数据),也不错流到数据湖里,低资本长久保存,供过去使用。

数据湖仓的特色,其实便是数据仓库的优点 + 数据湖的优点。

在数据存储方面,接受了数据湖的上风,支捏各种化数据,且以 HDFS 或云对象存储为基础,达成了低资本、高可用。数据以原始形状或通达文献形状(如 Parquet、ORC)存储,具备高效的压缩比与列存储性格,便捷查找。

通达文献形状,也保险了数据在不同想象引擎间的通用性。

数据湖仓相同支捏 Iceberg、Hudi、Delta Lake 等通达表形状。它们不仅支捏数据的近及时更新、高效的快照照顾,还兼容 SQL 圭臬,使得数据既不错像传统数据库表一样进行事务性操作,又能充分哄骗数据湖的散播式存储与弹性想象上风。

在想象引擎方面(摄取存算分离架构),整合了 Spark、Flink、Presto、Doris 等各种的想象引擎。通过调和的转机与资源照顾,不同引擎不错分享存储资源,协同处理复杂的数据职责流,满足企业从及时监控到深度分析的全方针想象需求。

阿里云数据湖仓架构(来自阿里云官网)

在数据一致性方面,提供 ACID(原子性、一致性、阻滞性、捏久性)保证,确保数据写入的一致性,保证了多方同期读取或写入数据时的数据准确性。

在数据照顾方面,数据湖仓达成了调和的元数据照顾,支捏全链路血统,提供调和的定名空间、全局的数据目次。不论数据存储在哪里,使用何种想象引擎,用户都能通过调和的 API 进行快速检索、认识与访谒数据。数据治理,变得相等高效。

在数据安全方面,数据湖仓一般还支捏多田户和库表列级数据权限,或者很好地进行田户阻滞和数据权限管控,确保了数据的安全性和隐秘性。

虽然了,数据湖仓也不是莫得舛错。

动作一项会通的技能架构,它的复杂性相比高,需要很高的技能门槛。况且,它的早期投资相比大,对企业来说有一定的资本压力。

数据湖仓的性能优化、数据治理以及安全提神,也存在一定的挑战。这些门槛和挑战,频频会让企业用户躲闪而视。

█ 数据湖仓的参考架构

数据湖仓出身于今的时间并不是很长。从最开动的仓和湖孤苦诞生,到自后,逐渐酿成了“湖上建仓”与“仓外挂湖”两种践诺旅途。

湖上建仓,是指基于数据湖架构,或者以数据湖动作数据存储中间层,达成多源异构数据的调和存储。然后,以调和调用接口样式调用想象引擎,最终达成高下结构的湖仓一体架构。

仓外挂湖,是指以 MPP 数据库为基础,使用可插拔架构,通过通达接口对接外部存储,达成调和存储。

跟着时间的推移,也有企业开动推出两种架构的深入会通。

当今,在数据湖仓领域相比有代表性的管事商,包括国外的 AWS(亚马逊云科技)、微软 Azure 、Databricks、Snowflake,以及国内的阿里云、腾讯云、华为云、星环科技等。

各大管事商的架构有较差的各异,但基本上都包括存储层、元数据照顾层、想象引擎层、管事与治理层等。

以下是几个相比有代表性的架构,供参考。

科杰的数据湖仓架构:

图片来自收罗图片来自收罗

Azure 的数据湖仓架构:

图片来自收罗图片来自收罗

AWS 的数据湖仓(他们叫智能湖仓)架构:

图片来自“特大号”图片来自“特大号”

基于 Apache Doris 的湖仓一体架构:

图片来自收罗图片来自收罗

█ 终末的话

当今来看,数据湖仓正在加快成为企业蹙迫的政策性基础范例,用于恒久的数据价值挖掘,以及发展 AI 应用。

字据毕马威的说明注解深刻,86% 的国外企业谈判调和其分析数据,以支捏 AI 业务的开辟。国内亦然如斯。举例腾讯、B站、小红书等头部互联网企业,都摄取了数据湖仓架构,用于不同进度的 AI 应用。

数据湖仓在及时流处理与机器学习方面发扬出色,或者很好地满足大模子的考试需求,深信过去几年会获得更好的发展。

好啦,以上便是对于数据湖仓的先容。鲜枣课堂大数据专题系列到此末端。感谢群众的耐性不雅看!

参考文献:

1、《数据库、数据湖、数据仓库、湖仓一体、智能湖仓,永诀都是什么鬼》,特大号;

2、《从数据湖到湖仓一体:调和数据架构演进之路》,Light Gao,知乎;

3、《数据仓库、数据湖、湖仓一体,究竟有什么区别?》,SelectDB,知乎;

4、《什么是湖仓一体?湖仓一体治理了什么问题?》,帆软;

5、《2024 大数据“打假”:什么才是真湖仓一体?》,张友东;大数据在线;

6、《大数据架构系列:如何认识湖仓一体?》,叶强劲,腾讯云开辟者社区;

7、百度百科,维基百科,各大管事商官网。

本文来自微信公众号:鲜枣课堂(ID:xzclasscom)万博manbext网页版登录「中国」官方网站入口,作家:小枣君

告白声明:文内含有的对外跳转一语气(包括不限于超一语气、二维码、口令等形状),用于传递更多信息,检朴甄选时间,律例仅供参考,IT之家通盘著作均包含本声明。

]article_adlist-->   声明:新浪网独家稿件,未经授权破裂转载。 -->

相关资讯