业界动态
关于数据仓库、数据湖、数据平台和数据中台的概念和区别
2024-10-31 15:47

数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。

关于数据仓库、数据湖、数据平台和数据中台的概念和区别

数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识,并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。

数据仓库的作用主要体现在企业决策、分析、计划和响应以下几个方面

数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务在预警预测等方面应用有一定的限制。

数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。下面的定义是维基百科所给出的“数据湖”定义。

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。

数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。

数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON,非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。

关于数据湖的示意图

数据湖能够帮助企业实现数据的集中式管理等多种能力;数据湖融合了先进的数据科学、机器学习和人工智能技术,帮助企业构建更加优化的数据运营模型,为企业提供预测分析、推荐模型等能力,这些模型能够刺激企业能力的持续增长,不断赋能于企业增长。

数据湖能从以下方面帮助到企业

  • 实现数据治理

  • 通过应用机器学习与人工智能技术实现商业智能

  • 预测分析和模型推荐,例如:领域特定的推荐引擎

  • 信息追踪与一致性保障

  • 基于历史数据分析生成新的数据维度,挖掘数据深度价值

  • 提供集中式存储的企业数据中心,并提供基于数据传输优化的数据服务

  • 协助企业实现灵活的增长决策。

数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。

数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。

大数据时代,数据平台一般被称之为大数据平台。狭义上的大数据平台和传统数据平台的功能一致,只是技术架构和数据容量方面的不同,但广义的大数据平台通常被赋予更多的使命,它不仅存储多样化的数据类型,还具有报表分析等数据仓库的功能,以及其他数据分析挖掘方面的高级功能。

网易数据中台架构图:

阿里数据中台逻辑架构图:

数据中台通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。

数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。

  • 解耦:数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据之间的解藕,这样企业就可以不受限制地按需构建满足业务需求的数据应用。数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用。

  • 打破数据边界:构建了开放、灵活、可扩展的企业级统一数据管理和分析平台, 将企业内、外部数据随需关联,打破了数据的系统界限。

  • 数据共享:利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部门之间的数据分析应用需求。

  • 助力数据化产品:深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。

相较而言,数据湖是较新的技术,拥有不断演变的架构。数据湖存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。

根据定义,数据湖不会接受数据治理,但专家们一致认为良好的数据管理对预防数据湖转变为数据沼泽不可或缺。

数据湖在数据读取期间创建模式,与数据仓库相比,数据湖缺乏结构性,而且更灵活,并且提供了更高的敏捷性。值得一提的是,数据湖非常适合使用机器学习和深度学习来执行各种任务,比如数据挖掘和数据分析,以及提取非结构化数据等。

 数据仓库数据湖类型主要处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合。能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。目的处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。适合于深度分析,拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用。特点高性能、可重复性、持续使用便于探索、创新、灵活性高

由于数据仓库具有历史性的特性,其中存储的数据大多是结构化数据;而数据平台的出现解决了数据仓库不能处理非结构化数据和报表开发周期长的问题。

 数据仓库数据平台数据类型结构化数据所有类型的数据,包括结构化数据,非结构化数据,半结构化数据等服务方式为业务提供分析报表为业务提供数据集

通过以上的论述,我们发现数据平台和数据湖好像存在诸多相似性,这二者之间的区别

从个人角度理解上分析应该是数据加工的角度不同,数据湖更着重于对原始数据的存储,而数据平台则同数据仓库一样,需对原始数据进行清洗、转换等数据处理后按照统一的标准规范进行存储。

数据仓库和传统的数据平台,其出发点为一个支撑性的技术系统,即一定要先考虑我具有什么数据,然后我才能干什么,因此特别强调数据质量和元数据管理;而数据中台的第一出发点不是数据而是业务,一开始不用看你系统里面有什么数据,而是去解决你的业务问题需要什么样的数据服务。

 数据仓库数据中台建设思想以数据为驱动,自下而上设计以业务为驱动,自上而下设计服务方式提供数据集或者分析报表提供数据API服务业务距离用于支持管理决策分析,距离业务远,无法直接体现业务价值加速企业从数据到业务价值的转变过程,能够在一定程度上体现业务价值应用场景分析型场景,如决策分析分析型、交易型场景处理结构ETL结构ELT结构

在具体的技术处理环节,二者也有明显不同,数据的预处理流程正在从传统的ETL结构向ELT结构转变。传统的数据仓库集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据中台中抽取想要的原始数据进行建模分析。

根据以上数据平台、数据仓库、数据湖和数据中台的概念论述和对比,我们进行如下总结

  • 数据中台、数据仓库和数据湖没有直接的关系

  • 数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重

  • 数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API

  • 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集

  • 数据中台距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务

  • 数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

    以上就是本篇文章【关于数据仓库、数据湖、数据平台和数据中台的概念和区别】的全部内容了,欢迎阅览 ! 文章地址:http://syank.xrbh.cn/news/3211.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://kaire.xrbh.cn/ , 查看更多   
最新新闻
小红书卖什么东西比较火爆一点?
在小红书平台上,多种类型的产品因其独特的魅力和市场需求而备受追捧,形成了火爆的销售局面。以下是一些在小红书上卖得比较火爆
2024年Go最全数据分析工具 Top 8(1),阿里+头条+抖音+百度+蚂蚁+京东面经
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到
seo推广是什么意思呢_seo推广是什么意思呢怎么做
本文目录导读:SEO 推广的定义SEO 推广的重要性SEO 推广的方法SEO 推广的注意事项在当今数字化的时代,网站的存在对于企业、个人
上榜了!潍坊市博物馆冲上全国博物馆热搜榜!
近日,由中国文物交流中心指导,博物馆头条和文博头条统计发布的中博热搜榜发布2021年第四季度全国热搜博物馆百强榜单,百余家受
我靠抖音,两星期赚了8000块:你看不起的行业,未来十年很赚钱!
阿里巴巴创始人马云:“下一个暴利风口来了,将造就大批富翁,抓住就能致富!有没有发现,总有那么一群人,他们眼光毒辣,嗅觉敏
什么叫店铺动销率?如何查看?
我们在淘宝网店,最希望的就是本人的产品都能销售进来,这里面就触及到一个数字,就是店铺的动销率,那么什么是叫做店铺的动销率
java stream 防内存溢出 java poi内存溢出
1、idea报java.lang.OutOfMemoryError: Java heap space怎么解决?2、java.lang.OutOfMemoryError: GC overhead limit exceeded
抖音飞鸽如何邀请用户入会以及管理会员?
抖音小店客服如何识别会员身份信息,为会员提供更好的服务?当前咨询消费者还不是会员,如何邀请对方加入会员?针对已开通会员通
数据图表与分析图_堆积图表界的翘楚!河流图如何搞定“巨量”数据
继旭日图、漏斗图、饼图之后,我们又迎来一个 “象形”图表——河流图。虽然河流图是从堆积面积图演变而来,读图的
如何查询网站是否被索引擎收录?怎么提高网站的收录量?
搜索引擎收录是指程序通过辨别把网站内容进行收录,同时会对这些内容进行价值以及其他方面的辨别。我们想要知道网站有没有被搜索
本企业新闻
推荐企业新闻

点击拨打: