学习理财博客空间

理财鱼

您现在的位置是:理财鱼 > 原创专题 >

原创专题

九卦| 新型大数据解决方案,数据湖如何建设?

发布时间:2021-12-23 20:53原创专题 评论

 九卦| 新型大数据解决方案,数据湖如何建设?

随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便、数据种类更丰富,行为轨迹、语音视频等非结构化数据爆发式增长,数据规模进一步扩大。在新形势下,传统的数据库、数据仓库等处理技术无法适应快速响应、实时分析的数据需求,难以处理日志、语音等非结构化数据,企业迫切需要一个新型大数据解决方案——“数据湖”应运而生。

一、数据湖的起源

如果把数据比作大自然中的水,数据湖就是汇聚源流的湖泊。

诞生之初,数据湖通常被定位为各类原始数据的集中存储库。在数据内容方面,既包括业务系统数据的原始副本,也包括用于报告、分析和机器学习等任务的加工后数据;在数据格式方面,既包括来自关系数据库的结构化数据,也包括半结构化数据(XML、JSON)、非结构化数据(图像、音视频、文档)等。

随着技术的不断发展和应用的不断深入,人们逐渐发现数据湖仅存储不管理会带来一系列问题。湖内各类数据又多又杂难以使用,最终会退化为“数据沼泽”,存储其中的数据也失去价值。因此,数据湖必须精细管控、有序开放,不仅要支持海量异构数据的集中存储,还要能支持海量数据的分析处理,实现存得下、管得好、用得上。数据湖优势如图1所示。

 九卦| 新型大数据解决方案,数据湖如何建设?

特点

数据湖优势

时至今日,数据湖已经发展为涵盖大数据存算、治理、安全、应用的平台级一揽子解决方案,通常具备多源异构数据的采集能力、强大的数据存储和计算能力、完善的数据管理与服务能力,可以满足新形势下灵活多样的数据需求。

二、数据湖的关键技术

为实现海量多源异构数据集中存储,提升存储计算资源集约化管理水平,支持存储计算能力快速交付,数据湖需要包括多种技术能力,总结归纳现有企业和开源数据湖的实践情况,数据湖的关键技术主要包括:

1.异构存储引擎

数据湖需要容纳海量各种类型的数据,单一存储引擎很难满足所有的要求。分布式文件存储HDFS虽然在结构化数据存储领域表现优异,但是由于扩容和元数据管理困难,面对海量小文件的半结构化和非结构化数据的存储和处理需求难以满足。HDFS存储原理如图2所示。

 九卦| 新型大数据解决方案,数据湖如何建设?

图2 HDFS存储原理

而对象存储可以满足企业对非结构化数据的存储需求,扁平化的数据结构允许存储容量从传统的SAN、NAS的TB级扩展到PB甚至EB级,同时管理数十到百亿个存储对象。

 九卦| 新型大数据解决方案,数据湖如何建设?

图3 对象存储原理

因此目前应用最广泛的数据湖存储引擎是将分布式文件存储与对象存储结合使用,综合数据格式特点和生命周期规划存储区域,低成本、易维护地实现海量数据的集中存储。

2.统一存储视图

为了适应数据量的爆炸式增长和数据类型的不断丰富,数据湖存储底座通常由多种存储引擎构成。当存储引擎发生变化或数据在不同存储引擎之间流动时,应用程序开发人员往往需要开发多种数据访问方式并随之频繁调整,面临着巨大的挑战。

因此,为了便于应用程序访问数据,数据湖使用数据编排技术搭建上层计算框架和底层存储引擎的桥梁。例如加州大学伯克利分校开源的Alluxio项目,为不同存储引擎中的数据构建统一存储视图,向上层应用程序提供通用的客户端api和全局命名空间;同时,它还具备缓存功能,支持热数据的快速访问。这类技术使得开发人员只需将重点放在数据应用逻辑上,而不需要关注数据保存在数据湖何处或存储的特性如何。Alluxio工作流程如图4所示。

 九卦| 新型大数据解决方案,数据湖如何建设?

图4 Alluxio工作流程

3.增强存储管理

数据湖存储了海量原始数据文件,一方面数据定义规范的缺失会导致使用成本大幅增加;另一方面HDFS和对象存储对于数据的快速更新,都没有便捷的解决方案。以HDFS存储为例,HDFS文件一旦被写入就无法修改,只允许在文件尾继续追加数据,如果数据错误需要更新只能重新全量写一份,运维成本很高。因此,如何快速、一致地管理湖中存储的数据,成为亟待解决的问题。

Apache Iceberg、Apache Hudi、Delta Lake等项目将数据库事务能力引入大数据领域,重新定义数据和元数据的组织方式,在底层数据存储格式(如Parquet、ORC等)之上提供了一种更优的数据组织格式,进一步增强了数据湖的存储管理能力。这些新型数据组织格式支持索引、Schema预定义、ACID事务保证和小文件自动合并,能够便捷地实现湖内数据的快速更新、插入、删除和多版本管理。同时,一份数据可以同时拥有多种读取视图,能更好地支持对数据湖流批数据的使用需求。Apache Hudi工作流程如图5所示。

 九卦| 新型大数据解决方案,数据湖如何建设?

图5 Apache Hudi工作流程

4.元数据自动采集与血缘分析

数据湖的精细管理需要以元数据为核心。元数据是关于数据的数据,贯通从数据源到数据湖,记录了数据从产生到消费的全过程。元数据信息可以帮助数据湖开发人员和使用人员方便地查找并定位数据、理解和使用数据,是数据湖发挥价值的关键所在。

数据湖中的数据又多又杂,应尽量选用可以自动采集、智能分析的元数据工具。以开源的元数据工具Apache Atlas为例,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力,同时支持S3接口与对象存储交互。Apache Atlas包含一组可伸缩和可扩展的核心基础治理服务,能够方便地与各类大数据组件集成,自动监听并分析数据源变化情况,实时采集元数据基础信息和血缘管理,为数据湖提供统一高效的元数据采集和管理能力。Apache Atlas架构如图6所示。

 九卦| 新型大数据解决方案,数据湖如何建设?

图6 Apache Atlas架构

三、数据湖的优势

与传统的数据仓库相比,数据湖具备以下优势。数据湖与数据仓库、数据集市的对比见表1。

表1 数据湖与数据仓库、数据集市的对比

 九卦| 新型大数据解决方案,数据湖如何建设?

1.数据类型丰富

共2页: 上一页下一页

>相关《 九卦| 新型大数据解决方案,数据湖如何建设?》内容:


1、 商品期货历史数据下载:期货信息怎么收集?

纽约商品交易所的黄金期货买卖是由交易所营业时间内的公开叫价交易时段和交易所收市后的电子交易时段所组成。传统的公开叫价时间内的报价由于是由出市代表叫喊,人为的流程会令市场价格较为波动。在电子交易时段内,因为交易所是以自动配对的方式将市场内...【继续阅读】


2、 无锡数字经济研究院执行院长吴琦:乡村振兴要与新型城镇化有机结合

理财鱼小提示:无锡数字经济研究院执行院长吴琦:乡村振兴要与新型城镇化有机结合 上证报中国证券网讯(记者 陈雨康)中央农村工作会议强调,加大对乡村振兴重点帮扶县倾斜支持力度,抓紧完善和落实监测帮扶机制,加强产业和就业帮扶,确保不发生规模性返贫。要...【继续阅读】


3、 OYO宣布招聘2名工程和数据科学高级领导者

全球旅游技术平台 OYO 周三表示,将任命两名新的工程和数据科学高级领导人。 Nirdosh Chouhan 从 Apple 加盟,担任 OYO 的工程高级副总裁。Kranthi Mitra Adusumilli 之前在在线食品配送公司 Swiggy 工作,他将成为 OYO 的高级首席数据科学家。 Chouhan 将...【继续阅读】