数据湖的一体化设计表现在哪些方面?

提问者:帅平 问题分类:大数据
数据湖的一体化设计表现在哪些方面?
5 个回答
ε小仙女з
ε小仙女з
数据处理代码的流批一体化
指数据处理的代码可以同时适用于流式和批量的方式执行。这样可以降低开发成本,同时保证流批的任务代码逻辑一致性。在流批一体架构中,全链路支持批量和实时 ETL 计算。在数据仓库的各分层中,企业可以采用批量计算来保证小时级和天级的处理能力,同时利用实时计算来保证分钟级的数据处理能力。通过数据的统一处理,企业可以实现分钟级的数据可见性,并确保数据的一致性,避免批处理和流处理数据结果的不一致性。
发布于:3个月前 (06-17) IP属地:四川省
一闪一闪亮晶晶べ
一闪一闪亮晶晶べ
计算形态的统一
用增量计算模式统一流、批和交互三种计算形态(增量物化视图)。
发布于:3个月前 (06-17) IP属地:四川省
冷言冷语冷眼相对
冷言冷语冷眼相对
计算引擎的流批一体
指流式计算和批量计算可以由同一个计算引擎完成。例如,Apache Flink 和 Apache Spark 都支持流批一体的数据处理。这种方式可以降低架构复杂度,降低开发者的使用门槛。
发布于:3个月前 (06-17) IP属地:四川省
ε小可爱з
ε小可爱з
数据存储的流批一体
同一份数据既支持流式读取也支持批量读取。物理上数据存储是一份。这种存储模式确保了数据的一致性,并减少了数据冗余。使用通用增量存储的统一存储形态。在湖仓存储架构的基础上增加了通用增量存储,使得在湖仓之上能够做增量的表达,该存储需要做到以下三点:
实现大通用的存储,是可以适应面向写入Throughput和查询高性能的两个维度进行优化。
数据存储支撑多种更新模型(Copy-on-write 、 Merge-on-read、 Merge-on-write多种模式),通过 Compaction 达到效率和成本的平衡。
实现数据的开放性,最终把数据的表达变成标准化的开源Iceberg/paimon存储格式,使得其它的引擎或者平台可以很方便地对接起来。
发布于:3个月前 (06-17) IP属地:四川省
剪段光缓缓流淌
剪段光缓缓流淌
一体化的架构
一套技术架构产品来支持多种业务场景,需要满足以下:一体化架构、存算分离、事务和数据一致性、全数据类型,灵活统一元数据管理,提供serverless态服务、持按需付费...
发布于:3个月前 (06-17) IP属地:四川省
我来回答