数据湖的存储特性是什么?

提问者:帅平 问题分类:大数据
数据湖的存储特性是什么?
1 个回答
箫声断ツ何处莫凭栏
箫声断ツ何处莫凭栏
数据湖的存储特性是:
持久性:底层存储硬件要确保不会损坏,可以根据数据所需保留时间长期保存数据,并且需要有损坏后的数据恢复措施。 
可用性:存储服务应该不间断的为数据消费者提供可用服务,查询数据,即使存储服务宕机,也要有相应的备份措施,提供数据。 
可扩展性:存储服务应该易于扩展,并且能够根据数据增长需求进行扩展,而无需任何手动干预。 
成本优化:应该提供高性能和相对低性能的不同价格的存储层,冷热数据按需存储在不同的存储层中,以达到成本与性能之间的平衡。 
安全:存储层最重要的特征之一是提供内置安全性,它应该提供保护存储层内静态数据的功能。数据湖的存储层主要包括大数据生态的 HDFS 文件系统、主流的云原生对象存储。数据湖物理存储需要具备同时支持 HDFS 生态和云原生的生态。

大多数云厂商的云存储(S3, OSS等)都提供上边的特性,所以在实践 Lakehouse 架构时首选云对象存储,而不是 HDFS。
发布于:3个月前 (06-17) IP属地:四川省
我来回答