大数据产业的快速发展和Hadoop的贡献密不可分,可以说二者相生相伴,互相成就。Hadoop诞生于2006年,从1.0、2.0 一直走到今天的3.0时代,它扮演着数字时代新型生产工具的角色,也见证了企业唤醒沉寂数据价值的不凡征程。
如今,迈入云﹢AI时代,各行各业的数据量呈现爆炸式增长,华为《全球产业展望(GIV)》预测,全球数据量将从2018年的32.5ZB快速增长到2025年的180ZB。面对汹涌而来的海量数据存储和分析需求,大数据如何进一步支撑数据挖掘和变现,成为各行各业面临的新挑战。
如何提升效率成为新时代大数据平台演进必须思考的问题
以运营商为例,作为数据管道的提供者,积累了大量的用户数据,也顺理成章地成为大数据应用的先行者,通过多年的不断探索,构建了行业内领先的大数据系统,包括经营分析、网优网规、详单、日志等。
因各种历史和技术原因,大数据平台均为垂直建设,不同平台间的数据难以共享,形成了一系列的数据孤岛。随着业务的发展,运营商数据来源、类型越来越多样化,对大数据平台进行整合,实现多源数据融合、全量分析的诉求越来越强烈,传统的建设模式变得捉襟见肘。造成这种现状的一个主要原因就是计算和存储是一体的,无法支撑云化资源池方式的部署。
具体到单一大数据平台,以典型的日志历史库场景为例,为了更好地满足历史数据查询需求,数据保留周期不断延长,但日志的查询总量几乎没有增加。如果还是按照当前的方式建设和扩容,存储设备将增加X倍,但同时意味着更多的计算资源将被闲置。这显然与运营商降本增效的目标背道而驰。数据量在成倍增加的同时,意味着存储Capex和Opex的成倍增加,在日志数据价值未明显提升的情况下,这无疑会给运营商带来新的成本压力。
仔细分析不难看出,这些问题都是源于当前Hadoop存算一体的架构:
· 各大数据厂商有自己的HDFS,与计算是紧耦合关系,也就是说大数据平台组件仅能对接自家的组件,并且还要部署在一个节点,导致了架构的封闭。
· 存算一体的另外一个问题,是计算、存储需要同步扩容,而大多数的大数据业务,计算和存储的配置是难以预估的,资源需求不均衡,导致大量的计算或存储资源闲置。
· 还有一个限制,不是存算一体架构直接带来的,而是开源HDFS的技术限制:当前的开源HDFS主要还是用三副本储存数据,导致磁盘的利用率在33%以下,利用率亟待提升。
将存储从计算中解耦出来,各自独立建设和扩展,成为业界呼声最高的声音。基于存算分离的架构,建设融合的大数据资源池,支撑多类型数据和平台,并利用更高效的算法,提升磁盘利用率,成为大数据新的建设热点。
OceanStor大数据存算分离方案应运而生
华为是大数据坚定的推动者和践行者,在Hadoop社区的贡献排名居全球第三,IT厂商排名第一;FusionInsight大数据产品连续多年稳居IDC MarketScape中国大数据管理平台厂商领导者象限第一位。在新的产业趋势下,华为推出了基于OceanStor分布式存储的大数据存算分离方案,引领云和AI时代的大数据创新。
华为大数据存算分离方案,核心和基础是2019年发布的新一代智能分布式存储OceanStor(原FusionStorage)。方案中,以OceanStor分布式存储替换Hadoop中的本地HDFS存储,计算节点和存储节点分别组成独立的资源池,如左图所示。
从四个维度解读存算分离如何提升效率。
计算不足扩计算,存储不足扩存储。
使用存算分离架构后,首先获得的收益就是存储和计算资源的独立扩展,计算不足扩计算,存储不足扩存储。以前面提到的日志历史库场景为例,假设初始计算存储融合方案需要200台一体化服务器,存算分离方案需要80个计算节点﹢34个存储节点(基于EC技术可获得更高的利用率)。存储周期延长2倍,计算存储融合方案需要扩容400台一体化服务器,存算分离方案仅需要扩容68个存储节点,机柜空间占用可节省50%以上,功耗可节省30%以上。
云化资源池,提升资源利用率和数据共享效率。
传统大数据平台,由于建设孤岛,集群计算利用率参差不齐,整体资源利用率偏低;同一份数据被多个大数据集群使用时,需要经过多次拷贝,数据共享效率低。
基于OceanStor大数据存储的存算分离方案,能够将计算资源和存储资源分别云化,以服务化的方式为不同应用提供计算和存储资源,这就使得计算和存储资源都能够得到有效利用。一套大数据存储支持多种应用,不同应用访问同一份数据时,无需数据拷贝,整体分析效率可提升30%以上。
弹性EC算法,存储利用率大幅提升。
仅仅是存储和计算分离,能够带来灵活扩展和数据共享的优势,但要说到降低TCO,还要凭借OceanStor大数据存储的弹性EC能力。
传统HDFS存储多使用三副本方式进行数据保护,存储利用率仅为33%。虽然最新的HDFS引入了EC技术将利用率提升至66%,但由于性能不佳,当前仅能应用到冷存储中。
OceanStor分布式存储采用了EC算法进行数据保护,存储利用率可达91%,相比三副本方式提升了1.75倍,并且提供更多企业级特性,如热温冷自动分级的能力。
原生HDFS接口,无需插件,100%兼容主流大数据平台。
OceanStor分布式存储对外可提供原生HDFS接口,100%兼容FusionInsight、Cloudra、HortonWorks、星环等主流大数据平台,无需在计算侧安装任何插件,无需上层应用修改任何代码即可使用,甚至还可以在现网Hadoop计算融合一体方案的基础上直接扩容,让用户无需数据迁移、无需中断业务即可享受计算存储分离方案带来的诸多收益。
某运营商经分大数据,原始采用计算存储融合方式构建,面临扩容问题,如仍采用计算存储融合方式扩容,机房空间无法满足容量要求。经过多轮详细论证,用户采用了华为大数据存算分离的创新方案,弹性EC替换本地HDFS三副本,可用容量提升了60%。基于ViewFS,OceanStor分布式存储和本地HDFS实现了新老共存,数据均衡读写,无需升级现网大数据版本或迁移现网数据。
云﹢AI的智能时代,大数据计算与存储分离已成为大势所趋,OceanStor分布式存储通过弹性EC、原生HDFS、分级等专业存储能力,构建存算分离的云化存储池,助力客户更好地解决大数据效率问题,应对数据的爆炸式增长。