本文為您介紹數(shù)據(jù)分析的技術(shù)發(fā)展趨勢(shì)和市場趨勢(shì)。

技術(shù)發(fā)展趨勢(shì)

商業(yè)數(shù)據(jù)庫起步于二十世紀(jì)八十年代,主要代表為Oracle,SQL Server,DB2等結(jié)構(gòu)化數(shù)據(jù)在線處理的關(guān)系型數(shù)據(jù)庫,而以MySQL,PostgreSQL為代表的開源關(guān)系型數(shù)據(jù)庫也在二十世紀(jì)九十年代得到了發(fā)展。

近些年來,隨著業(yè)務(wù)數(shù)據(jù)量的增多,企業(yè)需要能夠?qū)?shù)據(jù)進(jìn)行分析,助力商業(yè)決策,更好地發(fā)揮數(shù)據(jù)價(jià)值,而傳統(tǒng)開源及商業(yè)關(guān)系型數(shù)據(jù)庫通常為單機(jī)版,在海量數(shù)據(jù)分析場景下擴(kuò)展能力有限,性能無法滿足需求。以Teradata,Oracle Exadata為代表的數(shù)倉技術(shù)陸續(xù)出現(xiàn),具備了較好的分布式橫向擴(kuò)展能力。

Teradata、Exadata都是以一體機(jī)形態(tài)輸出,對(duì)硬件有特定要求,整體價(jià)格昂貴,通常面向傳統(tǒng)金融,交通,能源等大企業(yè)。隨著Google等互聯(lián)網(wǎng)企業(yè)崛起,以Hadoop為代表的基于傳統(tǒng)x86服務(wù)器集群的大數(shù)據(jù)技術(shù)迅速發(fā)展,同時(shí)開源分布式數(shù)據(jù)庫如Greenplum等也成為相應(yīng)替代方案,為廣大中小企業(yè),尤其是互聯(lián)網(wǎng)行業(yè)大大降低了數(shù)據(jù)分析的技術(shù)和成本門檻,還有分布式技術(shù)也得到進(jìn)一步發(fā)展和普及。Hadoop也在早期的MapReduce接口基礎(chǔ)上增加了SQL接口,SQL語法逐漸成為大數(shù)據(jù)分析系統(tǒng)的標(biāo)準(zhǔn)配置。

隨著AWS,Azure,Alibaba,Google等云廠商的出現(xiàn),云原生分布式數(shù)據(jù)倉庫成為目前數(shù)據(jù)分析技術(shù)的主要解決方案,代表性云服務(wù)包括Amazon Redshift,Snowflake,Alibaba Cloud AnalyticDB,Google BigQuery等。這些云原生數(shù)據(jù)倉庫技術(shù)分別起源于數(shù)據(jù)庫和大數(shù)據(jù),提供標(biāo)準(zhǔn)SQL接口和ACID保證,底層存儲(chǔ)通過Share Everything或Share Nothing實(shí)現(xiàn)資源池化和橫向擴(kuò)展能力。資源隔離,數(shù)據(jù)共享是目前業(yè)務(wù)應(yīng)用對(duì)云原生數(shù)據(jù)倉庫的普遍需求。

技術(shù)趨勢(shì)

綜上所述,數(shù)據(jù)分析技術(shù)趨勢(shì)主要包括:

  • 云原生分布式:無論是OLTP還是OLAP,如今單機(jī)數(shù)據(jù)已無法滿足企業(yè)業(yè)務(wù)和數(shù)據(jù)快速增長的需求,分布式數(shù)據(jù)庫成為主流,同時(shí)數(shù)據(jù)庫市場未來主要在云上("Gartner: The Future of the DBMS Market Is Cloud"),云原生架構(gòu)與特性成為云數(shù)據(jù)庫的必要條件。
  • 存儲(chǔ)計(jì)算分離:云計(jì)算的本質(zhì)是資源高效池化,而數(shù)據(jù)庫的兩大核心組件是存儲(chǔ)和計(jì)算。通過存儲(chǔ)計(jì)算分離,做到兩者解耦,資源池化,獨(dú)立擴(kuò)展,滿足業(yè)務(wù)上資源隔離,數(shù)據(jù)共享的需求,是當(dāng)下的架構(gòu)趨勢(shì)。
  • 計(jì)算分析一體化:傳統(tǒng)數(shù)據(jù)分析方案是定期從OLTP系統(tǒng)抽取數(shù)據(jù)同步到OLAP系統(tǒng),有些可以做到準(zhǔn)實(shí)時(shí)同步。該方案帶來的問題是部署復(fù)雜,實(shí)時(shí)性低,數(shù)據(jù)冗余和高成本。理想情況是一套HTAP系統(tǒng)同時(shí)提供計(jì)算和分析。
  • 大數(shù)據(jù)與數(shù)據(jù)庫一體化:早期大數(shù)據(jù)技術(shù)以犧牲一定程度一致性為基礎(chǔ)提供分布式能力,解決了傳統(tǒng)單機(jī)數(shù)據(jù)庫的擴(kuò)展性不足問題,在MapReduce基礎(chǔ)上提供了標(biāo)準(zhǔn)SQL接口,架構(gòu)上也逐步采用了部分MPP數(shù)據(jù)庫技術(shù);另一方面,分布式數(shù)據(jù)庫也快速發(fā)展,融合了部分大數(shù)據(jù)技術(shù)和存儲(chǔ)格式,在擴(kuò)展性層面獲得了很好提升。在數(shù)據(jù)分析場景,兩者解決的都是相同問題。

市場趨勢(shì)

數(shù)據(jù)規(guī)模高速增長(全球2010-2025年復(fù)合增長達(dá)到27%,中國則大于30%)帶來了強(qiáng)勁的數(shù)據(jù)分析需求。據(jù)Gartner統(tǒng)計(jì),到2025年實(shí)時(shí)數(shù)據(jù)占比達(dá)30%,其中非結(jié)構(gòu)數(shù)據(jù)占比達(dá)80%,同時(shí)數(shù)據(jù)存儲(chǔ)云上規(guī)模達(dá)45%,而云上數(shù)據(jù)庫規(guī)模可達(dá)75%。

從數(shù)倉分析市場增長來看,據(jù)Global Market Insights分析,2019-2025全球年復(fù)合增長超過12%,中國則大于15%,其中主要市場需求來自金融,互聯(lián)網(wǎng),制造業(yè),政府,新零售等行業(yè)。

全球數(shù)據(jù)增長全球年復(fù)合增長

阿里云數(shù)據(jù)庫

阿里云從成立之初就對(duì)數(shù)據(jù)庫和數(shù)據(jù)分析進(jìn)行技術(shù)投入,一方面很好地服務(wù)了阿里巴巴經(jīng)濟(jì)體內(nèi)各個(gè)業(yè)務(wù)場景,另一方面也通過阿里云平臺(tái)對(duì)外輸出服務(wù)各個(gè)行業(yè)。通過持續(xù)投入和積累,阿里云從2020年開始,連續(xù)三年榮獲Gartner云數(shù)據(jù)庫管理系統(tǒng)魔力象限全球領(lǐng)導(dǎo)者稱號(hào)。

Gartner象限

在數(shù)據(jù)分析關(guān)鍵能力層面,下圖為云原生數(shù)據(jù)倉庫AnalyticDB PostgreSQL版在《2020 Gartner Critical Capabilities for Cloud Database Management Systems for Analytical Use Cases》中的得分排名。

排名1排名2