Greenplum是什麼?Greenplum資料倉儲數據分析平台介紹與架構的分享
Posted On 2022 年 1 月 24 日
Greenplum 簡介
Greenplum 公司成立在 2003 年,提供資料倉儲與 BI 商業智慧的解決方案公司。
2013年3月,在VMware投資者大會上,VMware和EMC聯合宣布將成立Pivotal公司,由VMware前CEO保羅·馬瑞茲出任新公司執行長,並宣布將專注開源PaaS和大數據應用的Cloud Foundry、Greenplum等業務。
2013年4月1日,Pivotal公司在美國正式宣布成立,開始作為一個獨立的實體運營。
2013年4月24日,Pivotal宣布獲得GE(奇異)1.05億美元的投資。
2014年5月5日,在美國拉斯維加斯舉行的2014年EMC World全球大會上,EMC宣布推出EMC聯邦戰略,聯邦成員包括VMware、Pivotal和RSA。
2018年4月9日,Pivotal計劃以每股14美元至16美元的價格發行3700萬部A類普通股,最高融資5.92億美元。在紐約證券交易所上市,交易代碼為「PVTL」。
2019年8月22日VMware以27億美元收購Pivotal
Pivotal產品為VMware Tanzu Greenolum與服務組合的核心,協助客戶以Kubernetes作為通用基礎架構底層,轉換其建構、執行和管理關鍵應用程式的方式。
Pivotal是以開發者為中心的產品,與VMware上游Kubernetes運行環境的基礎架構和管理工具相結合,將提供全面的企業解決方案,顯著提升開發者創建現代化應用的工作效率。
Greenplum 介紹
Greenplum 也是一個大規模平行處理資料倉儲,面對巨量資料的互動式工具,功能為儲存資料與資料分析。
Greenplum 資料倉儲也簡稱GPDB,是一個開源的關係型數據庫,能夠快速進行數據查詢的分析系統。除了能夠提供 Petabyte 級的資料高效儲存、處理與分析,也支援 ANSI SQL 2008 標準和 SQL OLAP 2003 擴充套件,並具有 ACID ﹐Atomicity(原子性)、Consistency(一致性)、Isolation(隔離性)、Durability(持久性),保證數據資料的強一致性。
Greenplum 是什麼
Greenplum 是一個數據倉庫,有別於數據庫儲存資料,數據倉儲是面向主題設計的,儲存的是一般歷史資料,為了分析資料而設計。與單純 OLTP (Online Transactional Processing,線上交易處理 ) 、 OLAP(On-Line Analytical Processing,線上分析處理)形成對比,Greenplum 是 HTAP 混合 OLTP + OLAP 的架構,可以進行較複雜的資料查詢,適合 BI 系統以及報告工具。
Greenplum 架構
1.Master Host :
建立與客戶端的連線和管理,儲存資料字典;SQL 的解析並形成查詢計劃。
2.Standby Master:
提供高可用性,當 master host出現故障,可以接管 master host的工作。
3.Interconnect:
是GreenPlum的網路層,負責每個節點之間的傳遞。
4.Segment node:
業務資料的儲存和存取;負責數據存取與計算,接收 master 分發下来的查詢計畫,執行完成後回傳資料給 master node。
Greenplum 主要功能
1.儲存海量資料
有別於傳統的集中儲存數據,Greenplum 採用分布式儲存數據在多個節點伺服器上。利用分布式並行計算框架,支持橫向擴展來提高整體的計算能力和存儲容量。
2.數據分析平台
Greenplum 內有 MADlib In-database 分析功能,可以並發對大規模的數據進行模型訓練或者統計分析計算,通過擴充 SQL 的能力,降低了企業應用機器學習技術的門檻,並提供在系統內直接分析數據,解決了資料在不同系統間移動所產生的問題。
Greenplum 優點分析
1.MPP ( Massively Parallel Processing )架構:
使用MPP架構(又稱 shared nothing 架構) 的資料庫除了可以儲存海量的資料,如果處理單元之間需要進行的通信比較少較也適合選擇 MPP 系統, MPP 系統可以在決策支持和數據挖掘方面擁有優勢。
2.成本導向查詢優化器:
Greenplum 能夠在大量數據中效率的制定與執行複雜關聯操作的查詢計畫。Greenplum 的優化器會考慮許多因素,例如:資料的位置、是否有索引、欄位資料的基數等等,盡可能在 Segment 上完成任務,降低在不同 Segments 間傳輸的資料量。
3.In-database 分析功能
提供了易用性、本地性,能夠協助企業降低移動數據的安全成本與團隊溝通成本 。
4.可以擴充套件補足功能
Greenplum 提供擴充套件,例如: Kafka 即時資料串流,將外部資料即時匯入 Greenplum、ETL 可以進行日誌的排程。
圖文:簡安琪
專人協助
由偉康業務人員為您詳細說明偉康的解決方案,以及相關產業經驗。