Greenplum
用於管理和分析任何雲端上、任何資料類型的單一數據平台
大規模平行處理資料倉儲,面對巨量資料的互動式工具
開放式架構
可根據應用需求配置規格
具橫向擴充能力,隨需求延伸叢集能量
分散式儲存&分散式運算
Massive Parallel Processing(MPP) 建構分散式運算,
可隨叢集大小擴充運算能量
易維運環境
線上擴增叢集節點毋須停止服務
細膩的資源管控能力,讓系統資源分配更有效
可視化管理工具,讓 DBA 維運更輕鬆
Massively Parallel Processing(MPP)建構分散式運算
可隨叢集大小擴充運算能量
Coordinator Host 與用戶連接並協調
與Segment Hosts的工
Segment Hosts管理數據和行程查詢
Segment Hosts有自己的 CPU、磁碟和
記憶體(不共用任何內容)
用於數據處理連續管道的高速互連
Greenplum
勝出的三大特點
1.以標準x86硬體為基礎的大數據平台,不會被專屬硬體綁架
2.Greenplum 可以水平擴充,以便因應資料不斷成長。且硬體擴展時,資料可以自動重新分配,不必做資料轉移
3.Greenplum 提供即時串流 Kafka 及 Hadoop Spark 等連結器,可以不藉著資料交換平台,就能與本案資料湖泊互通。
VMware Tanzu Greenplum
用於管理和分析任何雲端上、任何資料類型的單一數據平台
使用Greenplum四大的好處
靈活性
部署在任何基礎設施類型-基於OSS技術的私有雲,公共雲
靈活性
唯一基於開源技術可運行在任何地方的的數據倉庫
▪在客戶數據中心或公共雲中運行
▪虛擬或Bare-mental
▪基於開放標準(Commodity Hardware)的硬體運行,無需專有硬體設備
▪透過大型Greenplum Community社群取得更快的功能添加
▪獨立供應商
▪基於 Postgresql 的核心技術, 擁有強大的社群支援
速度和可擴展性
由獨特的能力來處理OLTP和OLAP 來取得高速和性能
▪Parallel Query Optimizer運行數百萬種不同的 SQL 查詢語法
▪業界領先的 OLAP 查詢性能
▪批量數據下載,串流數據流和行業標準ETL工具兼容性
能夠定義資源組,以確保每個重要工作負載的資源分配數千個併發連接,
Row level locking以每秒數千次的速度支援快速 OLTP,可以平行運行數以百計的平行複雜查詢
行和列導向的存儲配置在表級中確定數據壓縮以減少空間使用,支持S3 和 HDFS 中的外部資料存取,具有開放的檔案格式,如Parquet, AVRO和ORC
速度和可擴展性
由於In Database Analytics + Query和和數據攝入,
對 Petabyte 大小數據集的查詢洞察時間更快
方便性
單一平臺上的支援不同數據類型
文本、地理空間、圖形、圖像、視頻、語音、結構化
方便性
針對所有儲存在任何地方、任何數據類型的
數據處理需求的一站式平台
▪JSON & XML -在查詢處理過程中,存儲具有靈活計劃和內省文檔結構的檔
▪Text, Image, Video -將豐富的「非結構化」數據儲存在表中,對這些類型進行搜索和深度學習識別
▪Network Traffic, IoT, Logs – Ip 位址、位址範圍、數據包擷取、系統日誌和物聯網絡感測器存儲和分析
▪Geo & Graph -位置和關係可以儲存和進行本地分析
▪聯合查詢處理 – 平台擴展框架(PXF)可以多種格式和位置查詢位於跨雲端儲存物件、數據湖、SQL/No SQL, Streaming data與Kfaka、Spark外部數據
▪大規模平行外部資料存取 – 每個細分段並行掃描外部資料來源,以取得 TB 和 PB 規模的外部資料表
嵌入式機器學習、神經網路、Python、R、地理空間、圖形和文本分析,建立於可擴展基礎的分析
生產力
透過Tanzu Data Management的全DW生命週期自動化
透過 Greenplum 作為服務達成 Greenplum-as-a-service
先進的數據解決方案,可管理手動和嚴格的 DW 生命週期任務,提高數據團隊的生產力
Tanzu Data Management 將自動化數據生命週期管理任務
包括安全修補、撥備、備份和縮放
▪Greenplum + vSphere+ vSAN 組合將裸機解決方案(bare metal solution)轉變為「Always On」解決方案,減少了維護停機和提高 HA 功能的需求
○對關鍵任務工作量至關重要
▪Greenplum + vMotion 組合支援將查詢運行到不同機器的移動行程
○減少處理任務的關鍵系統維護停機時間和提高工作負載便攜性
生產力
通過Tanzu Datamanagement和vSphere HA
功能實施數據倉庫生命週期管理
Greenplum可存取儲存在不同介質中的數據
Vertical Partitioning
Large fact tables分為有效數據訪問和保留策略的時間範圍
Polymorphic Partitioning
Partitioned table中的不同範圍
可以使用不同的儲存參數和介質
Optimizer Partition Elimination
查詢處理將僅自動掃描包含查詢條件所需的數據的儲存介質
Greenplum應用場景
▪訓練神經網路
使用圖像和文本等非結構化數據,並讓 Greenplum訓練模型去辨識物體
▪MPP 比例性能
使用Greenplum的計算網格訓練和比較數千種型號
▪Tensor Flow, Keras, GPUs
使用AI的常用套件,而模型的複雜性則由Greenplum 使用者自行管理
將大數據資料庫轉換為 Geo 資料庫,以便根據位置存儲、搜索和分析數據
▪將二進位數據或常人可讀的格式數據提取成機器能夠理解或操作的數據。
▪Index the text data,以便我們可以快速搜索特定的文本和文檔。
▪搜尋 在文字中的關鍵字或規律。
▪分析文本的真正含義。
Server 端功能
▪逐行處理數據
▪大規模並行模型執行
▪使用程序語言轉換每一行
▪在需要時通過容器化執行提供安全性
▪導入OSS庫以獲取高級功能(例如NLTK)
▪導入企業庫以訪問您的專有邏輯代碼
▪用戶定義的匯總分組
▪調用OSS機器學習算法