Pivotal 產品介紹: Greenplum Stream Server
內容目錄
Greenplum Stream Server (GPSS) 是一個 ETL 工具,用於提取、轉換、加載數據。
從單個或數個用戶端擷取數據流,並藉由 Greenplum 資料庫的可讀式分類表轉換數據並新增至選定 Greenplum 表格中,而資料的來源和格式則專於客戶端 ── 以上為 GPSS 實例。
GPSS 包括 gpss 命令列工具 (command-line utility),這也代表當用戶使用 gpss 時, GPSS 的一個實例會被開啟── 也就是會無限期的等待來自客戶端的數據。
此外,GPSS 也擁有 gpsscli 命令列工具── 一個向 GPSS 實例回報數據加載工作並管理作業的客戶端工具。
Greenplum Stream Server 是一個 gRPC 服務器,不論是連接到 Greenplum 資料庫和檢查 Greenplum metadata ,或是將數據從客戶端寫入 Greenplum 資料庫表過程中所需的操作和資訊,都屬於 GPSS gRPC 的業務範疇。
Gpsscli 公用程式是 GPSS 的一個 gRPC 客戶端,而 Greenplum-Kafka 整合和 Greenplum-Informatica 連接器也是如此,這讓使用者能夠透過 GPSS API 開發自己的 GPSS gRPC 客戶端。
圖示. Greenplum Stream Server 架構
使用 GPSS 執行 ETL 任務的常見事件順序如下:
Greenplum Stream Server 不支援將多個 Kafka 主題數據加載至單一 Greenplum 資料庫表中。
若 GPSS 遭遇此情況,所有作業將停止。
更多 Greenplum 資訊請至產品專區。
Greenplum 平台擴展框架 (Platform Extension Framework, PXF) 是實現異質資料源、並行且高吞吐量的資料查詢連接器 (connector),讓 Greenplum 能快速的查詢外部數據,包含 Hadoop、PostgreSQL、Hive、MySQL、Oracle 等,透過 PXF 進行跨平台的資料查詢,不需要事先提取資料,也不需要執行效能較差且複雜的查詢語法,讓資料的查詢流程更容易、迅速。
企業收集數據的一直在變化,資料庫如何在每次數據更改時做出反應,而無需更改修改數據的應用程序呢? 本次活動分享如何以 Greenplum 整合 Debezium CDC 技術,打造成近實時的流數據處理。
如何在 Pivotal Greenplum Database 擴充節點,及擴容常見問題列表及注意事項
本次研討會將介紹及 Demo 如何使用 gpfdist ,以及和 Postgres 既有 ETL 工具的比較,更有效完成 PB 級資料量的傳輸。
本文會介紹 SAS EG 的內建排程功能,再往下延伸 2 種結合 ETL 工具如 Trinity 來執行 SAS 軟體的 vbs 及 sas 2 種檔案的排程設定,最後透過 Trinity 環境將上文提到的兩種需求呈現出來。
對於使用 Pentaho (或者類似產品Kettle / Hop) 這類 ETL 工具的開發人員來說,總有一些藏在角落、鮮為人知的方便功能。筆者在此將講解有關 Pentaho 流程中, Merge join 與Multiway merge join 的資料合併做法。
Scratchpad讓搜索過程變得快速、方便和個人化。它使人們可在不同的旅遊網站間交叉切替。並戲劇性的提高了Expedia的轉換率。這替Expedia帶來巨大的競爭優勢。而這一切沒有MongoDB是不可能完成的。
在不到兩年的時間裡,Southwest IT 全面虛擬化的比例從 0% 上升到 40%,這將配置服務器的時間從六天縮短到一小時。使用 Pivotal GemFire 來執行線上門戶等重要應用程式,而這些佔總業務的 80% 以上。Pivotal 使西南航空能夠推出受歡迎的社交媒體管道,每月訪問量高達數百萬。
隨著雲計算、大數據、物聯網、移動互聯等應用的出現,越來越多的企業面臨業務上的變革,無論是金融業、電信業、運輸業還是製造業,都在經歷著類似的變革。業務變化了,配套的IT系統就需要改變,在IT轉型的路上,您需要一個完善的新一代巨量資料以應付變化快速的環境以及未來的業務需求。誠摯歡迎對於資料分析加速IT轉型有興趣的您來參加!機會難得,敬請盡速報名以免向隅!
歐立威科技將於研討會中,為您介紹及展示Pivotal Greenplum。Pivotal Greenplum不僅是擅長進行大規模平行處理的資料倉儲,也是一套能讓使用者輕鬆面對巨量資料的互動式工具。
力邀資料科學家的工作日常粉專創辦人、PostgreSQL Taiwan 召集人、Pentaho 原廠講師及 ETL 資深技術專家,四位講師 x 四場講座,帶你從不同角度剖析 ETL;從資料工程到 PostgreSQL,從 ETL 工具到實戰解說!報名活動再抽酷炫個人化音響!
Greenplum 藉由原生套件 GPText 自然語言處理和機器學習的功能,使 Greenplum 擁有大規模非結構化文本分析的能力,本次研討會講師將分享 GPText 的介紹、原理架構與 Twitter 社群文本分析的應用案例,在 AI 訓練和資料分析方面提供卓越的支援。
Kafka 是專為處理大數據而生的分布式資料串流平台,能輕鬆處理每秒數萬次的請求。相較其他消息佇列系統,Kafka 擁有更好的吞吐量,內建的分區機制,和卓越的容錯能力,這使其被應用於各種大數據使用情境,例如即時資料分析、日誌聚合、消息傳遞和支援微服務架構。
Ren 創建一個角色Ren,使其能夠存取…
VMware 已經發布了 PXF 6.2.1 和 GPText 3.8.1,它們在最新的 VMware Tanzu Greenplum 版本 (5.29.2 和 6.19.0) 中已經可以使用。這兩個版本將 Apache Log4J 組件更新到 2.16.0,解決 CVE-2021-44228 和 CVE-2021-45046。如果您無法升級到 PXF 6.2.1 或 GPText 3.8.1,請參考原廠建議的解決方法來降低此漏洞的風險。