Greenplum Stream Server (GPSS) 是一個 ETL 工具,用於提取、轉換、加載數據。
從單個或數個用戶端擷取數據流,並藉由 Greenplum 資料庫的可讀式分類表轉換數據並新增至選定 Greenplum 表格中,而資料的來源和格式則專於客戶端 ── 以上為 GPSS 實例。
GPSS 包括 gpss 命令列工具 (command-line utility),這也代表當用戶使用 gpss 時, GPSS 的一個實例會被開啟── 也就是會無限期的等待來自客戶端的數據。
此外,GPSS 也擁有 gpsscli 命令列工具── 一個向 GPSS 實例回報數據加載工作並管理作業的客戶端工具。
Greenplum Stream Server 是一個 gRPC 服務器,不論是連接到 Greenplum 資料庫和檢查 Greenplum metadata ,或是將數據從客戶端寫入 Greenplum 資料庫表過程中所需的操作和資訊,都屬於 GPSS gRPC 的業務範疇。
Gpsscli 公用程式是 GPSS 的一個 gRPC 客戶端,而 Greenplum-Kafka 整合和 Greenplum-Informatica 連接器也是如此,這讓使用者能夠透過 GPSS API 開發自己的 GPSS gRPC 客戶端。
圖示. Greenplum Stream Server 架構
使用 GPSS 執行 ETL 任務的常見事件順序如下:
Greenplum Stream Server 不支援將多個 Kafka 主題數據加載至單一 Greenplum 資料庫表中。
若 GPSS 遭遇此情況,所有作業將停止。
更多 Greenplum 資訊請至產品專區。