fbpx

使用 Pentaho 簡化機器學習的協作流程

Hitachi Vantara Pentaho 平台簡化了您整個機器學習的工作流程,並使資料科學家、工程師和分析師團隊能夠培訓、調整、測試和部署預測模型。

Pentaho 資料整合及其分析功能透過實現順暢的團隊協作,打破機器學習的僵局。Pentaho 極大化的利用有限的資料科學資源,讓預測模型更快地處理大數據,無論使用案例、行業或語言,以及模型是用 R、Python、Scala 還是 Weka 建構的(參見圖 1)。 

Pentaho addresses the four most important steps in the data science workflow.圖 1. Pentaho 解決了資料科學工作流程中最重要的四個步驟

簡化機器學習工作流程

大多數企業很難將模型投入使用,因為資料專業人員經常獨立作業,並在資料準備到模型更新的工作流程中遇到瓶頸。 Pentaho 平台在四個關鍵領域實現協作並解決瓶頸:

1. 資料準備和特徵工程

Pentaho 可以輕鬆準備和混合傳統資源(企業資源規劃 (ERM) 和客戶資源管理 (CRM) )與大數據源(感應器和社交媒體)。 Pentaho 還加速了眾所周知的困難和昂貴的特徵工程,在一個易於使用的拖放環境中自動化數據載入、資料轉換和資料驗證。

2. 訓練、調整和測試模型

資料科學家經常透過反覆試驗來在模型的複雜性、性能和準確性之間取得適當的平衡。透過與 R 和 Python 等語言,以及 Spark Llib、Weka、Tensorflow 和 Keras 等機器學習和深度學習庫整合,Pentaho 讓資料科學家流暢的訓練、調整、建構和測試模型。此外,與整合開發環境 (IDE) 如 Jupyter Notebooks 的整合使該過程變得十分流暢(參見圖 2)。

Integrate various machine learning and deep learning languages and packages.圖 2. 整合各種機器學習、深度學習語言、套裝軟體

3. 部署和操作模型

Pentaho 允許資料專業人員輕鬆地將資料科學家開發的模型,作為嵌入工作流程的執行步驟。他們可以利用現有的資料和特徵工程工作,有效縮短部署時間。透過嵌入式 API,企業也可以在現有應用程式中囊括 Pentaho 的全部功能。

4. 定期更新模型

Ventana Research 發現,不到三分之一 (31%) 的企業使用自動化流程來更新其模型。借助 Pentaho,資料工程師和科學家可以使用新資料集重新訓練現有模型,或使用 R、Python、Spark MLlib 和 Weka 的自定義執行步驟進行功能更新。預建的工作流程可以自動更新模型並將現有模型歸檔。

端對端架構

Pentaho 可以輕鬆地將各種資料源加入您的資料管理環境(參見圖 3)。使用我們的拖放式用戶界面,您可以快速混合、清理和標準化資料。您的資料科學家可以設計新功能,並依照需求擷取這些準備好的資料,以訓練、調整和測試機器學習模型。然後,您的資料工程師可以將這些模型部署到生產環境中,進行業務轉型。最後,為了更新模型,您的資料科學家可以定期使用新的訓練資料以及 Pentaho 中已經建構的轉換。

Deploy machine learning models using Pentaho in a complex data environment.

圖 3. 在複雜的資料環境中使用 Pentaho 部署機器學習模型

「Pentaho 使進階和預測分析的資料整合過程可操作化。我們已經嵌入 Pentaho 超過七年,為海上船隊和船舶提供即時遠程分析,並擁有多年使用 Pentaho 資料整合的經驗。透過 Weka 和 R 的整合,我們現在正在幫助客戶全方位融合所有設備資料源,以便及早預測潛在的機械故障。」

 –  Ken Krooner, President, CAT Marine Asset Intelligence


查看更多關於 Pentaho Data IntegrationPentaho Business Analytics 的資訊

相關文章