fbpx

Dataiku – 數據分析最煩人的 5 個時間殺手

本文由客座作者 Bunmi Akinremi 撰寫。Bunmi 是一名資料科學家和 Android 開發人員。她熱衷於使用 AI 來建構更好用戶體驗的應用程式。Bunmi 還對利用 AI 解決環境問題感興趣,例如海洋中的塑膠污染。

數據就像原油:在經過一定程度的提煉之前,它並不是特別有用。因此數據需要經過處理和提煉,以激發有意義的行動並創造有價值的見解。從數據中獲取洞見是資料科學家最重要的工作,但卻不是資料科學家花最多時間的工作。相反的,資料科學家將大部分時間都花在準備要分析的數據上。 

資料處理可能是勞動密集、耗時、有點複雜的。你可能會在執行重複的、需要測試的工作(例如數據源、清理和擴展、視覺化以及模型測試和評估)時陷入困境。這些迭代過程通常效率低下,並且需要非常、非常、非常多的時間。

dataiku time sinks.jpg

當嘗試跨平台進行資料準備、分析和視覺化時,會讓低效率變本加厲。例如,你得先結合不同的數據源,並在本地託管的 Jupyter Notebook 中轉換、清理和建模數據,使用雲端服務部署正式環境和監控模型,然後使用別的的工具來視覺化效能和洞見。 

Dataiku 提供了一個統一的平台,你可以在同一個地方有效率地執行所有的流程。Dataiku 將數據的使用系統化、集中化及自動化重複流程,讓你更輕鬆地完成從數據收集到視覺化的數據分析。 

本篇文章探討資料科學家會遭遇的 5 個最花時間的的狀況,並介紹 Dataiku 如何幫你騰出時間專注於利用數據解決商業問題。

1.清理和組織資料

清理和準備資料通常是分析工作流程中最不直接且最耗時的過程。一項調查顯示,清理和組織資料佔用了資料科學家 60% 的時間,57% 的資料科學家認為這是他們工作中最不喜歡的部分。

在資料準備的階段,你需要混合數據源,將數據從某種格式轉換為另一種格式,處理重複、遺失或無效的數據,以及其他資料準備工作,以確保最終用於建模或分析的資料品質和格式正確。 

此外,如果對大量資料進行分類的挑戰還不夠煩人,那麼重複清理和組織資料時出錯的可能性一定會讓你抓狂,只要一點輕微的格式或複製/貼上的錯誤,就可能會導致嚴重的品質問題和下游問題 (problems downstream)。

幸運的是,Dataiku 提供了一種更有效地清理和組織資料的方法。除了提供準備和清理資料的提示和技巧外,Dataiku 還提供 100 多個數據轉換器,旨在幫助你處理乏味的數據整理 (data wrangling) 和數據強化 (data enrichment)。它的功能包含:

  • 連接本地和雲端的數據源。
  • 一個視覺化界面,有助於建構流程和完成常見工作,例如合併數據集、聚合、篩選和拆分、刪除重複數據等。
  • 自動化功能,因此你可以一次建構資料處理流程 (data pipeline),然後再根據需要自動更新當中的各個部分。

此外,你可以擴展內建工具,為 Dataiku 裡沒有的客製化轉換編寫自定義公式和代碼。使用視覺化工具加速工作,或編寫自定義代碼以獲得最大的靈活​​性。每一個操作與步驟,你都可以自行決定如何進行。

2.模型性能比較

選擇要部署的最佳模型是一項迭代任務,需要執行很多測試以確定哪種數據、超參數和演算法的組合有最佳結果,同時仍與商業和技術目標保持一致。然而,雖然記錄模型超參數和特定模型輸出的設置是模型再現性的關鍵,但同時也相當浪費時間。

記錄模型參數的一種常用方法是以編碼方式將它們放在儲存庫 (dictionaries) 中,使用相同的代碼框架運行不同的模型測試,但代入不同的超參數來確定哪個模型效果最好。這些看似無休止的比較過程會導致大量的時間損失。此外,以這種方式記錄和評估是一個非常乏味、耗時的過程。 

你可以使用 Dataiku 來幫助處理所有相關工作並直觀地比較模型評估,而不用手動比較模型性能。它會自動記錄模型詳細資訊,例如時間、使用的算法、使用的數據集以及測試名稱。它還會追蹤使用了哪些功能(以及拒絕了哪些功能),並比較不同模型的性能指標,以幫助你更輕鬆、更有效地評估模型。

此外,你甚至可以追蹤在 Dataiku 之外以編碼方式執行的自定義模型測試,並導入這些外部模型,以根據開發或使用中的現有模型版本對它們進行評估。

3.解釋分析模型

確保模型是正確學習且廣義化 (generalizing)——而不僅僅是它跑出很高的準確度分數——是至關重要的。確認部分特徵依賴、發現潛在偏差和解釋列層級 (row-level) 預測可能很棘手,為每個測試手動產生和儲存這些類型的可解釋性和解釋指標既費時又費力。 

Dataiku 的模型可解釋性功能可幫助你完成這些事,Dataiku 提供先進的、可解釋的 AI 功能,幫助解釋模型並創建特徵重要性和依賴程度圖、個體預測解釋、子群體和模型公平性分析,甚至互動式假設分析的報告。有了這些資訊,你和你的商務利害關係人可以更好地了解模型表現以及哪些因素會影響模型預測。

此外,「結果優化」等進階功能可以超越預測性 (predictive) 分析並轉向建議性 (prescriptive) 分析,使用戶能夠規定哪些特定的輸入更改會產生所需的結果。 

4.文件撰寫與管理

每個資料科學家都喜歡有完整紀錄的專案項目,但沒有人喜歡撰寫這些文件。為複雜的資料處理流程或模型設置撰寫適當的文件是一項挑戰 – 不是技術的挑戰,更多時候是時間管理的挑戰。一份正確的文件不僅涵蓋很多內容,而且內容還會不斷變化,這代表必須定期更新文件。最後的結果就是許多資料處理流程 (pipelines) 沒有記錄或記錄不完整,造成未來接手專案項目的資料科學家難以做事,還可能導致營運或監管的風險。

Dataiku 有一個簡單搞定這件事的方法 — 自動導出功能,它可以完整記錄處理流程和模型設定,不再需要自己撰寫就可以得到最新內容和正確的文件。這種方法可以節省文件編輯人和專案執行人的時間,不僅不必花好幾個小時仔細記錄處理流程和模型,繼承這個專案項目的任何人也都能快速、全面獲取一切資訊。

5.解釋分析結果

向非技術背景的人解釋技術發現頗具挑戰性,需要出色的演示和溝通技巧。圖像通常會比文字更快、更有效進行交流,因此在解釋結果時,視覺化是一種非常管用的交流方法。

但是,完成分析後將分析成果導到不同的平台可能會有問題,你受限於這個平台保存、呈現和視覺化數據的能力,並且還需要擔心調整這個平台的數據標準和安全性。你可以使用 Dataiku 的數據視覺化功能在分析數據的同一平台實現數據視覺化,而不用透過多個平台來解釋分析結果。

此外,針對不同的聽眾你可能想以不同的方式呈現結果。例如,如果要與懂技術的聽眾(例如首席資料科學家)分享分析結果,你會想要強調並清楚地解釋特徵重要性、特徵依賴性,以及在分析過程中你選擇哪些模型及數據來呈現您的分析結果。反之,如果是要與業務單位或執行人員分享研究結果,分析方法就不如業務預測來的重要,應該省略技術細節。

Dataiku 使你能夠在儀表板和易於使用的 Web 應用程式中快速視覺化結果,這些應用程式包括各種圖表類型、地理空間地圖和大量互動式元件。透過這些不同的展示元件,你可以任意搭配視覺化圖表,以幫助利害關係人、同事和業務主管輕鬆理解資訊。此外,Dataiku 還整合 Power BI、Tableau 和 Qlik 等儀表板工具,提供額外豐富的視覺化功能。 

把時間花在創建數據解決方案

你可能早就體驗過我們探討的這些浪費大量時間的情況,並感受到它們對整體工作效率有多麼顯著的影響——更不用說工作的心情了!因此,你應該很容易想像從頭到尾都使用單一、整合的平台進行數據分析帶來的好處。 

Dataiku 可幫助你自動化流程,例如存取和準備數據、記錄模型設置和性能指標,以進行比較和解釋模型結果、記錄流程以及視覺化洞見——全部都集中在一個平台完成。

本文翻譯自:The 5 Biggest Data Time Sinks
了解更多 Dataiku 產品資訊: Dataiku – 企業級資料分析平台 

相關文章