fbpx

資料科學家眼中的 Dataiku – 第一印象與使用心得

本文由客座作者 Peter White 撰寫。Peter White 是一位資深的全棧軟體開發人員,擁有 15 年的經驗。儘管他大部分時間都花在了 .NET,但他最近開始關注 Python 和 Javascript,尤其是 Angular。除了寫程式之外,Peter 還是一位脫口秀喜劇演員,曾在 30 多個國家/地區演出,並現身 Just For Laughs 在內的眾多電視節目中。

我能給 Dataiku 平台的最好評價是—如果我早點發現它,我今天可能還是一名資料科學家。”

在我當資料科學家的時候,我使用過很多不同的工具——坦白說真的太多了。我是從程式背景進入資料科學的,因此,我很習慣需要甚麼就自己建。然而,我很快了解到,如果我想在資料科學領域有所成就,我需要協助,因為要準備的數據量、要訓練和分析的模型數量、要解釋的資訊量…這些對於 DIY 自建法來說根本無法負擔。因此,我為不同的任務採用了不同的工具,並儘我所能保持井井有條。

當我努力跟上數據分析工具時,它們的數量不斷增加和變化。感覺就像每週我都必須學習新東西,整個過程越來越困難,而且結果似乎還變得更糟。再加上管理及商業方面不斷變化的目標,以及處理這些變動並向非技術背景的人解釋結果所耗費大量工作與時間,最終變得令人難以忍受。 

我和許多其他人一樣,精疲力盡並轉換職涯跑道了。但是,我仍然對資料科學有著濃厚的興趣,並且經常在個人專案中使用機器學習 (ML),這就是我偶然發現 Dataiku 的原因。

我對 Dataiku 的印象

Dataiku 承諾在開發的各個階段盡可能提高 ML 項目的效率。這似乎是一個太過高遠的目標,但是,這正是我在尋找的東西,所以我願意試試看。

第一印象

當我深入 Dataiku 平台時,我不得不說一開始我是抱持懷疑態度的。我真實的第一反應是:這似乎太容易了。

使用介面非常乾淨清晰,非常直覺。打從一開始,很明顯你就可以從這個單一平台管理 ML 的方方面面。雖然這聽起來不錯,但作為一名資料科學家,我並不太相信:它能夠做到這一切,並且做得很好的可能性有多大?畢竟過去我需要大量的工具來完成這些工作。

無論如何,我還是使用了。Dataiku 以推進專案項目的速度而自豪,我還真的能夠在幾分鐘內上傳數據集並創建模型。當然,是沒有經過優化並且相當小的,但是我所花費的時間和精力也非常少,這非常令人印象深刻。

我快速瀏覽其他功能,發現它們同樣很方便使用。雖然我覺得一定有什麼不對勁,但我還是忍不住開始考慮「Dataiku 的任何功能都是準確且易於使用」的可能性,那麼它真的會很有用。

如果我能以這種速度創建、分析和解釋模型,我可以用最少的精力嘗試多種不同的方法。我可以輕鬆比較不同方法,並避免模型解釋中所有令人頭疼的工作。我仍然抱持懷疑態度,但我已經忍不住有點興奮。

dataiku-impression

設定

我回頭開始著手創建一個更複雜的專案項目,我想好好看看 Dataiku 是否會在現實場景中產生良好的效果。我從編寫可以存取正確數據源的代碼開始——我之前已經手動完成了這件苦差事很多次,也許是所有專案項目中最不好玩的部分。

當我開始使用 Dataiku 的視覺化流程時我的懷疑達到了前所未有的高度。作為視覺化編碼的強烈反對者,他們建構資料處理流程的視覺化方法讓我低聲咕噥,“這根本行不通,”我邊說,邊點擊一下就連接到了我的 Snowflake 資料庫。我在整個處理流程設定中重複這個動作,感覺就像我在繪製我要建構的東西的圖表 – 而不是真的實際在建構它。

不瞞你說,當它真的奏效時,我幾乎快瘋了!這太簡單了!感覺就像我以前浪費了超級多的時間手動建置資料處理流程,我都要哭了。

從資料處理流程到模型訓練和模型解釋,整個設定都輕而易舉。通常,我認為視覺化設定的問題是缺乏完全控制權,常常想試圖做某事但礙於視覺化控制權有限而無法實現,但是使用 Dataiku 時很明顯任何我想做的任何事情都唾手可及。

資料準備

「準備和清理資料是最麻煩的」,這是資料科學的一個普遍觀點,尤其對有程式背景的人來說更是如此。資料準備很乏味、耗時,而且會讓你壓力很大。任何有關數據的錯誤都會在整個模型中產生影響,不僅要花費大量精力來建構,而且在你挖掘組合數據以確保一切看起來正確時,還需要花費大量時間進行測試和驗證。我完全沒頭緒 Dataiku 會如何從視覺化角度解決這個問題。

但懷疑他們顯然是個錯誤。他們用於資料準備的 UI 令人難以置信。當你可以看到自己在做什麼時,準備和清理資料當然會更容易,沒有想到這一點讓我覺得自己很笨。Dataiku 的介面可讓你馬上發現並修復錯誤!你還可以透過多種不同方式加入和匯總數據,該平台會記錄你的所有更改以實現可重複性。此外,該系統具有內建轉換器,以滿足幾乎任何數據操作。我從來沒有花費這麼少的時間,卻對我的資料準備這麼有信心,在進入建模階段之前,知道你的資料是乾淨、正確的組合,感覺超棒的。

可解釋性

資料科學中最困難的事情之一就是向沒有 ML 背景的人解釋 ML 結果。 雖然現在模型不像以前一樣都是黑盒子,但還是無法輕易了解它到底如何運作的。每個資料科學家都知道計算部分依賴性和隨機列層級解釋的痛苦,所以我驚喜地發現 Dataiku 內建了所有最新的可解釋性方法。雖然仍然可能需要經過你專業的翻譯和解釋,才能確保管理者能夠理解模型結果,但產生分析和創建圖表所需的工作量也少得多。

洞察力

了解你的數據實際上是資料科學遊戲的名字,你可以獲得的原始數據的資訊越多越好。我有一份會不斷更新的統整資料分析工具的清單,我用這些工具來查找異常值和計算統計數據等簡單的事情,而 Dataiku 再一次幫我完成這件事。它會自動計算和視覺化我需要的任何類型的數據統計,而且不用編寫腳本。此外,這些統計數據還包含我從來不會費心去計算的數據,這代表相較手動完成所有步驟,我用更少的精力處理數據卻獲得更多的洞察力。

驚喜和雀躍

我原先以為使用 Dataiku 會綁手綁腳、令人沮喪的體驗,我無法理解基於視覺操作的平台,可以得到與我使用更傳統的方法相同的結果。但事實上,Dataiku 的結果很輕易就與我自己操作的結果一樣,因為其實 Dataiku 沒有替我解決什麼問題,而是我很清楚知道我在做甚麼,它只是讓我更容易、更快地做我想做的事。 

Dataiku 消除了工作中許多繁瑣的部分,讓我可以專注於我想要製作的東西,而不是專注於如何操作。對我來說,Dataiku 是一個輔助工具,讓我更快、更有效地完成我之前完成過的工作。

在不用切換平台的情況下,每一個步驟都可以使用內建的視覺化工具,這讓我可以輕鬆地查詢我的數據,得到影響決策的洞見。我能夠訓練出與我自己編碼的模型一樣準確的模型,但我能夠使用豐富的分析工具獲得更高的透明度和可重複性。這使得模型測試和評估的迭代過程比我見過的任何方法都更容易和更快,而且 – 說實話 – 無疑會是更準確的結果。不是因為更準確的演算法,而是因為回饋更徹底、修改更容易。我可以輕鬆調整我的資料處理流程、功能和權重並建構新模型。

總而言之,Dataiku 讓我在相同的時間內做更多事情。它在不犧牲準確性或控制權的情況下,減少了資料科學的許多繁瑣工作。它可以組織所有內容,讓我對數據和模型有了前所未有的洞察力。

 

本文翻譯自:First Thoughts on Dataiku: A Data Scientist’s Perspective
了解更多 Dataiku 產品資訊: Dataiku – 企業級資料分析平台 

相關文章