Jay's Data Journey

Created2021-03-11

維護方式簡介預測性維護用一句話貫穿就是「把搶修變成維護」。常見的維護種類有反應性維護（Reactive Maintenance, RM），預防性維護（ Preventive Maintenance, PM）與預測性維護（ Predictive Maintenance, PdM）。第一種 RM 是損壞時才修復，這種根本稱不上是維護了，而且當損壞發生的時候成本最高，例如機器停止時的生產時間成本。第二種 PM 就是不管設備是不是有問題，都例行性保養維護，這種的成本主要就是維修成本，錢不能花在刀口上。而最後一種預測性維護則可以將維護與損壞成本的期望值最小化，只在有潛在損壞可能的時候進行維護。成本如下圖： PdM 帶來的好處：減少設備維護時間最大限度地減少因維護而浪費的生產時間最大限度地減少備件和用品的成本常見的 ML 預測方法與數據做預測性維護有很多種方法，例如：預測剩餘使用壽命（Regression models to predict remaining useful lifetime）預測一定區間下的機器「狀態類別」 (Classification models ...

Kubeflow Pipeline - 不只是 ML Pipeline

Created2020-11-11|MLAWS

這篇我原先打在 notion，由於圖片沒辦法直接匯出，請到下面連結見此文章：https://www.notion.so/Kubeflow-Pipeline-ML-Pipeline-310315e8e5cd4105b938daf4f41c5ce3

Should we consider Multicollinearity in ML/DL?

Created2020-11-11|ML

What is Multicollinearity? 在進行 Linear Regression Analysis 時，容易出現自變數（解釋變數）之間彼此相關的現象，我們稱這種現象為多重共線性。適度的多重共線性不成問題，但當出現嚴重共線性問題時，會導致分析結果不穩定，出現迴歸係數的符號與實際情況完全相反的情況。原本應該顯著的自變量變成不顯著，不顯著的自變量卻呈現出顯著性，這種情況下就需要消除多重共線性的影響。 Detecting Multicollinearity with VIF 在建立統計模型時，我們通常可以用變異數膨脹因子 (Variance Inflation Factors, VIF) 去檢定是否存在 Multicollinearity 現象，如果這個值大於 10 就表示這個變數有共線性問題，應該要剔除。 Fixing Multicollinearity 處理 Multicollinearity 有很多種方法，例如 Regression 可以加上 Penalty 參數，去懲罰出不重要的變數，藉此篩選出重要的變數，Lasso 或是 Ridge 方法都可以。 ...

The Windowing Approach of Streaming Data

Created2020-10-05|Data Engineering

在 Streaming data 的處理上，因為數據是連續不斷的，我們不可能等到所有數據都到了才開始處理，我們可以每來一個消息就處理一次，像是一些聚合 (aggregation) 的處理。舉個例子：在過去的 1 分鐘內有多少用戶點擊了我們的網頁。在這種情況下，我們必須定義一個窗格 (window)，用來收集最近一分鐘內的數據，並對這個窗格內的數據進行計算。窗格可以是時間驅動的 (Time Window，例如：每30秒鐘一個窗格)，也可以是數據驅動的 (Count Window，例如：每一百個事件一個窗格)。這些窗格分類普遍可以分成：Tumbling Window (無重疊)，Sliding Window (有重疊)，和Session Window (有間隙)。下面這張表格定義 Data windowing: Chopping data along temporal boundaries into finite blocks for processing. (將數據沿時間邊界切割成有限塊以進行處理，英文很難懂，也說得很籠統) 下面用例子來解釋幾種 windowing 方法，假設不同 ...