Target個人化演演算法如何使用隨機森林?
如何建立模型
下圖總結了如何為Auto-Target和Automated Personalization活動建立模型:
- Target會收集訪客的資料,同時隨機提供體驗或選件
- 在Target點選關鍵數量的資料後,Target會執行功能工程
- Target會為每個體驗或選件建置隨機森林模型
- Target檢查模型是否符合臨界值品質分數
- Target將模型推送至生產環境,以便個人化未來的流量
Target會使用自動收集的資料,以及您提供的自訂資料,來建置其個人化演演算法。 這些模型會預測最佳體驗或選件來顯示給訪客。一般而言,每個體驗(如果是Auto-Target活動)或每個選件(如果是Automated Personalization活動)會建立一個模型。 Target接著會顯示產生最高預測成功量度(例如轉換率)的體驗或選件。 這些模型必須在隨機提供的造訪上經過訓練,才能用來預測。因此,當活動最初開始時,即使對於個人化群組中的訪客,也會隨機顯示不同的體驗或選件,直到個人化演算法就緒為止。
每個模型都必須經過驗證,才能在用於活動之前完美預測訪客的行為。 模型會根據它們在曲線下的面積(AUC)來驗證。 由於需要驗證,模型開始提供個人化體驗的確切時間會根據資料的詳細資訊而定。 在實務上及流量規劃用途上,每個模型通常要超過最低轉換次數才有效。
當體驗或選件的模型變得有效時,體驗/選件名稱左邊的時鐘圖示會變成綠色核取方塊。當有至少兩種體驗或選件的有效模型時,部分造訪會開始變成個人化。
特徵轉換
資料會進入個人化演算法之前會經過特徵轉換,可視為預備好訓練記錄中收集的資料,以供個人化模型使用。
特徵轉換視屬性類型而定。主要有兩種屬性 (資料科學家有時會說成「特徵」):
- 類別: 類別特徵無法計數,但可分類成不同群組。這種特徵包括國家/地區、性別或郵遞區號。
- 數值: 數值特徵可測量或計數,例如年齡、收入等。
對於類別特徵,存在一組所有可能的特徵,概度轉換用來降低資料大小。對於數值特徵,重新縮放可確保這些特徵在整體上可互相比較。
採用多臂吃角子老虎機來平衡學習與個人化
在Target建立個人化模型以個人化您的流量後,您對未來活動的訪客有一個明確的權衡。 您應該根據目前模型來個人化所有流量,還是應該透過隨機提供選件來繼續向新訪客學習? 您需要確保個人化演算法一定會學習到訪客的最新趨勢,同時又將多數的流量個人化。
多臂吃角子老虎機是Target如何協助您達成此目標。 多臂吃角子老虎機可確保模型一律「花費」少量流量,在整個活動學習期間持續學習,並防止過度利用先前學習的趨勢。
在資料科學界,多臂強盜問題是探索與開發困境的經典範例,在此範例中,一組單臂強盜各自具有未知的獎勵概率。 主要概念是開發一套策略,只玩成功機率最高的臂,使獲得的總報酬最大化。在建立線上模型後,系統中會使用多臂吃角子老虎機進行線上評分。 此程式有助於在探索期間進行線上學習。 目前的多臂演演算法是epsilon (ε)貪婪演演算法。 在此演算法中,根據機率 1- ε 來選擇最佳的臂。此外,根據機率 ε 會隨機選擇任何其他臂。