Random Forest에서는 의사 결정 트리를 어떻게 사용합니까?

의사 결정 트리는 강력한 통계 도구일 수 있습니다. 그러나 몇 가지 단점이 있습니다. 가장 큰 단점은 이 트리가 데이터를 "과잉 맞춤"(over-fit)하여 개별 트리가 초기 트리를 만드는 데 사용되지 않은 미래 데이터는 제대로 예측하지 못할 수 있다는 것입니다. 이 문제를 통계적 학습에서는 편향-분산 트레이드오프(bias-variance tradeoff)라고 합니다. 랜덤 포레스트는 이 과적합 문제를 극복하는 데 도움이 된다. 가장 높은 수준에서 Random Forest는 개별 트리보다 더 나은 모델을 만들어내기 위해 함께 "투표"하고, 동일한 데이터 세트에서 약간 다르게 만들어지는 의사 결정 트리들의 컬렉션입니다. 트리는 대체 항목이 있는 방문 레코드의 하위 집합을 임의로 선택하고(Bagging이라고 함), 속성의 하위 집합을 임의로 선택하여 빌드하므로 포리스트는 약간 다른 결정 트리로 구성됩니다. 이 방법에서 Random Forest에서 만들어진 트리들은 약간씩 다르게 변형됩니다. 이 통제된 크기의 차이를 포함하는 것은 알고리즘의 예측 정확도를 향상시키는 데 도움이 됩니다.

Target 개인화 알고리즘에서 Random Forest를 사용하는 방법은 무엇입니까?

모델 구축 방법

다음 다이어그램은 Auto-Target 및 Automated Personalization 활동에 대해 모델을 만드는 방법을 요약합니다.

random_forest_flow 이미지

  1. Target은 경험 또는 오퍼를 임의로 제공하는 동안 방문자에 대한 데이터를 수집합니다
  2. Target이(가) 중요한 데이터 덩어리에 도달한 후 Target에서 기능 엔지니어링을 수행합니다.
  3. Target에서 각 경험 또는 오퍼에 대해 Random Forest 모델을 만듭니다.
  4. Target에서 모델이 임계값 품질 점수를 충족하는지 확인합니다.
  5. Target이(가) 향후 트래픽을 개인화하기 위해 모델을 프로덕션으로 푸시합니다.

Target은(는) 자동으로 수집하는 데이터와 사용자가 제공한 사용자 지정 데이터를 사용하여 개인화 알고리즘을 만듭니다. 이러한 모델은 방문자에게 표시할 최고의 경험이나 오퍼를 예측합니다. 일반적으로 경험(Auto-Target 활동의 경우) 또는 오퍼(Automated Personalization 활동의 경우)마다 하나의 모델이 만들어집니다. 그런 다음 Target은(는) 가장 높은 예상 성공 지표(예: 전환율)를 산출하는 경험 또는 오퍼를 표시합니다. 이러한 모델은 예측에 사용하기 전에 무작위로 제공되는 방문에 대해 학습을 받아야 합니다. 그 결과, 활동이 처음 시작될 때 개인화 알고리즘이 준비되기 전까지는 개인화된 그룹에 있는 해당 방문자에게도 다른 경험이나 오퍼가 표시됩니다.

각 모델은 활동에 사용되기 전에 방문자의 행동을 잘 예측하도록 검증되어야 합니다. 모델은 곡선 아래 면적(AUC)을 기반으로 검증된다. 유효성 검사가 필요하기 때문에 모델이 개인화된 경험을 제공하기 시작하는 정확한 시간은 데이터의 세부 정보에 따라 다릅니다. 실제로 트래픽 계획 용도로 제공하려는 경우, 각 모델이 유효해지기까지는 최소 전환 개수를 사용할 때보다 많은 시간이 소요됩니다.

경험 또는 오퍼용으로 모델이 유효하게 되면 경험/오퍼 이름의 왼쪽에 있는 시계 아이콘이 녹색 확인란으로 바뀝니다. 최소 2개의 경험 또는 오퍼에 대해 유효한 모델이 있는 경우 일부 방문이 개인화되기 시작합니다.