자동 최적화 모델 auto-optimization-model

Adobe Journey Optimizer의 자동 최적화 모델은 자격 규칙 및 빈도 상한이 적용된 후 모든 오퍼(또는 콘텐츠)를 탐색한 다음 예측된 CTR을 기반으로 항목의 등급을 매겨 오퍼 클릭스루 비율(CTR)을 극대화하는 강화 학습 모델입니다.

사용 사례 및 이점 use-cases-benefits

자동 최적화는 빠르고 간편한 설정을 원하고, 전반적으로 우수성이 검증된 오퍼를 찾고, 단일 채널 내에서 오퍼 클릭을 극대화하려는 경우 언제든지 사용할 수 있습니다. 예:

  • 오퍼 클릭수를 최대화하기 위해 웹 페이지에 삽입할 최상의 오퍼를 선택합니다.
  • 오퍼 클릭수를 최대화하기 위해 이메일에 삽입할 최상의 오퍼를 선택합니다.
  • 오퍼 클릭을 극대화하려면 모바일 앱 화면에 삽입할 최상의 오퍼를 선택하십시오.

다음과 같은 경우 자동 최적화를 선택하는 것이 좋습니다.

  • 시간에 따라 또는 자주 변경되는 오퍼: 자동 최적화 모델은 6시간마다 재교육됩니다.

요구 사항 및 제한 사항 requirements-limitations

자동 최적화에는 다음과 같은 요구 사항과 제한이 있습니다.

  • 자동 최적화를 사용하려면 오퍼 표시 이벤트, 오퍼 클릭 이벤트 및 경험 이벤트 - 제안 상호 작용 필드 그룹이 포함된 교육 데이터 세트가 필요합니다.
  • 자동 최적화 모델은 Batch Decisioning API에 대한 요청에서 사용할 수 없습니다.
  • 자동 최적화는 항상 오퍼 클릭에 대해 최적화됩니다. 오퍼 클릭 수 이외의 목표를 극대화하려면 개인화된 최적화 모델을 사용하십시오.
  • 자동 최적화는 전체적으로 우수성이 검증된 오퍼를 찾고 각 고객에 대한 개인화된 순위를 찾지 않습니다. 각 고객에 대해 개인화된 순위를 찾으려면 개인화된 최적화 모델을 사용하십시오.

자동 최적화 모델을 교육하려면 데이터 세트가 다음 최소 요구 사항을 충족해야 합니다.

  • 지난 14일 이내에 데이터 세트에 있는 2개 이상의 오퍼에 100개 이상의 디스플레이 이벤트와 5개의 클릭 이벤트가 있어야 합니다.
  • 지난 14일 내에 100개 미만의 디스플레이 및/또는 5개의 클릭 이벤트가 있는 오퍼는 모델에서 새 오퍼로 처리되며 탐색 은행에서만 제공할 수 있습니다.
  • 지난 14일 내에 100개 이상의 디스플레이와 5개의 클릭 이벤트가 있는 오퍼는 모델에서 기존 오퍼로 처리되며 탐색 및 착취 밴드에서 모두 제공할 수 있습니다.

자동 최적화 모델이 처음 교육될 때까지 자동 최적화 모델을 활용하는 선택 전략 내의 오퍼는 임의로 제공됩니다.

최적화와 학습 간 균형 조정 balancing-optimization-learning

자동 최적화는 실제 고객 행동을 기반으로 오퍼의 클릭스루 성능에 대해 학습하는 강화 학습 모델입니다. 강화 학습 모델은 예측한 결과가 더 나은 행동을 선택함으로써 목표를 극대화하고자 한다. 그러나 항상 모든 고객에게 최상의 예측 결과를 제공한 모델은 시간이 지남에 따라 도입된 새 항목의 성능에 대해 절대 학습하지 않으며(이른바 "콜드 스타트 문제"), 시간이 지남에 따라 고객의 동작이 변경되어 발생하는 다른 기존 항목의 성능 변화에 대해서도 학습하지 않습니다. 따라서 강화 학습 모델은 일반적으로 탐색-악용 절충이라고 하는 것, 즉 학습과의 균형 최적화를 관리해야 합니다.

자동 최적화는 multi-armed bandit이라는 일반적인 접근 방식을 사용하여 절충을 관리합니다. multi-armed bandit 는 다음을 기반으로 순위 결정을 수행합니다.

  • 각 항목의 예상 클릭스루 비율
  • 각 항목의 예상 클릭스루 비율의 차이
  • 각 항목에 대한 예측의 불확실성 정도.

다중 무장 도적들은 무작위 변동성과 함께 이 정보를 활용하여 취할 조치를 선택한다. 자동 최적화는 전체 성능을 최대화하면서 모든 오퍼를 적절히 탐색할 수 있도록 여러 다단계 밴드들을 포함하는 앙상블 알고리즘입니다.

순위 요청에 응답할 때 "감독"하는 multi-armed bandit은 먼저 이 요청이 탐색에 편향되어야 하는지 또는 착취에 편향되어야 하는지 여부를 선택합니다. 이 결정은 "epsilon-greedy" 접근 방식을 사용하여 수행됩니다.

두 번째 등급 레이어는 두 개의 Thompson 샘플링 밴드 중 하나에 의해 수행됩니다.

  • 트래픽의 10%는 새로운 오퍼를 추천할 가능성이 높거나 데이터가 제한된 탐색 중심 밴딧에 할당되며, 이러한 오퍼에 대한 응답으로 고객 행동에 대해 자세히 학습하면 모델이 도움이 된다는 가정 하에 할당됩니다.
  • 트래픽의 90%는 시간이 지남에 따라 성과가 좋은 오퍼를 일관되게 추천할 가능성이 더 높은 착취 중심의 bandit에 할당되며, 이는 신규 또는 낮은 데이터 오퍼가 입증될 때까지 성과가 낮은 오퍼일 가능성이 더 높다는 가정 하에 수행됩니다.

기술적인 의미에서 이러한 가정은 우선 순위라고도 하는 사전 확률 분포의 매개 변수입니다. 오퍼가 더 많은 디스플레이와 클릭 데이터를 수집하면 선택한 우선순위의 영향력이 낮아지고 두 번의 예측이 시간이 지남에 따라 수렴하는 경향이 있습니다.

여러 밴드를 결합하고 탐색을 위해 일부 전용 트래픽을 할당하는 접근 방식은 다음과 같은 몇 가지 이점을 제공합니다.

  • 이 모델은 가장 적은 데이터로 최신 오퍼에 대해 가장 빠르게 학습합니다
  • 이 모델은 모든 오퍼에 대해 계속 학습하고 시간이 지남에 따라 고객 동작의 변경에 응답합니다
  • 이 모델은 겉보기 CTR이 더 높지만 관찰이 적은 오퍼를 적극적으로 선호하거나, 겉보기 CTR이 더 낮지만 관찰이 적은 오퍼를 적극적으로 선호하지 않음으로써 과도하게 맞춰지지 않습니다
  • 이 모델은 스파스 클릭 데이터와 매우 다른 양의 내역 데이터를 사용하여 수백 개의 오퍼에 대한 트래픽 할당 결정을 처리하는 데 강력합니다

톰슨 샘플링 thompson-sampling

Thompson 샘플링 또는 베이지안 산적들은 다발 산적 문제에 대한 베이지안 접근법입니다. 이 모델은 각 오퍼의 평균 보상 𝛍을(를) 무작위 변수로 취급하고 지금까지 수집한 데이터를 사용하여 평균 보상에 대한 "믿음"을 업데이트합니다. 이 "믿음"은 후기 확률 분포로 수학적으로 표현됩니다. 기본적으로 각 오퍼에 대해 보상이 해당 값을 갖는 가능성(또는 확률)과 함께 평균 보상에 대한 값의 범위입니다. 그런 다음 모든 결정에 대해 이러한 사후 보상 분포 각각에서 한 점을 샘플링하고 샘플링된 보상이 가장 높은 값을 가진 오퍼를 선택합니다.

이 프로세스는 아래 그림과 같으며, 여기서는 3개의 오퍼가 있습니다. 처음에 우리는 자료로부터 아무런 증거도 가지고 있지 않으며, 우리는 모든 제안들이 균일한 사후 보상 분포를 가지고 있다고 가정한다. 우리는 각 오퍼의 사후 보상 분포에서 샘플을 도출한다. 오퍼 2의 배포에서 선택한 샘플의 값이 가장 높습니다. 이것은 탐험의 한 예이다. 오퍼 2를 표시한 후 잠재적 보상(예: 전환/전환 없음)을 수집하고 아래 설명된 대로 베이즈 정리를 사용하여 오퍼 2의 사후 분포를 업데이트합니다. 이 프로세스를 계속 진행하고 오퍼가 표시되고 보상이 수집될 때마다 사후 분포를 업데이트합니다. 두 번째 그림에서는 오퍼 3이 선택되었습니다. 오퍼 1이 가장 높은 평균 보상(사후 보상 분포는 오른쪽으로 가장 멀리 있음)을 제공함에도 불구하고 각 분포에서 샘플링하는 프로세스는 명백히 최적이 아닌 오퍼 3을 선택하게 만들었습니다. 이를 통해 Offer 3의 진정한 보상 분배에 대해 자세히 알아볼 수 있는 기회를 제공합니다.

더 많은 표본이 수집될수록 신뢰도는 증가하고, 가능한 보상에 대한 보다 정확한 추정치가 얻어진다(더 좁은 보상 분포에 해당함). 더 많은 증거를 사용할 수 있을 때 신념을 업데이트하는 이러한 과정을 베이지안 추론​이라고 합니다.

결국, 하나의 오퍼(예를 들어, 오퍼 1)가 명백한 승자일 경우, 그 사후 보상 분포는 다른 오퍼들과 분리될 것이다. 이 시점에서 각 결정에 대해 오퍼 1에서 표본으로 추출된 보상이 가장 높을 가능성이 있으며, 우리는 더 높은 확률로 선택할 것이다. 이것은 착취입니다. 우리는 오퍼 1이 최선이라는 강한 믿음을 가지고 있습니다. 그래서 보상을 극대화하기 위해 선택되었습니다.

그림 1: 모든 결정에 대해 후기 보상 분포에서 한 지점을 샘플링합니다. 샘플 값(전환율)이 가장 높은 오퍼가 선택됩니다. 초기 단계에서는 데이터에서 오퍼의 전환율에 대한 증거가 없으므로 모든 오퍼가 균일한 분포를 갖습니다. 우리가 더 많은 표본을 수집함에 따라, 후방 분포는 더 좁고 더 정확해진다. 궁극적으로 전환율이 가장 높은 오퍼가 매번 선택됩니다.

계산 세부 정보

분포를 계산/업데이트하려면 베이즈 정리​를 사용합니다. 각 오퍼 i​에 대해 P(𝛍i | data), 즉 각 오퍼 i​에 대해, 해당 오퍼에 대해 지금까지 수집한 데이터를 고려할 때 보상 값 𝛍i​이(가) 제공될 가능성이 얼마나 되는지 계산하려고 합니다.

베이즈 정리에서:

사후 = 가능성 * 이전

이전 확률​은(는) 출력을 생성할 가능성에 대한 초기 추측입니다. 일부 증거가 수집된 후의 확률을 사후 확률​이라고 합니다.

자동 최적화는 이진 보상(클릭/클릭 안 함)을 고려하도록 설계되었습니다. 이 경우 가능성은 N번의 시도에서 성공한 횟수이며 이항 분포로 모델링된다. 어떤 우도 함수의 경우, 어떤 전조를 선택하면, 후위는 전차와 같은 분포에 있게 된다. 그런 다음 이러한 전이를 conjugate prior​이라고 합니다. 이러한 종류의 선행은 사후분포의 계산을 매우 간단하게 만든다. Beta 분포는 이항 가능성(이진 보상) 이전의 일치이므로 이전 및 이후 확률 분포에 편리하고 합리적인 선택입니다. Beta 배포에는 두 개의 매개 변수인 α​과(와) β​이(가) 사용됩니다. 이러한 매개 변수는 성공 및 실패 횟수와 다음에 의해 주어진 평균 값으로 생각할 수 있습니다.

위에 설명된 우도 함수는 성공(전환) 및 f 실패(전환 없음)가 있는 이항 분포로 모델링되며, q는 Beta 분포의 임의 변수입니다.

이전 차원은 Beta 분포로 모델링되고 이후 분포는 다음 형식을 취합니다.

탐사 편향과 착취 편향 exploration-exploitation-bias

α, β 매개 변수에 대해 초기 값을 선택해야 합니다. 자동 최적화에는 탐사 편향된 Thompson 샘플링 밴딧과 탐사 편향된 Thompson 샘플링 밴딧이 모두 포함되며, 이들은 베타 분포에서 서로 다른 초기 α, β 프라이어를 사용합니다.

일반적인 Thompson 샘플링 접근 방식에서는 기존 매개 변수 α, β​에 성공 및 실패 횟수를 추가하는 것만으로 사후 값이 계산됩니다. 자동 최적화는 새로운 성공 및 실패에 대해 다양한 가중치 요소를 사용하여 탐색 편중 및 이용 편중 구간 모두에서 새로운 데이터와 이전 데이터의 영향을 수정합니다.

참조 references

Thompson 샘플링 산적들에 대한 자세한 내용은 다음 연구 논문을 참조하십시오.

recommendation-more-help
b22c9c5d-9208-48f4-b874-1cefb8df4d76