자동 최적화 모델 auto-optimization-model
Adobe Journey Optimizer의 자동 최적화 모델은 자격 규칙 및 빈도 상한이 적용된 후 모든 오퍼(또는 콘텐츠)를 탐색한 다음 예측된 CTR을 기반으로 항목의 등급을 매겨 오퍼 클릭스루 비율(CTR)을 극대화하는 강화 학습 모델입니다.
사용 사례 및 이점 use-cases-benefits
자동 최적화는 빠르고 간편한 설정을 원하고, 전반적으로 우수성이 검증된 오퍼를 찾고, 단일 채널 내에서 오퍼 클릭을 극대화하려는 경우 언제든지 사용할 수 있습니다. 예:
- 오퍼 클릭수를 최대화하기 위해 웹 페이지에 삽입할 최상의 오퍼를 선택합니다.
- 오퍼 클릭수를 최대화하기 위해 이메일에 삽입할 최상의 오퍼를 선택합니다.
- 오퍼 클릭을 극대화하려면 모바일 앱 화면에 삽입할 최상의 오퍼를 선택하십시오.
다음과 같은 경우 자동 최적화를 선택하는 것이 좋습니다.
- 시간에 따라 또는 자주 변경되는 오퍼: 자동 최적화 모델은 6시간마다 재교육됩니다.
요구 사항 및 제한 사항 requirements-limitations
자동 최적화에는 다음과 같은 요구 사항과 제한이 있습니다.
- 자동 최적화를 사용하려면 오퍼 표시 이벤트, 오퍼 클릭 이벤트 및 경험 이벤트 - 제안 상호 작용 필드 그룹이 포함된 교육 데이터 세트가 필요합니다.
- 자동 최적화 모델은 Batch Decisioning API에 대한 요청에서 사용할 수 없습니다.
- 자동 최적화는 항상 오퍼 클릭에 대해 최적화됩니다. 오퍼 클릭 수 이외의 목표를 극대화하려면 개인화된 최적화 모델을 사용하십시오.
- 자동 최적화는 전체적으로 우수성이 검증된 오퍼를 찾고 각 고객에 대한 개인화된 순위를 찾지 않습니다. 각 고객에 대해 개인화된 순위를 찾으려면 개인화된 최적화 모델을 사용하십시오.
자동 최적화 모델을 교육하려면 데이터 세트가 다음 최소 요구 사항을 충족해야 합니다.
- 지난 14일 이내에 데이터 세트에 있는 2개 이상의 오퍼에 100개 이상의 디스플레이 이벤트와 5개의 클릭 이벤트가 있어야 합니다.
- 지난 14일 내에 100개 미만의 디스플레이 및/또는 5개의 클릭 이벤트가 있는 오퍼는 모델에서 새 오퍼로 처리되며 탐색 은행에서만 제공할 수 있습니다.
- 지난 14일 내에 100개 이상의 디스플레이와 5개의 클릭 이벤트가 있는 오퍼는 모델에서 기존 오퍼로 처리되며 탐색 및 착취 밴드에서 모두 제공할 수 있습니다.
자동 최적화 모델이 처음 교육될 때까지 자동 최적화 모델을 활용하는 선택 전략 내의 오퍼는 임의로 제공됩니다.
최적화와 학습 간 균형 조정 balancing-optimization-learning
자동 최적화는 실제 고객 행동을 기반으로 오퍼의 클릭스루 성능에 대해 학습하는 강화 학습 모델입니다. 강화 학습 모델은 예측한 결과가 더 나은 행동을 선택함으로써 목표를 극대화하고자 한다. 그러나 항상 모든 고객에게 최상의 예측 결과를 제공한 모델은 시간이 지남에 따라 도입된 새 항목의 성능에 대해 절대 학습하지 않으며(이른바 "콜드 스타트 문제"), 시간이 지남에 따라 고객의 동작이 변경되어 발생하는 다른 기존 항목의 성능 변화에 대해서도 학습하지 않습니다. 따라서 강화 학습 모델은 일반적으로 탐색-악용 절충이라고 하는 것, 즉 학습과의 균형 최적화를 관리해야 합니다.
자동 최적화는 multi-armed bandit이라는 일반적인 접근 방식을 사용하여 절충을 관리합니다. multi-armed bandit 는 다음을 기반으로 순위 결정을 수행합니다.
- 각 항목의 예상 클릭스루 비율
- 각 항목의 예상 클릭스루 비율의 차이
- 각 항목에 대한 예측의 불확실성 정도.
다중 무장 도적들은 무작위 변동성과 함께 이 정보를 활용하여 취할 조치를 선택한다. 자동 최적화는 전체 성능을 최대화하면서 모든 오퍼를 적절히 탐색할 수 있도록 여러 다단계 밴드들을 포함하는 앙상블 알고리즘입니다.
순위 요청에 응답할 때 "감독"하는 multi-armed bandit은 먼저 이 요청이 탐색에 편향되어야 하는지 또는 착취에 편향되어야 하는지 여부를 선택합니다. 이 결정은 "epsilon-greedy" 접근 방식을 사용하여 수행됩니다.
두 번째 등급 레이어는 두 개의 Thompson 샘플링 밴드 중 하나에 의해 수행됩니다.
- 트래픽의 10%는 새로운 오퍼를 추천할 가능성이 높거나 데이터가 제한된 탐색 중심 밴딧에 할당되며, 이러한 오퍼에 대한 응답으로 고객 행동에 대해 자세히 학습하면 모델이 도움이 된다는 가정 하에 할당됩니다.
- 트래픽의 90%는 시간이 지남에 따라 성과가 좋은 오퍼를 일관되게 추천할 가능성이 더 높은 착취 중심의 bandit에 할당되며, 이는 신규 또는 낮은 데이터 오퍼가 입증될 때까지 성과가 낮은 오퍼일 가능성이 더 높다는 가정 하에 수행됩니다.
기술적인 의미에서 이러한 가정은 우선 순위라고도 하는 사전 확률 분포의 매개 변수입니다. 오퍼가 더 많은 디스플레이와 클릭 데이터를 수집하면 선택한 우선순위의 영향력이 낮아지고 두 번의 예측이 시간이 지남에 따라 수렴하는 경향이 있습니다.
여러 밴드를 결합하고 탐색을 위해 일부 전용 트래픽을 할당하는 접근 방식은 다음과 같은 몇 가지 이점을 제공합니다.
- 이 모델은 가장 적은 데이터로 최신 오퍼에 대해 가장 빠르게 학습합니다
- 이 모델은 모든 오퍼에 대해 계속 학습하고 시간이 지남에 따라 고객 동작의 변경에 응답합니다
- 이 모델은 겉보기 CTR이 더 높지만 관찰이 적은 오퍼를 적극적으로 선호하거나, 겉보기 CTR이 더 낮지만 관찰이 적은 오퍼를 적극적으로 선호하지 않음으로써 과도하게 맞춰지지 않습니다
- 이 모델은 스파스 클릭 데이터와 매우 다른 양의 내역 데이터를 사용하여 수백 개의 오퍼에 대한 트래픽 할당 결정을 처리하는 데 강력합니다
톰슨 샘플링 thompson-sampling
Thompson 샘플링 또는 베이지안 산적들은 다발 산적 문제에 대한 베이지안 접근법입니다. 이 모델은 각 오퍼의 평균 보상 𝛍을(를) 무작위 변수로 취급하고 지금까지 수집한 데이터를 사용하여 평균 보상에 대한 "믿음"을 업데이트합니다. 이 "믿음"은 후기 확률 분포로 수학적으로 표현됩니다. 기본적으로 각 오퍼에 대해 보상이 해당 값을 갖는 가능성(또는 확률)과 함께 평균 보상에 대한 값의 범위입니다. 그런 다음 모든 결정에 대해 이러한 사후 보상 분포 각각에서 한 점을 샘플링하고 샘플링된 보상이 가장 높은 값을 가진 오퍼를 선택합니다.
이 프로세스는 아래 그림과 같으며, 여기서는 3개의 오퍼가 있습니다. 처음에 우리는 자료로부터 아무런 증거도 가지고 있지 않으며, 우리는 모든 제안들이 균일한 사후 보상 분포를 가지고 있다고 가정한다. 우리는 각 오퍼의 사후 보상 분포에서 샘플을 도출한다. 오퍼 2의 배포에서 선택한 샘플의 값이 가장 높습니다. 이것은 탐험의 한 예이다. 오퍼 2를 표시한 후 잠재적 보상(예: 전환/전환 없음)을 수집하고 아래 설명된 대로 베이즈 정리를 사용하여 오퍼 2의 사후 분포를 업데이트합니다. 이 프로세스를 계속 진행하고 오퍼가 표시되고 보상이 수집될 때마다 사후 분포를 업데이트합니다. 두 번째 그림에서는 오퍼 3이 선택되었습니다. 오퍼 1이 가장 높은 평균 보상(사후 보상 분포는 오른쪽으로 가장 멀리 있음)을 제공함에도 불구하고 각 분포에서 샘플링하는 프로세스는 명백히 최적이 아닌 오퍼 3을 선택하게 만들었습니다. 이를 통해 Offer 3의 진정한 보상 분배에 대해 자세히 알아볼 수 있는 기회를 제공합니다.
더 많은 표본이 수집될수록 신뢰도는 증가하고, 가능한 보상에 대한 보다 정확한 추정치가 얻어진다(더 좁은 보상 분포에 해당함). 더 많은 증거를 사용할 수 있을 때 신념을 업데이트하는 이러한 과정을 베이지안 추론이라고 합니다.
결국, 하나의 오퍼(예를 들어, 오퍼 1)가 명백한 승자일 경우, 그 사후 보상 분포는 다른 오퍼들과 분리될 것이다. 이 시점에서 각 결정에 대해 오퍼 1에서 표본으로 추출된 보상이 가장 높을 가능성이 있으며, 우리는 더 높은 확률로 선택할 것이다. 이것은 착취입니다. 우리는 오퍼 1이 최선이라는 강한 믿음을 가지고 있습니다. 그래서 보상을 극대화하기 위해 선택되었습니다.
그림 1: 모든 결정에 대해 후기 보상 분포에서 한 지점을 샘플링합니다. 샘플 값(전환율)이 가장 높은 오퍼가 선택됩니다. 초기 단계에서는 데이터에서 오퍼의 전환율에 대한 증거가 없으므로 모든 오퍼가 균일한 분포를 갖습니다. 우리가 더 많은 표본을 수집함에 따라, 후방 분포는 더 좁고 더 정확해진다. 궁극적으로 전환율이 가장 높은 오퍼가 매번 선택됩니다.
분포를 계산/업데이트하려면 베이즈 정리를 사용합니다. 각 오퍼 i에 대해 P(𝛍i | data), 즉 각 오퍼 i에 대해, 해당 오퍼에 대해 지금까지 수집한 데이터를 고려할 때 보상 값 𝛍i이(가) 제공될 가능성이 얼마나 되는지 계산하려고 합니다.
베이즈 정리에서:
사후 = 가능성 * 이전
이전 확률은(는) 출력을 생성할 가능성에 대한 초기 추측입니다. 일부 증거가 수집된 후의 확률을 사후 확률이라고 합니다.
자동 최적화는 이진 보상(클릭/클릭 안 함)을 고려하도록 설계되었습니다. 이 경우 가능성은 N번의 시도에서 성공한 횟수이며 이항 분포로 모델링된다. 어떤 우도 함수의 경우, 어떤 전조를 선택하면, 후위는 전차와 같은 분포에 있게 된다. 그런 다음 이러한 전이를 conjugate prior이라고 합니다. 이러한 종류의 선행은 사후분포의 계산을 매우 간단하게 만든다. Beta 분포는 이항 가능성(이진 보상) 이전의 일치이므로 이전 및 이후 확률 분포에 편리하고 합리적인 선택입니다. Beta 배포에는 두 개의 매개 변수인 α과(와) β이(가) 사용됩니다. 이러한 매개 변수는 성공 및 실패 횟수와 다음에 의해 주어진 평균 값으로 생각할 수 있습니다.
위에 설명된 우도 함수는 성공(전환) 및 f 실패(전환 없음)가 있는 이항 분포로 모델링되며, q는 Beta 분포의 임의 변수입니다.
이전 차원은 Beta 분포로 모델링되고 이후 분포는 다음 형식을 취합니다.
탐사 편향과 착취 편향 exploration-exploitation-bias
α, β 매개 변수에 대해 초기 값을 선택해야 합니다. 자동 최적화에는 탐사 편향된 Thompson 샘플링 밴딧과 탐사 편향된 Thompson 샘플링 밴딧이 모두 포함되며, 이들은 베타 분포에서 서로 다른 초기 α, β 프라이어를 사용합니다.
일반적인 Thompson 샘플링 접근 방식에서는 기존 매개 변수 α, β에 성공 및 실패 횟수를 추가하는 것만으로 사후 값이 계산됩니다. 자동 최적화는 새로운 성공 및 실패에 대해 다양한 가중치 요소를 사용하여 탐색 편중 및 이용 편중 구간 모두에서 새로운 데이터와 이전 데이터의 영향을 수정합니다.
참조 references
Thompson 샘플링 산적들에 대한 자세한 내용은 다음 연구 논문을 참조하십시오.