Premium

Target의 추천 알고리즘에 숨겨진 과학

마지막 업데이트: 2023-05-24

에서 사용되는 알고리즘에 대한 심층적인 설명 Adobe Target Recommendations, 모델 트레이닝의 논리 및 수학 세부 정보 및 모델 서비스 제공 프로세스를 포함합니다.

모델 교육은 이(가) 추천을 생성하는 방법입니다. Adobe Target 학습 알고리즘. 모델 제공은 Target 는 사이트 방문자에게 권장 사항을 제공합니다(콘텐츠 전달이라고도 함).

Target 에는 다음과 같은 광범위한 유형의 알고리즘이 포함되어 있습니다. Recommendations:

  • 항목 기반 알고리즘: "이 항목을 보거나 구매한 사람이 이 항목을 보거나 구매한 경우"라는 논리를 따르는 알고리즘을 포함합니다. 이러한 알고리즘은 항목-항목 협업 필터링이라는 포괄적 용어로 그룹화되며 속성이 비슷한 항목 알고리즘 을 참조하십시오.

  • 사용자 기반 알고리즘: 다음을 포함합니다. 최근에 본 항목 및 추천 항목 알고리즘 을 참조하십시오.

  • 인기도 기반 알고리즘: 웹 사이트에서 가장 많이 본 항목 또는 가장 많이 구매한 항목, 카테고리 또는 항목 속성별로 가장 많이 본 항목 또는 가장 많이 구매한 항목을 반환하는 알고리즘을 포함합니다.

  • 장바구니 기반 알고리즘: "이러한 항목을 보거나/구매한 사람, 해당 항목을 보거나/구매한 사람" 논리가 있는 다중 항목 기반 권장 사항을 포함합니다.

  • 사용자 지정 기준: 다음에 업로드된 사용자 지정 파일을 기반으로 한 권장 사항 포함 Target.

노트

각 알고리즘 유형 및 개별 알고리즘에 대한 자세한 내용은 권장 사항 키를 기반으로 권장 사항 만들기.

위에 나열된 알고리즘 중 다수는 하나 또는 여러 키의 존재를 기반으로 합니다. 이러한 키는 콘텐츠 전달 시 (권장 사항이 작성될 때) 유사한 항목을 검색하는 데 사용됩니다. 고객이 지정한 키에는 사용자가 보고 있는 현재 항목, 마지막으로 본 항목 또는 구매한 항목, 가장 많이 본 항목, 현재 카테고리 또는 해당 방문자의 즐겨찾기 카테고리가 포함될 수 있습니다. 장바구니 기반 또는 사용자 기반 권장 사항과 같은 기타 알고리즘은 암시적 키(고객이 구성할 수 없음)를 사용합니다. 자세한 내용은 권장 사항 키, 위치 권장 사항 키를 기반으로 권장 사항 만들기. 단, 이러한 키는 모델 제공 시간에만 관련이 있습니다(컨텐츠 전달). 이러한 키는 "오프라인" 또는 모델 교육 시간 논리에 영향을 주지 않습니다.

다음 섹션은 위에서 설명한 알고리즘 유형과 약간 다른 방식으로 알고리즘을 그룹화합니다. 다음의 그룹화는 모델 훈련 로직의 유사성을 기준으로 한다.

품목-품목 협업 필터링

알고리즘 에는 다음이 포함됩니다.

  • 이 항목을 보고 다른 항목도 본 사람
  • 이 항목을 보고 다른 항목을 구입한 사람
  • 이 항목을 구입하고 다른 항목도 구입한 사람

항목-항목 공동 작업 필터링 권장 사항 알고리즘은 많은 사용자의 행동 패턴을 사용하여(따라서 공동 작업) 주어진 항목에 유용한 권장 사항을 제공해야 한다는 아이디어(예: 권장할 가능한 항목의 카탈로그를 필터링해야 함)에 기반을 둡니다. 의 일반적인 범위에 속하는 다양한 알고리즘이 있지만 공동 작업 필터링, 이러한 알고리즘은 일반적으로 행동 데이터 소스를 입력으로 사용합니다. 위치 Target Recommendations: 이러한 입력은 사용자가 항목을 고유하게 보고 구매하는 것입니다.

"이 항목을 보거나 구매한 사람 및 이 항목을 보거나 구매한 사람" 알고리즘의 목표는 모든 항목 쌍 간의 유사성 s(A,B)를 계산하는 것입니다. 주어진 항목 A에 대해 상위 권장 사항은 그 유사성 s(A,B)별로 순서가 지정됩니다.

이러한 유사성의 한 예는 항목 간의 공동 발생입니다. 두 항목을 모두 구매한 사용자 수의 간단한 카운트입니다. 직관적이긴 하지만, 이러한 지표는 인기 항목을 추천하는 것에 치우쳐 있다는 점에서 순진하다. 예를 들어, 식료품 소매점에서 대부분의 사람들이 빵을 구매할 경우, 빵은 모든 품목과 높은 동반 발생을 보이겠지만 반드시 좋은 추천은 아니다. Target 대신 로그 우도비(LLR)라고 알려진 보다 정교한 유사성 지표를 사용합니다. 이 양은 두 문항 A와 B의 동시 발생 확률이 서로 미발생 확률과 매우 다를 때 크다. 구체화를 위해 다음과 같은 경우를 고려하십시오. 이 항목을 보고 다른 항목을 구입한 사람 알고리즘. LLR 유사도는 B가 구매되었을 확률이 다음과 같을 때 크다 아님 누군가가 A를 보았는지 여부에 관계 없이.

예를 들어

조회/구매 알고리즘에 대한 공식

그런 다음 항목 B는 항목 A와 함께 권장되지 않습니다. 이 로그 가능성 비율 유사성 계산에 대한 전체 세부 정보가 제공됩니다 이 PDF.

실제 알고리즘 구현의 논리 흐름은 다음 도식도에 나와 있습니다.

조회/구매 알고리즘의 도식 다이어그램

이러한 단계의 세부 사항은 다음과 같습니다.

  • 입력 데이터: 다음 작업을 수행할 때 수집된 방문자 보기 및 구매 형식의 행동 데이터 구현 Target or from Adobe Analytics.

  • 모델 교육:

    • 데이터 정리 및 샘플링: N일 전환 확인이 있는 알고리즘의 경우 동작 데이터가 먼저 해당 N일 데이터만 포함하도록 필터링됩니다. 그런 다음 컬렉션 규칙 및 전역 제외가 적용되어 권장되지 않아야 하는 모든 항목을 제거합니다. 마지막으로 1,000개 이상의 항목과 상호 작용한 모든 방문자는 사용 데이터를 1,000개 항목으로만 샘플링했습니다.
    • 항목 유사성 계산: 핵심 계산 단계입니다. 모든 후보 항목 쌍 간의 로그 우도비 유사도를 계산하고 이 유사도 점수로 항목의 순위 쌍을 계산합니다.
    • 오프라인 필터링: 마지막으로, 적용 가능한 모든 동적 필터가 적용됩니다(예: 동적 범주 제외). 이 단계 후에는 사전 계산된 권장 사항이 전역적으로 캐시되어 제공할 수 있습니다.
  • 모델 제공: Recommendations 컨텐츠가에서 전달됨 Target의 글로벌 "에지" 네트워크. mbox 요청이으로 수행된 경우 Target 또한 권장 사항 콘텐츠는 적절한 요청에 대한 페이지에도 전달되어야 합니다 항목 키 의 권장 사항 알고리즘은 요청에서 구문 분석되거나 사용자 프로필에서 조회된 다음, 이전 단계에서 계산된 권장 사항을 검색하는 데 사용됩니다. 이때 적절하기 전에 추가 동적 필터가 적용됩니다 디자인 렌더링됩니다.

콘텐츠 유사성

알고리즘 포함:

  • 속성이 비슷한 항목

이러한 유형의 알고리즘에서 두 항목은 이름과 텍스트 설명이 의미상 유사하면 관련이 있는 것으로 간주됩니다. 행동 데이터 소스를 사용해야 하는 대부분의 권장 사항 알고리즘과 달리, 콘텐츠 유사성 알고리즘은 제품 카탈로그의 메타데이터를 사용하여 항목 간의 유사성을 도출합니다. Target 따라서 은 어떤 행동 데이터도 수집되지 않은 이른바 "cold-start" 시나리오에서 권장 사항을 유도할 수 있습니다(예: 의 시작 부분에서). Target 활동)을 참조하십시오.

의 모델 서비스 제공 및 콘텐츠 전달 측면입니다. Target의 콘텐츠 유사성 알고리즘은 다른 항목 기반 알고리즘과 동일하며, 모델 교육 단계는 크게 다르며 다음 다이어그램에 표시된 대로 일련의 자연어 처리 및 전처리 단계를 포함합니다. 유사도 계산의 핵심은 카탈로그의 각 항목을 나타내는 수정된 tf-idf 벡터의 코사인 유사도를 사용하는 것이다.

콘텐츠 유사성 프로세스의 흐름을 보여 주는 다이어그램

이러한 단계의 세부 사항은 다음과 같습니다.

  • 입력 데이터: 이전에 설명한 대로 이 알고리즘은 전적으로 카탈로그 데이터(로 수집됨)를 기반으로 합니다. Target 를 통해 카탈로그 피드, 엔티티 API 또는 페이지 업데이트.

  • 모델 교육:

    • 속성 추출: 일반 정적 필터, 카탈로그 규칙 및 전역 제외를 적용한 후 이 알고리즘은 엔티티 스키마에서 관련 텍스트 필드를 추출합니다. Target 는 엔티티 속성에서 이름, 메시지 및 카테고리 필드를 자동으로 사용하고, 사용자 지정에서 문자열 필드를 추출하려고 시도합니다 엔티티 속성. 이 프로세스는 해당 필드에 대한 값의 대부분을 숫자, 날짜 또는 부울로 구문 분석할 수 없도록 함으로써 수행됩니다.

    • 어간 및 정지어 제거: 더 정확한 텍스트 유사성 일치를 위해 항목의 의미를 크게 변경하지 않는 매우 일반적인 "중지" 단어(예: "was", "is", "and" 등)를 제거하는 것이 좋습니다. 마찬가지로 형태소 분석이란 동일한 의미(예: "connect", "connecting", "connection"은 모두 동일한 루트 단어를 가지고 있습니다. "connect")를 가진 루트 단어에 접미사가 다른 단어를 축소하는 과정을 말합니다. Target 는 Snowball 스테머를 사용합니다. Target 먼저 자동 언어 감지를 수행하고 최대 50개 언어에 대해 단어 제거를 중단하고 18개 언어에 대해 어간 분석을 중지할 수 있습니다.

    • n-그램 생성: 이전 단계 후에 각 단어는 토큰으로 처리됩니다. 토큰의 연속적인 시퀀스를 하나의 토큰으로 결합하는 과정을 n-그램 생성이라고 한다. Target의 알고리즘은 최대 2g를 고려합니다.

    • tf-idf 계산: 다음 단계에서는 항목 설명에 있는 토큰의 상대적 중요성을 반영하기 위해 tf-idf 벡터를 만듭니다. 항목 i의 각 토큰/용어 t에 대해 다음을 포함하는 카탈로그 D의 항목 |D| 빈도라는 용어 TF(t, i)가 먼저 계산되고(용어가 항목 i에 표시되는 횟수) 문서 빈도수 DF(t, D)도 계산됩니다. 본질적으로, 토큰 t가 존재하는 항목의 수. 그러면 tf-idf 측정값이

      tf-idf 측정값을 표시하는 공식

      Target apache Spark 사용 tf-idf 기능 구현, 후드에서 각 토큰을 218개의 토큰 공간으로 해시합니다. 이 단계에서는 각 벡터의 용어 빈도를 다음에 지정된 설정에 따라 조정함으로써 고객이 지정한 속성 부스팅 및 매립도 적용합니다. 기준.

    • 항목 유사성 계산: 최종 항목 유사성 계산은 근사 코사인 유사성을 사용하여 수행됩니다. 두 가지 항목에 대해서는, AB​벡터 tA와 tB를 사용하여 코사인 유사성은 다음과 같이 정의됩니다.

      항목 유사성 계산을 보여 주는 공식

      모든 N x N 항목 간의 유사성을 계산하는 데 있어 상당한 복잡성을 피하기 위해 tf-idf 벡터는 가장 큰 500개의 항목만 포함하도록 잘린 다음 이 잘린 벡터 표현을 사용하여 항목 간의 코사인 유사성을 계산합니다. 이 접근법은 국소성 민감 해싱과 같은 다른 근사 최근접 이웃(ANN) 기법에 비해 희소 벡터 유사성 계산에 더 강건하다는 것을 입증한다.

    • 모델 제공: 이 프로세스는 이전 섹션에서 설명한 항목-항목 공동 작업 필터링 기술과 동일합니다.

다중 키 권장 사항

알고리즘 에는 다음이 포함됩니다.

  • 장바구니 기반 권장 사항
  • 추천 항목

에 대한 가장 최근 추가 항목 Target 권장 사항 알고리즘 세트는 다음과 같습니다 추천 항목 및 일련의 장바구니 기반 권장 사항 알고리즘 두 유형의 알고리즘 모두 협업 필터링 기법을 사용하여 개별 항목 기반 추천을 형성합니다. 그런 다음, 서비스 타임에 사용자의 검색 기록에 있는 여러 항목( 용 추천 항목) 또는 사용자의 현재 장바구니(장바구니 기반 권장 사항의 경우)를 사용하여 이러한 항목 기반 권장 사항을 검색한 다음, 병합하여 권장 사항의 최종 목록을 만듭니다. 개인화된 추천 알고리즘의 다양한 유형이 존재한다는 점을 참고하십시오. 다중 키 알고리즘의 선택은 방문자가 검색 기록을 가지고 있고 최신 방문자 행동에 대응하기 위해 권장 사항을 업데이트할 수 있는 직후에 권장 사항을 사용할 수 있음을 의미합니다.

이러한 알고리즘은 항목 기반 권장 사항 섹션에 설명된 기본 공동 작업 필터링 기술을 기반으로 하지만 하이퍼파라미터 튜닝을 통합하여 항목 간 최적의 유사성 지표를 결정합니다. 이 알고리즘은 각 사용자에 대해 행동 데이터를 시간별로 분할하고, 사용자가 나중에 보거나 구매하는 항목을 예측하려고 시도하는 동안 이전 데이터에 대한 추천 모델을 교육합니다. 최적 상태를 생성하는 유사성 지표 [평균 정밀도] (https://en.wikipedia.org/wiki/Evaluation_measures_(information_retrieval?lang=ko) 이 선택됩니다.

다음 다이어그램에는 모델 교육 및 채점 단계의 논리가 나와 있습니다.

모델 교육 및 채점 단계의 논리를 보여 주는 다이어그램

이러한 단계의 세부 사항은 다음과 같습니다.

  • 입력 데이터: 항목-항목 공동 작업 필터링(CF) 방법과 동일합니다. 두 가지 모두 추천 항목 및 장바구니 기반 알고리즘은 사용자가 다음 작업을 수행할 때 수집된 사용자의 보기 및 구매 형태로 행동 데이터를 사용합니다. 구현 Target or from Adobe Analytics.

  • 모델 교육:

    • 데이터 정리 및 샘플링: 이는 룩백 창이 적절한 날짜 범위로 동작 데이터를 필터링하는 데 적용된 다음 카탈로그 규칙 및 전역 제외를 적용하는 협업 필터링 방법과 다시 동일합니다. 1,000개 이상의 항목과 상호 작용한 방문자는 가장 최근의 1,000개 사용법만 고려합니다.
    • 열차 시험 분할: 각 사용자에 대한 사용량을 시간별로 분할하여 사용량의 처음 80%를 교육 데이터에 할당하고 나머지 20%를 테스트 데이터에 할당합니다.
    • 항목 유사성 모델 교육: 핵심 항목 유사성 계산은 다음에 대해 다릅니다. 추천 항목 후보 항목 벡터가 구성되는 방식으로 장바구니 기반 알고리즘이 제공됩니다. 대상 추천 항목, 항목 벡터에는 차원 NUsers가 있습니다. 여기서 각 항목은 항목의 해당 사용자에 대한 암시적 등급의 합을 나타냅니다. 항목 구매에는 항목 보기의 2배 가중치가 제공됩니다. 장바구니 기반 권장 사항의 경우 항목 벡터에는 이진 항목이 있습니다. 세션 내 비헤이비어만 고려하는 경우 모든 세션에 대해 새 항목이 있습니다. 그렇지 않으면 모든 방문자에 대해 이 항목 벡터에 항목이 있습니다.

    훈련 단계는 여러 유형의 벡터 유사성을 계산합니다: LLR 유사성 (여기에 논의됨), 코사인 유사성(이전에 정의됨) 및 정규화된 L2 유사성으로, 다음과 같이 정의됨:

    교육 계산을 보여 주는 공식

    • 항목 유사성 모델 평가: 이전 단계에서 생성된 권장 사항을 취하고 테스트 데이터 세트에 대한 예측을 수행하여 모델 평가를 수행합니다. 온라인 채점 단계는 테스트 데이터 세트에서 각 사용자의 항목 사용을 시간 순으로 정렬한 다음, 후속 보기 및 구매를 예측하기 위해 정렬된 항목 하위 집합에 대해 100개의 권장 사항을 만드는 방식으로 모방됩니다. 정보 검색 지표, 평균 정밀도는 이러한 권장 사항의 품질을 평가하는 데 사용됩니다. 이 지표는 권장 사항 순서를 고려하며 권장 사항 목록 위에 있는 관련 항목을 선호합니다. 이는 등급 시스템의 중요한 속성입니다.
    • 모델 선택: 오프라인 평가 후 평균 정밀도 가 가장 높은 모델이 선택되고 모든 개별 항목 권장 사항이 계산됩니다.
    • 오프라인 필터링: 모델 교육의 마지막 단계는 적용 가능한 동적 필터를 적용하는 것입니다. 이 단계 후에는 사전 계산된 권장 사항이 전역적으로 캐시되어 제공할 수 있습니다.
  • 모델 제공: 추천 제공에 검색을 위한 단일 키 지정이 포함된 이전 알고리즘과 달리 비즈니스 규칙 적용에서는 추천 항목 및 장바구니 기반 알고리즘은 보다 복잡한 런타임 프로세스를 사용합니다.

    • 다중 키 검색 및 병합: 장바구니 기반 권장 사항의 경우, 장바구니에서 전달되는 최대 10개의 항목이 검색을 위한 키로 간주되고 각각의 권장 사항에 가중치가 동일하게 적용됩니다. 대상 추천 항목를 검색하는 경우, 최근 5개의 고유 조회 항목과 최근 5개의 고유 구매 항목을 검색 키로 간주합니다. 여기서 구매 항목에서 발생하는 권장 사항은 조회한 항목에서 발생하는 권장 사항보다 2배 가중치가 적용됩니다. 권장 사항을 병합할 때 항목이 권장 사항의 여러 개별 목록에 나타나는 경우 가중치가 적용된 유사성 점수가 추가됩니다. 이 단계의 최종 권장 사항 목록은 내림차순으로 순위가 매겨진 재가중 권장 사항의 병합된 목록입니다.
    • 필터링: 다음으로, 이전에 본 항목 및/또는 구매한 항목 제거와 같은 필터링 규칙과 기타 동적 비즈니스 규칙이 적용됩니다.

이러한 프로세스는 방문자가 항목 A를 보고 항목 B를 구매한 다음 이미지에 나와 있습니다. 개별 권장 사항은 각 항목 레이블 아래에 표시된 오프라인 유사성 점수로 검색됩니다. 검색 후 권장 사항은 가중치가 적용된 유사성 점수와 병합됩니다. 마지막으로, 고객이 이전에 본 항목과 구매한 항목을 필터링해야 한다고 지정한 시나리오에서는 필터링 단계에서 권장 사항 목록에서 항목 A와 B가 제거됩니다.

다중 키 알고리즘의 처리를 보여 주는 다이어그램

인기도 기반

알고리즘 에는 다음이 포함됩니다.

  • 사이트에서 가장 많이 본 항목
  • 범주별 최고 조회수
  • 항목별 가장 많이 본 항목 속성
  • 사이트 전체 최상위 판매자
  • 범주별 최상위 판매자
  • 항목 속성별 최상위 판매자

Target 는 가장 많이 본 항목과 웹 사이트 간에 또는 항목 속성이나 카테고리별로 분류된 상위 판매 항목 모두에 대한 인기도 기반 알고리즘을 제공합니다. 인기도 기반 알고리즘 은 주어진 시간대에서 해당 항목을 보거나 구매한 세션 수에 따라 항목의 등급을 지정합니다.

이러한 모든 알고리즘은 항목을 보고 구매한 총 세션 수가 시간별 및 일별 해상도 모두에서 기록되는 집계된 행동 데이터를 결합합니다. 그런 다음 개별 알고리즘은 고객이 구성한 전환 확인 기간에 대해 가장 많이 본 항목 또는 가장 많이 구매한 항목을 찾습니다.

개별 알고리즘 뉘앙스는 다음과 같습니다.

  • 사이트에서 가장 많이 본 항목 및 사이트 전체 최상위 판매자 각 항목을 보거나 구매한 세션의 집계 수를 기준으로 항목의 등급을 지정합니다. 출력은 권장 항목의 단일(키가 없는) 목록입니다.
  • 카테고리/항목 속성별 가장 많이 본 항목/최상위 판매자는 이러한 항목이 본 세션이나 구매된 세션의 집계 카운트로 항목이 정렬되는 권장 사항이지만 항목 카테고리 또는 특정 항목 속성별로 그룹화됩니다. 출력은 카테고리 값 또는 항목 속성 값을 기준으로 처리된 권장 항목 목록입니다.

최근에 본 항목

최근에 본 권장 사항 알고리즘을 사용하면 권장 사항의 세션 내 개인화를 수행할 수 있습니다. 이 알고리즘에는 오프라인 "모델 교육"이 필요하지 않습니다. 대신, Target 고유 사용 방문자 프로필 는 주어진 세션에서 보았으며 권장 사항 활동에서 이러한 항목을 표시할 수 있는 항목의 실행 목록을 유지 관리합니다. 이를 통해 추천과 다음 페이지 개인화에 대한 실시간 업데이트가 가능합니다.

사용자 지정 기준

사용자 지정 기준을 사용하여 고객은 다음을 수행할 수 있습니다. 자신의 권장 사항을에 업로드하십시오. Target, 중요한 유연성 제공 및 "고유한 모델 가져오기" 기능 허용. 사용자 지정 기준은 의 "오프라인 교육" 부분을 대체합니다. 항목 기반 권장 사항이지만 온라인 컨텐츠 전달 단계 중에 항목 기반 권장 사항 알고리즘과 유사하게 동작합니다. 즉, 권장 사항 검색에 단일 키가 사용되고 비즈니스 규칙/필터가 적용됩니다.

이 페이지의