선택한 Audience Manager 보고서의 데이터 샘플링 및 오류율 data-sampling-and-error-rates-in-selected-audience-manager-reports

일부 보고서에 사용된 샘플링 방법론, 샘플링 오류율 및 샘플링된 데이터를 기반으로 정보를 반환하는 보고서 목록에 대한 요약입니다.

데이터 샘플링 비율 data-sampling-ratio

일부 Audience Manager 보고서는 사용 가능한 총 데이터의 샘플링 집합을 기반으로 결과를 표시합니다. 샘플링된 데이터 비율은 1:54입니다. 샘플링된 데이터를 사용하는 보고서의 경우 이는 결과가 54개의 모든 레코드 집합 중 1개의 레코드를 기반으로 함을 의미합니다.

이러한 보고서는 결과를 생성하기 위해 엄청난 양의 컴퓨팅 성능이 필요하기 때문에 통계적으로 샘플링된 데이터를 사용합니다. 샘플링은 컴퓨터 요구량 감소와 시스템 성능 유지, 정확한 결과 제공을 균형 있게 하는 데 도움이 됩니다.

오류율 error-rates

중복 데이터를 생성하는 보고서에서 오류가 발생할 수 있습니다. 오류는 다음과 같은 레코드의 백분율로 정의됩니다.

  • 보고서에 포함되지 않았어야 했는데 어쨌든 추가되었습니다.
  • 보고서에 포함해야 하지만 제외되었습니다.

테스트 및 모델은 오류율 이(가) 데이터 세트의 레코드 수에 반비례하여 감소 ​됨을 보여 줍니다. 레코드가 적은 데이터 집합보다 레코드가 많은 데이터 집합에서 오류가 적게 발생합니다. 이 주장을 좀 더 양적으로 살펴보자. 다음 표에 표시된 것처럼, 설정된 레코드 수에 대해 보고서 결과의 95%가 특정 오류율 미만이 됩니다.

레코드 수
오류율
500 - 1,000
95%는 42%의 오류율 아래에 있습니다.
1,000 - 1,500
95%는 34%의 오류율 아래에 있습니다.
10,000 - 50,000
95%는 14%의 오류율 아래에 있습니다.
50,000
95%는 6%의 오류율 아래에 있습니다.
100,000
95%는 4%의 오류율 아래에 있습니다.
500,000(이상)
95%는 2%의 오류율 아래에 있습니다.

Minhash 샘플링 방법론 사용 minhash

Minhash 샘플링 방법에 따라 Audience Manager은 새로운 방법을 사용하여 하나의 순열 해싱 데이터 스케치 위에 트레이트 및 세그먼트 추정치를 계산합니다. 이 새로운 방법은 Jaccard 유사성에 대한 표준 추정량보다 낮은 분산을 생성한다. 이 방법을 사용하는 보고서에 대해서는 아래 섹션을 참조하십시오.

샘플링된 데이터를 사용하는 보고서 reports-using-sampled-data

통계적으로 샘플링된 데이터와 Minhash 샘플링 방법을 사용하는 Audience Manager 보고서는 다음과 같습니다.

통계적 샘플링
Minhash 샘플링 방식
대응 가능 대상 데이터(고객 및 세그먼트 수준 데이터).
겹치기 보고서(특성 대 특성, 세그먼트 대 특성 및 세그먼트 대 세그먼트)
Profile Merge Rule에 대한 총 장치 지표입니다.
트레이트 추천
Data Explorer이(가) Search 탭과 Saved Searches에서 샘플링된 데이터를 사용합니다.
Recommendations Audience Marketplace
recommendation-more-help
de293fbf-b489-49b0-8daa-51ed303af695