UI에서 클라우드 스토리지 소스에서 배치 데이터를 수집하도록 데이터 흐름 구성

이 자습서에서는 클라우드 스토리지 소스에서 Adobe Experience Platform으로 일괄 데이터를 가져오도록 데이터 흐름을 구성하는 방법에 대해 설명합니다.

시작하기

노트

데이터 흐름을 만들어 클라우드 저장소에서 배치 데이터를 가져오려면 인증된 클라우드 스토리지 소스에 대한 액세스 권한이 이미 있어야 합니다. 액세스 권한이 없는 경우 로 이동합니다. 소스 개요 을 사용하여 계정을 만들 수 있는 클라우드 스토리지 소스 목록입니다.

이 자습서에서는 Experience Platform의 다음 구성 요소를 이해하고 있어야 합니다.

지원되는 파일 형식

일괄 처리 데이터에 대한 클라우드 스토리지 소스는 처리를 위해 다음 파일 형식을 지원합니다.

  • 구분 기호로 구분된 값(DSV): 모든 단일 문자 값은 DSV 형식 데이터 파일의 구분 기호로 사용할 수 있습니다.
  • JavaScript Object Notation (JSON): JSON 형식 데이터 파일은 XDM 규격 파일이어야 합니다.
  • Apache Parquet: Parquet 형식의 데이터 파일은 XDM 규격 파일이어야 합니다.
  • 압축된 파일: JSON 및 구분된 파일은 다음과 같이 압축할 수 있습니다. bzip2, gzip, deflate, zipDeflate, tarGzip, 및 tar.

데이터 추가

클라우드 스토리지 계정을 만든 후 데이터 추가 클라우드 스토리지 파일 계층 구조를 탐색하고 Platform으로 가져올 폴더 또는 특정 파일을 선택할 수 있는 인터페이스를 제공하는 단계가 나타납니다.

  • 인터페이스의 왼쪽 부분은 클라우드 저장소 파일 계층 구조를 표시하는 디렉토리 브라우저입니다.
  • 인터페이스의 오른쪽 부분에서 호환되는 폴더 또는 파일에서 최대 100개의 데이터 행을 미리 볼 수 있습니다.

루트 폴더를 선택하여 폴더 계층 구조에 액세스합니다. 여기에서 폴더의 모든 파일을 재귀적으로 수집할 단일 폴더를 선택할 수 있습니다. 전체 폴더를 섭취할 때는 해당 폴더의 모든 파일이 동일한 데이터 형식과 스키마를 공유하는지 확인해야 합니다.

폴더를 선택하면 오른쪽 인터페이스가 선택한 폴더에서 첫 번째 파일의 내용 및 구조 미리 보기로 업데이트됩니다.

이 단계에서는 계속하기 전에 데이터에 몇 가지 구성을 만들 수 있습니다. 먼저 을 선택합니다. 데이터 형식 그런 다음 표시되는 드롭다운 패널에서 파일에 대한 적절한 데이터 형식을 선택합니다.

다음 표에는 지원되는 파일 유형에 대한 적절한 데이터 형식이 표시됩니다.

파일 유형 데이터 형식
CSV로 내보내기 구분 기호
JSON JSON
쪽모이 세공 XDM Parquet

열 구분 기호 선택

데이터 형식을 구성한 후 구분된 파일을 수집할 때 열 구분 기호를 설정할 수 있습니다. 을(를) 선택합니다 구분 기호 옵션을 선택한 다음 드롭다운 메뉴에서 구분 기호를 선택합니다. 메뉴에는 쉼표( )를 포함하여 구분 기호에 가장 자주 사용되는 옵션이 표시됩니다,), 탭(\t) 및 파이프(|).

사용자 지정 구분 기호를 사용하려면 사용자 지정 팝업 입력 막대에서 선택한 단일 문자 구분 기호를 입력합니다.

압축된 파일 수집

압축 유형을 지정하여 압축 JSON 또는 구분된 파일을 수집할 수도 있습니다.

에서 데이터 선택 단계에서 수집하기 위해 압축된 파일을 선택한 다음 해당 파일 유형과 XDM 규격 파일 여부를 선택합니다. 다음 을 선택합니다. 압축 유형 그런 다음 소스 데이터에 적합한 압축 파일 유형을 선택합니다.

특정 파일을 플랫폼으로 가져오려면 폴더를 선택한 다음 수집할 파일을 선택합니다. 이 단계에서는 파일 이름 옆에 있는 미리 보기 아이콘을 사용하여 주어진 폴더 내에서 다른 파일의 파일 내용을 미리 볼 수도 있습니다.

완료되면 을 선택합니다 다음.

데이터 흐름 세부 정보 제공

다음 데이터 흐름 세부 정보 페이지에서 기존 데이터 세트를 사용할지 새 데이터 세트를 사용할지 선택할 수 있습니다. 이 프로세스 중에 프로필에 수집할 데이터를 구성하고 다음과 같은 설정을 활성화할 수도 있습니다. 오류 진단, 부분 수집, 및 경고.

기존 데이터 세트 사용

기존 데이터 세트에 데이터를 수집하려면 을 선택합니다 기존 데이터 세트. 를 사용하여 기존 데이터 세트를 검색할 수 있습니다 고급 검색 옵션을 선택하거나 드롭다운 메뉴에서 기존 데이터 세트 목록을 스크롤하여 선택합니다. 데이터 세트를 선택하면 데이터 집합에 대한 이름과 설명을 제공합니다.

새 데이터 세트 사용

새 데이터 세트에 수집하려면 을 선택합니다 새 데이터 세트 그런 다음 출력 데이터 세트 이름과 선택적 설명을 제공합니다. 다음으로 를 사용하여 매핑할 스키마를 선택합니다 고급 검색 옵션을 선택하거나 드롭다운 메뉴에서 기존 스키마 목록을 스크롤하여 선택합니다. 스키마를 선택했으면 데이터 흐름의 이름과 설명을 입력합니다.

프로필 및 오류 진단 사용

다음으로, 프로필 데이터 세트 프로필에 대한 데이터 세트를 활성화하려면 토글. 이를 통해 엔티티의 속성 및 동작을 전체적으로 볼 수 있습니다. 모든 프로필 사용 데이터 세트의 데이터는 프로필에 포함되고, 변경 사항은 데이터 흐름을 저장할 때 적용됩니다.

오류 진단 에서는 데이터 플로우에서 발생하는 모든 잘못된 레코드에 대해 자세한 오류 메시지를 생성하는 반면, 부분 수집 수동으로 정의하는 특정 임계값까지 오류가 포함된 데이터를 수집할 수 있습니다. 자세한 내용은 부분 배치 수집 개요 추가 정보.

경고 활성화

경고를 활성화하여 데이터 흐름 상태에 대한 알림을 받을 수 있습니다. 목록에서 경고를 선택하여 데이터 흐름 상태에 대한 알림을 수신합니다. 경고에 대한 자세한 내용은 UI를 사용하여 소스 경고 구독.

데이터 집합에 세부 정보 제공을 마치면 를 선택합니다 다음.

XDM 스키마에 데이터 필드 매핑

다음 매핑 소스 스키마의 소스 필드를 대상 스키마의 적절한 대상 XDM 필드에 매핑하는 인터페이스를 제공하는 단계가 나타납니다.

플랫폼은 선택한 대상 스키마나 데이터 세트를 기반으로 자동 매핑 필드에 대한 지능형 권장 사항을 제공합니다. 사용 사례에 맞게 매핑 규칙을 수동으로 조정할 수 있습니다. 필요에 따라 필드를 직접 매핑하거나 데이터 준비 함수를 사용하여 소스 데이터를 변환하여 계산 또는 계산된 값을 도출할 수 있습니다. 매퍼 인터페이스 및 계산된 필드를 사용하는 방법에 대한 포괄적인 단계는 다음을 참조하십시오 데이터 준비 UI 안내서.

소스 데이터가 매핑되면 을 선택합니다 다음.

수집 실행 예약

중요

데이터 흐름을 사용할 때 일회성 수집으로 예약하는 것이 좋습니다 FTP 소스.

다음 예약 구성된 매핑을 사용하여 선택한 소스 데이터를 자동으로 수집하도록 수집 일정을 구성할 수 있는 단계가 나타납니다. 기본적으로 예약은 Once. 수집 빈도를 조정하려면 을(를) 선택합니다 빈도 그런 다음 드롭다운 메뉴에서 옵션을 선택합니다.

일회성 수집 중에는 간격 및 채우기 처리가 표시되지 않습니다.

예약

수집 빈도를 로 설정한 경우 Minute, Hour, Day, 또는 Week를 설정하는 경우 모든 섭취 간에 설정된 시간 프레임을 설정하려면 간격을 설정해야 합니다. 예를 들어 수집 빈도가 Day 그리고 15 는 데이터 흐름이 15일마다 데이터를 수집하도록 예약되어 있음을 의미합니다.

이 단계 동안 다음을 활성화할 수도 있습니다 채우기 데이터를 증분 수집하기 위한 열을 정의합니다. 채우기(Backfill)는 이전 데이터를 수집하는 데 사용되는 반면 증분 수집에 대해 정의하는 열에서 새 데이터를 기존 데이터와 구별할 수 있습니다.

구성 예약에 대한 자세한 내용은 아래 표를 참조하십시오.

필드 설명
빈도 수집이 발생하는 빈도입니다. 선택할 수 있는 주파수는 다음과 같습니다 Once, Minute, Hour, Day, 및 Week.
간격 선택한 주파수의 간격을 설정하는 정수입니다. 간격 값은 0이 아닌 정수여야 하며 15보다 크거나 같도록 설정해야 합니다.
시작 시간 첫 번째 수집이 발생하도록 설정된 시기를 나타내는 UTC 타임스탬프입니다. 시작 시간은 현재 UTC 시간보다 크거나 같아야 합니다.
채우기 처음에 수집되는 데이터를 결정하는 부울 값입니다. 채우기 기능이 활성화된 경우 지정된 경로에 있는 모든 현재 파일이 첫 번째 예약된 수집 중에 수집됩니다. 채우기 기능이 비활성화되면 수집 첫 번째 실행과 시작 시간 사이에 로드된 파일만 수집됩니다. 시작 시간 전에 로드된 파일은 수집되지 않습니다.
노트

다음의 모든 데이터 흐름에서는 일괄 처리를 위해 해당 파일을 기반으로 소스에서 수집할 파일을 선택합니다 마지막 수정 날짜 timestamp. 즉, 일괄 처리 데이터 흐름은 마지막 흐름 실행 이후 새로 만들거나 수정된 소스에서 파일을 선택합니다. 또한 예약된 플로우 실행 시간이 수집되기 전에 클라우드 스토리지 계정에 완전히 업로드되지 않은 파일이 수집되지 않을 수 있으므로 파일 업로드와 예약된 플로우 실행 사이에 충분한 시간이 있는지 확인해야 합니다.

수집 일정 구성을 마치면 를 선택합니다 다음.

데이터 흐름 검토

다음 검토 새 데이터 흐름을 만들기 전에 검토할 수 있는 단계가 나타납니다. 세부 사항은 다음 범주 내에 그룹화됩니다.

  • 연결: 소스 유형, 선택한 소스 파일의 관련 경로 및 해당 소스 파일 내의 열 양을 표시합니다.
  • 데이터 세트 및 맵 필드 할당: 데이터 세트가 준수하는 스키마를 포함하여 소스 데이터가 수집되는 데이터 세트를 표시합니다.
  • 예약: 수집 예약의 활성 기간, 빈도 및 간격을 표시합니다.

데이터 흐름을 검토한 후 완료 데이터 흐름을 만들 시간을 허용합니다.

다음 단계

이 자습서를 따라 외부 클라우드 저장소에서 데이터를 가져올 데이터 흐름을 성공적으로 만들어 데이터 세트 모니터링에 대한 통찰력을 얻을 수 있습니다. 데이터 흐름 만들기에 대한 자세한 내용을 보려면 아래 비디오를 시청하여 학습 내용을 보완할 수 있습니다. 또한 이제 다운스트림에서 들어오는 데이터를 사용할 수 있습니다 Platform 와 같은 서비스 Real-time Customer Profile 및 Data Science Workspace. 자세한 내용은 다음 문서를 참조하십시오.

경고

다음 Platform 다음 비디오에 표시된 UI가 오래되었습니다. 최신 UI 스크린샷 및 기능은 위의 설명서를 참조하십시오.

부록

다음 섹션에서는 소스 커넥터 작업에 대한 추가 정보를 제공합니다.

데이터 흐름 모니터링

데이터 흐름이 만들어지면 이를 통해 수집되는 데이터를 모니터링하여 수집률, 성공 및 오류에 대한 정보를 볼 수 있습니다. 데이터 흐름을 모니터링하는 방법에 대한 자세한 내용은 다음 자습서를 참조하십시오. UI에서 계정 및 데이터 흐름 모니터링.

데이터 흐름 업데이트

데이터 흐름 예약, 매핑 및 일반 정보에 대한 구성을 업데이트하려면 UI에서 소스 데이터 흐름 업데이트

데이터 흐름 삭제

더 이상 필요하지 않거나 잘못된 데이터 흐름을 삭제 함수에서 사용 가능한 함수 데이터 흐름 작업 공간. 데이터 흐름을 삭제하는 방법에 대한 자세한 내용은 다음 내용을 참조하십시오. UI에서 데이터 흐름 삭제.

이 페이지에서는