텍스트 구문 분석기
텍스트 파서 도구를 사용하여 다른 Adobe Workfront Fusion 시나리오 모듈에서 사용할 텍스트를 구문 분석할 수 있습니다. 텍스트 구문 분석기에는 연결이 필요하지 않습니다.
액세스 요구 사항
이 문서의 기능을 사용하려면 다음 액세스 권한이 있어야 합니다.
table 0-row-2 1-row-2 2-row-2 3-row-2 layout-auto html-authored no-header | |
---|---|
Adobe Workfront 패키지 | 임의 |
Adobe Workfront 라이선스 |
새로운 기능: 표준 또는 현재: 작업 시간 이상 |
Adobe Workfront Fusion 라이센스** | Workfront Fusion 라이센스 요구 사항 없음 |
제품 |
신규:
또는 현재: 조직은 Adobe Workfront Fusion을 구매해야 합니다. |
이 표의 정보에 대한 자세한 내용은 설명서에서 액세스 요구 사항을 참조하십시오.
Adobe Workfront Fusion 라이선스에 대한 자세한 내용은 Adobe Workfront Fusion 라이선스를 참조하세요.
텍스트 파서 API 정보
텍스트 파서 커넥터는 다음을 사용합니다.
텍스트 구문 분석기 모듈과 해당 필드
텍스트 파서 모듈을 구성할 때 Adobe Workfront Fusion에 아래 나열된 필드가 표시됩니다. 모듈의 굵은 제목은 필수 필드를 나타냅니다.
필드나 함수 위에 맵 단추가 표시되면 이 단추를 사용하여 해당 필드에 대한 변수와 함수를 설정할 수 있습니다. 자세한 내용은 한 모듈에서 다른 모듈로 정보 매핑을 참조하십시오.
트랜스포머
HTML에서 요소 가져오기
HTML 코드에서 원하는 요소를 검색합니다.
텍스트에서 요소 가져오기
제공된 패턴을 기반으로 텍스트에서 요소를 구문 분석합니다.
HTML을 텍스트로
패턴 일치
패턴 일치 모듈을 사용하면 지정된 텍스트에서 검색 패턴과 일치하는 문자열 요소를 찾아 추출할 수 있습니다. 이 모듈에서는 정규 표현식(regex 또는 regexp라고도 함)을 사용합니다.
정규 표현식은 각 문자가 특별한 의미를 갖는 메타문자 또는 리터럴 의미를 갖는 정규 문자인 문자의 시퀀스입니다. 이러한 문자 및 메타문자는 텍스트 검색에 사용할 수 있는 패턴을 식별합니다. 예를 들어 이름을 검색하려면 정규 표현식을 설정하여 대문자로 시작하는 연속된 두 단어로 구성된 패턴을 검색할 수 있습니다. 정규 표현식은 텍스트를 검색하고 조작할 수 있는 강력한 도구입니다.
정규 표현식에 대한 논의는 이 글의 범위를 벗어난다. 다음 리소스를 권장합니다.
바꾸기
입력한 텍스트에서 지정된 값이나 정규 표현식을 검색하고 결과를 새 값으로 바꿉니다.
데이터 스크래핑
웹 스크래핑, 데이터 추출 또는 웹 수확 이라고도 하는 데이터 스크래핑은 웹 사이트에서 데이터를 수집하여 로컬 데이터베이스나 스프레드시트에 저장하는 프로세스입니다. 웹 사이트에서 데이터를 스크랩하려는 경우 정규 표현식에 익숙하지 않은 경우 데이터 스크랩 도구를 사용할 수 있습니다.
데이터 스크래핑 도구가 REST API를 제공하는 경우 범용 HTTP 모듈 및 웹후크 모듈을 통해 연결할 수 있습니다.
텍스트 파서 문제 해결
텍스트 구문 분석기를 사용하여 출력을 생성할 수 없는 경우 이 정보를 사용합니다.
예:
모듈은 파일 문서 "filename.docx"의 파일 유형을 구문 분석해야 하며 파일 이름 확장자는 DOCX에서 PDF으로, CSV로 다양합니다.
이 경우 사용할 수 있는 식은 ..+입니다.
이 정규 표현식은 일반적으로 전체 일치를 생성합니다.
그러나 텍스트 파서에서 이 표현식을 구현해도 다음과 일치하지는 않습니다.
그 이유는 "i"가 일치 항목 당 일치 항목 수만 표시하므로 이 경우 2개의 일치 항목이 있으므로 "i" 다음에 숫자 값 1과 2가 있습니다. 이 사용 사례에서는 두 번째 일치하는 값만 필터를 통해 데이터를 일치시키거나 전달해야 하는 경우 숫자 값으로 표현되는 값을 지정할 수 있습니다.
구문 분석할 부분에 대괄호를 추가하는 데 필요한 일치 값을 가져올 수 있으려면(예: "filename.docx" - "docx"에서만 추출) 이 경우 시나리오에서 사용 중인 정규 표현식에 따라 대괄호를 \에 적용해야 합니다.(.+)
이렇게 하면 DOCX를 캡처하고 그룹에 지정한 다음 "." 빠지라고
아래 그림에 표시된 출력에서 캡처 그룹은 모든 문자와 일치합니다(줄 종결자 제외).
정규 표현식도 통합하는 또 다른 해결 방법은 바꾸기 기능을 사용하는 것입니다
{{replace("abcdefghijklmno pqr stuvw xyz.docx"; "/.\./"; ".")}}
그런 다음 abcdefghijklmno pqr stuvw xyz.docx
을(를) 실제 파일 이름 변수로 바꿉니다.