API-informatie voor tekstparser

De schakelaar van de parser van de Tekst gebruikt het volgende:

API-tagv2

Text parser modules en hun velden

Wanneer u Text parser modules configureert, geeft Adobe Workfront Fusion de onderstaande velden weer. Een bolde titel in een module wijst op een vereist gebied.

Als u de kaartknoop boven een gebied of een functie ziet, kunt u het gebruiken om variabelen en functies voor dat gebied te plaatsen. Voor meer informatie, zie informatie van de Kaart van één module aan een andere.

Kaart knevel

Transformatoren

Get Elements from HTML

Hiermee worden de gewenste elementen opgehaald uit de HTML-code.

Continue the execution of the route even if the module finds no matchesSchakel deze optie in om ervoor te zorgen dat de module het scenario niet stopt als er geen resultaten worden geretourneerd.
Element type

Selecteer het elementtype dat u wilt ophalen uit de HTML-code.

  • Image
  • Link
  • iFrame element(s)
HTMLVoer de HTML-code in of wijs deze toe waaruit u de opgegeven elementtypen wilt ophalen.

Get Elements from text

Hiermee parseert u elementen van tekst op basis van het opgegeven patroon.

Input textTyp of wijs de tekst toe die u wilt parseren.
PatternSelecteer het patroon dat de elementen weerspiegelt die u in de tekst wilt parseren.
Ignore Duplicate OccurrencesSchakel dit vakje in om dubbele instanties van een tekstelement te negeren.

HTML to Text

HTMLVoer de HTML-code in die u wilt omzetten in onbewerkte tekst.
Line breakSelecteer het type nieuwe regel (regeleinde).
Uppercase headingsSchakel deze optie in om tekst tussen kopcodes (zoals <h2> </h2>) om te zetten in hoofdletters.

Match Pattern

In de module Match pattern kunt u zoeken naar tekenreekselementen die overeenkomen met een zoekpatroon in een bepaalde tekst. Deze module gebruikt reguliere expressies (ook wel regex of regexp genoemd).

Een reguliere expressie is een reeks tekens waarin elk teken een metateken is met een speciale betekenis of een regulier teken met een letterlijke betekenis. Met deze teken- en metatekens wordt een patroon geïdentificeerd dat kan worden gebruikt voor het zoeken naar tekst. Als u bijvoorbeeld naar namen wilt zoeken, kunt u een reguliere expressie instellen om te zoeken naar een patroon dat bestaat uit twee opeenvolgende woorden die beginnen met hoofdletters. Reguliere expressies zijn een krachtig gereedschap voor het zoeken en bewerken van tekst.

Een discussie over reguliere expressies valt buiten het toepassingsgebied van dit artikel. Wij adviseren de volgende middelen:

  • Voor de volledige lijst van metacharacters, zie Reguliere uitdrukkingenin MDN Web docs.
  • Voor een leerprogramma op hoe te om regelmatige uitdrukkingen tot stand te brengen, adviseren wij RegexOne.
  • Voor het experimenteren met regelmatige uitdrukkingen, adviseren wij de Reguliere Uitdrukkingen 101website. Selecteer de ECMAScript-FLAVOR (JavaScript) in het linkerdeelvenster.
Pattern

Voer het reguliere-expressiepatroon in.

Voorbeeld: [+-]?(\d+(\.\d+)?|\.\d+)([eE][+-]?\d+)? haalt alle cijfers in de verstrekte tekst uit.

Opmerking:

Het patroon moet ten minste één vastleggroep tussen haakjes () bevatten. Als het patroon geen vastleggingsgroepen bevat, is de uitvoerbundel leeg.

Global matchSchakel deze optie in om alle overeenkomsten in de tekst op te halen. Elke overeenkomst wordt uitgevoerd in een afzonderlijke bundel. Als deze optie is uitgeschakeld, haalt de module alleen het eerste item op.
Case sensitiveSchakel deze optie voor deze module in om tekst als hoofdlettergevoelig te behandelen.
MultilineSchakel deze optie in om ervoor te zorgen dat metatekens aan het begin en einde (^ en $ ) overeenkomen met het begin of einde van elke regel, en niet alleen met het uiterste begin of einde van de gehele invoertekenreeks.
SinglelineSchakel deze optie in om ervoor te zorgen dat de punt (.) overeenkomt met nieuwe-regeltekens (\n).
Continue the execution of the route even if the module returns no resultsSchakel deze optie in om ervoor te zorgen dat de module het scenario niet stopt als er geen resultaten worden geretourneerd.
TextVoer de tekst in of wijs de tekst toe die u aan het patroon wilt aanpassen.

Replace

Zoekt de ingevoerde tekst naar een opgegeven waarde of reguliere expressie en vervangt het resultaat door de nieuwe waarde.

PatternVoer de zoekterm in. U kunt ook een reguliere expressie gebruiken. Zie de module Match Pattern voor meer informatie over de reguliere expressie.
New valueVoer de waarde in die u de zoekterm wilt vervangen.
Global matchSchakel deze optie in om alle overeenkomsten in de tekst op te halen. Elke overeenkomst wordt uitgevoerd in een afzonderlijke bundel. Als deze optie is uitgeschakeld, haalt de module alleen het eerste item op.
Case sensitiveSchakel deze optie voor deze module in om tekst als hoofdlettergevoelig te behandelen.
MultilineSchakel deze optie in om ervoor te zorgen dat metatekens aan het begin en einde (^ en $ ) overeenkomen met het begin of einde van elke regel, en niet alleen met het uiterste begin of einde van de gehele invoertekenreeks.
SinglelineSchakel deze optie in om ervoor te zorgen dat de punt (.) overeenkomt met nieuwe-regeltekens (\n).
TextVoer de tekst in die u wilt doorzoeken.

Gegevensovervulling

Het schrapen van gegevens, soms genoemd Webschrapping, gegevensextractie, of Web het oogsten, is het proces om gegevens van websites te verzamelen en het op te slaan in uw lokale gegevensbestand of spreadsheets. Als u gegevens van een website wilt verwijderen en u niet bekend bent met reguliere expressies, kunt u een gereedschap voor het verwijderen van gegevens gebruiken.

Als het hulpmiddel van de gegevensschrapping REST API verstrekt, kunt u met het via onze universele HTTP modulesen Webhooksmodules verbinden.

Problemen met tekstparsering

Gebruik deze informatie als u geen tekstparser kunt krijgen om output te veroorzaken.

Voorbeeld:

De module moet het bestandstype van het bestandsdocument filename.docx parseren en de bestandsextensie varieert van DOCX tot PDF tot CSV.

De expressie die u in dit geval kunt gebruiken, is ..+

Deze reguliere expressie resulteert normaal gesproken in een volledige overeenkomst.

Het implementeren van deze expressie in uw tekstparser resulteert echter niet in een overeenkomst:

Geen gelijke

De reden hiervoor is dat "i"slechts het aantal gelijken per gelijke toont zodat in dit geval, hebben wij 2 gelijken, daarom nadat "i"er een numerieke waarde 1 en 2 is. Het gebruik hiervan is dat als u ooit gegevens via een filter moet aanpassen of doorgeven, alleen de tweede overeenkomende waarde kan worden opgegeven welke waarde wordt vertegenwoordigd door de numerieke waarde.

Gelijke

Als u de overeenkomende waarden wilt ophalen die u nodig hebt om haakjes toe te voegen aan het onderdeel dat u wilt parseren (bijvoorbeeld als u wilt extraheren uit "filename.docx" - alleen "docx"), moeten de haakjes volgens de regex-expressie die we in dit casescenario gebruiken, worden toegepast op .(.+)

Hierdoor wordt de DOCX vastgelegd, in een groep geplaatst en de "." van het.

krijgt gelijken

In de uitvoer die in de onderstaande afbeelding wordt weergegeven, komt de vastgelegde groep overeen met elk willekeurig teken (behalve regeleinde).

Output

Een andere oplossing die ook regex opneemt, gebruikt de vervangingsfunctie

{{replace("abcdefghijklmno pqr stuvw xyz.docx"; "/.\./"; ".")}}

Vervang abcdefghijklmno pqr stuvw xyz.docx vervolgens door de werkelijke bestandsnaamvariabele.

Vorige paginaMIME-modules
Volgende paginaGereedschapsmodules

Workfront