API-informatie voor tekstparser
De schakelaar van de parser van de Tekst gebruikt het volgende:
Text parser modules en hun velden
Wanneer u Text parser modules configureert, geeft Adobe Workfront Fusion de onderstaande velden weer. Een bolde titel in een module wijst op een vereist gebied.
Als u de kaartknoop boven een gebied of een functie ziet, kunt u het gebruiken om variabelen en functies voor dat gebied te plaatsen. Voor meer informatie, zie informatie van de Kaart van één module aan een andere.
Transformatoren
Get Elements from HTML
Hiermee worden de gewenste elementen opgehaald uit de HTML-code.
Get Elements from text
Hiermee parseert u elementen van tekst op basis van het opgegeven patroon.
HTML to Text
Match Pattern
In de module Match pattern kunt u zoeken naar tekenreekselementen die overeenkomen met een zoekpatroon in een bepaalde tekst. Deze module gebruikt reguliere expressies (ook wel regex of regexp genoemd).
Een reguliere expressie is een reeks tekens waarin elk teken een metateken is met een speciale betekenis of een regulier teken met een letterlijke betekenis. Met deze teken- en metatekens wordt een patroon geïdentificeerd dat kan worden gebruikt voor het zoeken naar tekst. Als u bijvoorbeeld naar namen wilt zoeken, kunt u een reguliere expressie instellen om te zoeken naar een patroon dat bestaat uit twee opeenvolgende woorden die beginnen met hoofdletters. Reguliere expressies zijn een krachtig gereedschap voor het zoeken en bewerken van tekst.
Een discussie over reguliere expressies valt buiten het toepassingsgebied van dit artikel. Wij adviseren de volgende middelen:
- Voor de volledige lijst van metacharacters, zie Reguliere uitdrukkingenin MDN Web docs.
- Voor een leerprogramma op hoe te om regelmatige uitdrukkingen tot stand te brengen, adviseren wij RegexOne.
- Voor het experimenteren met regelmatige uitdrukkingen, adviseren wij de Reguliere Uitdrukkingen 101website. Selecteer de ECMAScript-FLAVOR (JavaScript) in het linkerdeelvenster.
Replace
Zoekt de ingevoerde tekst naar een opgegeven waarde of reguliere expressie en vervangt het resultaat door de nieuwe waarde.
Gegevensovervulling
Het schrapen van gegevens, soms genoemd Webschrapping, gegevensextractie, of Web het oogsten, is het proces om gegevens van websites te verzamelen en het op te slaan in uw lokale gegevensbestand of spreadsheets. Als u gegevens van een website wilt verwijderen en u niet bekend bent met reguliere expressies, kunt u een gereedschap voor het verwijderen van gegevens gebruiken.
Als het hulpmiddel van de gegevensschrapping REST API verstrekt, kunt u met het via onze universele HTTP modulesen Webhooksmodules verbinden.
Problemen met tekstparsering
Gebruik deze informatie als u geen tekstparser kunt krijgen om output te veroorzaken.
Voorbeeld:
De module moet het bestandstype van het bestandsdocument filename.docx parseren en de bestandsextensie varieert van DOCX tot PDF tot CSV.
De expressie die u in dit geval kunt gebruiken, is ..+
Deze reguliere expressie resulteert normaal gesproken in een volledige overeenkomst.
Het implementeren van deze expressie in uw tekstparser resulteert echter niet in een overeenkomst:
De reden hiervoor is dat "i"slechts het aantal gelijken per gelijke toont zodat in dit geval, hebben wij 2 gelijken, daarom nadat "i"er een numerieke waarde 1 en 2 is. Het gebruik hiervan is dat als u ooit gegevens via een filter moet aanpassen of doorgeven, alleen de tweede overeenkomende waarde kan worden opgegeven welke waarde wordt vertegenwoordigd door de numerieke waarde.
Als u de overeenkomende waarden wilt ophalen die u nodig hebt om haakjes toe te voegen aan het onderdeel dat u wilt parseren (bijvoorbeeld als u wilt extraheren uit "filename.docx" - alleen "docx"), moeten de haakjes volgens de regex-expressie die we in dit casescenario gebruiken, worden toegepast op .(.+)
Hierdoor wordt de DOCX vastgelegd, in een groep geplaatst en de "." van het.
In de uitvoer die in de onderstaande afbeelding wordt weergegeven, komt de vastgelegde groep overeen met elk willekeurig teken (behalve regeleinde).
Een andere oplossing die ook regex opneemt, gebruikt de vervangingsfunctie
{{replace("abcdefghijklmno pqr stuvw xyz.docx"; "/.\./"; ".")}}
Vervang abcdefghijklmno pqr stuvw xyz.docx
vervolgens door de werkelijke bestandsnaamvariabele.