Text parser
Vous pouvez utiliser le Text parser tool pour analyser le texte à utiliser dans d’autres modules de scénario Adobe Workfront Fusion. Le Text parser ne nécessite pas de connexion.
Conditions d’accès
Vous devez disposer des accès suivants pour utiliser les fonctionnalités de cet article :
table 0-row-2 1-row-2 2-row-2 3-row-2 layout-auto html-authored no-header | |
---|---|
Package Adobe Workfront | Tous |
Licence Adobe Workfront |
Nouveau : Standard Ou En cours : Travail ou version ultérieure |
Licence Adobe Workfront Fusion ** | Aucune exigence de licence Workfront Fusion. |
Produit |
Nouveau :
Ou Actuel : votre entreprise doit acheter Adobe Workfront Fusion. |
Pour plus d’informations sur les informations contenues dans ce tableau, voir Conditions d’accès requises dans la documentation.
Pour plus d’informations sur les licences Adobe Workfront Fusion, voir Licences Adobe Workfront Fusion.
Informations sur l’API de l’analyseur de texte
Le connecteur de l’analyseur de texte utilise les éléments suivants :
Modules Text parser et leurs champs
Lorsque vous configurez les modules Text parser, Adobe Workfront Fusion affiche les champs répertoriés ci-dessous. Un titre en gras dans un module indique un champ obligatoire.
Si le bouton « Mapper » apparaît au-dessus d’un champ ou d’une fonction, vous pouvez l’utiliser pour définir des variables et des fonctions pour ce champ. Pour plus d’informations, voir Mappage des informations d’un module à un autre.
Transformateurs
Get Elements from HTML
Récupère les éléments souhaités à partir du code HTML.
Get Elements from text
Analyse les éléments du texte en fonction du modèle donné.
HTML to Text
Match Pattern
Le module Match pattern vous permet de rechercher et d’extraire des éléments de chaîne correspondant à un modèle de recherche à partir d’un texte donné. Ce module utilise des expressions régulières (également appelées regex ou regexp).
Une expression régulière est une séquence de caractères dans laquelle chaque caractère est soit un métacaractère, ayant une signification spéciale, soit un caractère régulier ayant une signification littérale. Ces caractères et métacaractères identifient un motif qui peut être utilisé pour rechercher du texte. Par exemple, si vous souhaitez rechercher des noms, vous pouvez configurer une expression régulière pour rechercher un motif constitué de deux mots consécutifs commençant par des majuscules. Les expressions régulières sont un puissant outil de recherche et de manipulation de texte.
Le présent article ne vise pas à aborder la question des expressions régulières. Nous vous recommandons les ressources suivantes :
- Pour obtenir la liste complète des métacaractères, voir Expressions régulières dans la documentation web MDN.
- Pour un tutoriel sur la création d’expressions régulières, nous vous recommandons RegexOne.
- Pour expérimenter des expressions régulières, nous vous recommandons le site web Regular Expressions 101. Sélectionnez le ECMAScript (JavaScript) FLAVOR dans le panneau de gauche.
Replace
Recherche une valeur ou une expression régulière dans le texte saisi et remplace le résultat par la nouvelle valeur.
Récupération de données
La récupération de données, parfois appelée web scraping, extraction des données ou web harvesting, est le processus de collecte de données à partir de sites web et de stockage de ces données dans votre base de données ou feuille de calcul locale. Si vous souhaitez récupérer les données d’un site web et que vous ne connaissez pas les expressions régulières, vous pouvez utiliser un outil de récupération de données.
Si l’outil de nettoyage de données fournit une API REST, vous pouvez vous y connecter via nos modules de HTTP universels et Webhooks.
Dépannage de l’analyseur de texte
Utilisez ces informations si l’analyseur de texte échoue à produire une sortie.
Exemple :
Le module doit analyser le type de fichier d’un document de fichier « filename.docx », et l’extension du nom de fichier varie de DOCX à PDF et à CSV.
L’expression à utiliser dans ce cas est ..+.
Cette expression régulière génère normalement une correspondance complète.
Cependant, l’implémentation de cette expression dans votre analyseur de texte n’entraîne pas de correspondance :
Cela est dû au fait que la valeur « i » indique uniquement le nombre de correspondances par correspondance. Dans ce cas, nous avons deux correspondances, il y a donc après la valeur « i » une valeur numérique 1 et 2. Le cas d’utilisation à appliquer ici est que, si vous devez faire correspondre ou transférer des données via un filtre vers la seconde valeur correspondante, vous pouvez spécifier la valeur à l’aide de sa représentation numérique.
Pour obtenir les valeurs de correspondance dont vous avez besoin pour ajouter des intervalles à la partie que vous souhaitez analyser (par exemple, pour extraire uniquement « docx » de « filename.docx »), selon l’expression régulière que nous utilisons pour ce scénario, vous devez appliquer les intervalles sur .(.+)
Cela capture « docx », le place dans un groupe et ignore « . » .
Dans la sortie affichée dans l’image ci-dessous, le groupe de capture correspondra à n’importe quel caractère (sauf pour les terminaisons de ligne).
Une autre solution qui intègre également l’expression régulière consiste à utiliser la fonction Remplacer.
{{replace("abcdefghijklmno pqr stuvw xyz.docx"; "/.\./"; ".")}}
Remplacez alors abcdefghijklmno pqr stuvw xyz.docx
avec votre variable de nom de fichier.