Text parser

Last update: Thu Jan 30 2025 00:00:00 GMT+0000 (Coordinated Universal Time)

Rubriques :
Contenu et documents numériques

Vous pouvez utiliser le Text parser tool pour analyser le texte à utiliser dans d’autres modules de scénario Adobe Workfront Fusion. Le Text parser ne nécessite pas de connexion.

Conditions d’accès

Développez pour afficher les exigences d’accès aux fonctionnalités de cet article.

Vous devez disposer des accès suivants pour utiliser les fonctionnalités de cet article :

table 0-row-2 1-row-2 2-row-2 3-row-2 layout-auto html-authored no-header
Package Adobe Workfront	Tous
Licence Adobe Workfront	Nouveau : Standard Ou En cours : Travail ou version ultérieure
Licence Adobe Workfront Fusion **	Aucune exigence de licence Workfront Fusion.
Produit	Nouveau : Sélectionnez ou le package Prime Workfront : votre entreprise doit acheter Adobe Workfront Fusion. Package Ultimate Workfront : Workfront Fusion est inclus. Ou Actuel : votre entreprise doit acheter Adobe Workfront Fusion.

Pour plus d’informations sur les informations contenues dans ce tableau, voir Conditions d’accès requises dans la documentation.

Pour plus d’informations sur les licences Adobe Workfront Fusion, voir Licences Adobe Workfront Fusion.

Informations sur l’API de l’analyseur de texte

Le connecteur de l’analyseur de texte utilise les éléments suivants :

Balise API

Modules Text parser et leurs champs

Lorsque vous configurez les modules Text parser, Adobe Workfront Fusion affiche les champs répertoriés ci-dessous. Un titre en gras dans un module indique un champ obligatoire.

Si le bouton « Mapper » apparaît au-dessus d’un champ ou d’une fonction, vous pouvez l’utiliser pour définir des variables et des fonctions pour ce champ. Pour plus d’informations, voir Mappage des informations d’un module à un autre.

Basculement de carte

Get Elements from HTML

Récupère les éléments souhaités à partir du code HTML.

Continue the execution of the route even if the module finds no matches

Activez cette option pour vous assurer que le module n’arrête pas le scénario s’il ne renvoie aucun résultat.

Element type

Sélectionnez le type d’élément que vous souhaitez récupérer dans le code HTML.

Image
Link
iFrame element(s)

HTML

Saisissez ou mappez le code HTML à partir duquel vous souhaitez récupérer les types d’éléments spécifiés.

Get Elements from text

Analyse les éléments du texte en fonction du modèle donné.

Input text

Saisissez ou mappez le texte à analyser.

Pattern

Sélectionnez le motif qui reflète les éléments que vous souhaitez analyser à partir du texte.

Ignore Duplicate Occurrences

Cochez cette case pour ignorer les occurrences en double d’un élément de texte.

HTML to Text

HTML

Saisissez le code HTML à convertir en texte brut.

Line break

Sélectionnez le type de nouvelle ligne (saut de ligne).

Uppercase headings

Activez cette option pour convertir le texte inclus dans les balises d’en-tête (telles que <h2> </h2>) en texte en majuscules.

Match Pattern

Le module Match pattern vous permet de rechercher et d’extraire des éléments de chaîne correspondant à un modèle de recherche à partir d’un texte donné. Ce module utilise des expressions régulières (également appelées regex ou regexp).

Une expression régulière est une séquence de caractères dans laquelle chaque caractère est soit un métacaractère, ayant une signification spéciale, soit un caractère régulier ayant une signification littérale. Ces caractères et métacaractères identifient un motif qui peut être utilisé pour rechercher du texte. Par exemple, si vous souhaitez rechercher des noms, vous pouvez configurer une expression régulière pour rechercher un motif constitué de deux mots consécutifs commençant par des majuscules. Les expressions régulières sont un puissant outil de recherche et de manipulation de texte.

Le présent article ne vise pas à aborder la question des expressions régulières. Nous vous recommandons les ressources suivantes :

Pour obtenir la liste complète des métacaractères, voir Expressions régulières dans la documentation web MDN.
Pour un tutoriel sur la création d’expressions régulières, nous vous recommandons RegexOne.
Pour expérimenter des expressions régulières, nous vous recommandons le site web Regular Expressions 101. Sélectionnez le ECMAScript (JavaScript) FLAVOR dans le panneau de gauche.

Pattern

Saisissez le motif d’expression régulière.

Exemple : [+-]?(\d+(\.\d+)?|\.\d+)([eE][+-]?\d+)? extrait tous les chiffres du texte fourni.

Note :

Le motif doit contenir au moins un groupe de capture entre parenthèses (). Si le motif ne contient aucun groupe de capture, le lot de sortie est vide.

Global match

Activez cette option pour récupérer toutes les correspondances dans le texte. Chaque correspondance est générée dans un lot distinct. Si cette option est désactivée, le module récupère uniquement la première entrée.

Case sensitive

Activez cette option pour que ce module traite le texte comme étant sensible à la casse.

Multiline

Activez cette option pour vous assurer que les métacaractères de début et de fin (^ et $) correspondent au début ou à la fin de chaque ligne, et pas seulement au début ou à la fin de l’ensemble de la chaîne de caractères d’entrée.

Singleline

Activez cette option pour vous assurer que le point (.) correspond aux caractères de nouvelle ligne (\n).

Continue the execution of the route even if the module returns no results

Activez cette option pour vous assurer que le module n’arrête pas le scénario s’il ne renvoie aucun résultat.

Text

Saisissez ou mappez le texte que vous souhaitez faire correspondre au motif.

Replace

Recherche une valeur ou une expression régulière dans le texte saisi et remplace le résultat par la nouvelle valeur.

Pattern

Saisissez le terme de recherche. Vous pouvez également utiliser une expression régulière. Pour plus d’informations sur l’expression régulière, consultez le module Match Pattern .

New value

Saisissez la valeur qui doit remplacer le terme de recherche.

Global match

Case sensitive

Activez cette option pour que ce module traite le texte comme étant sensible à la casse.

Multiline

Singleline

Activez cette option pour vous assurer que le point (.) correspond aux caractères de nouvelle ligne (\n).

Text

Saisissez le texte à rechercher.

Récupération de données

La récupération de données, parfois appelée web scraping, extraction des données ou web harvesting, est le processus de collecte de données à partir de sites web et de stockage de ces données dans votre base de données ou feuille de calcul locale. Si vous souhaitez récupérer les données d’un site web et que vous ne connaissez pas les expressions régulières, vous pouvez utiliser un outil de récupération de données.

Si l’outil de nettoyage de données fournit une API REST, vous pouvez vous y connecter via nos modules de HTTP universels et Webhooks.

Dépannage de l’analyseur de texte

Utilisez ces informations si l’analyseur de texte échoue à produire une sortie.

recommendation-more-help

Exemple :

Le module doit analyser le type de fichier d’un document de fichier « filename.docx », et l’extension du nom de fichier varie de DOCX à PDF et à CSV.

L’expression à utiliser dans ce cas est ..+.

Cette expression régulière génère normalement une correspondance complète.

Cependant, l’implémentation de cette expression dans votre analyseur de texte n’entraîne pas de correspondance :

Aucune correspondance

Cela est dû au fait que la valeur « i » indique uniquement le nombre de correspondances par correspondance. Dans ce cas, nous avons deux correspondances, il y a donc après la valeur « i » une valeur numérique 1 et 2. Le cas d’utilisation à appliquer ici est que, si vous devez faire correspondre ou transférer des données via un filtre vers la seconde valeur correspondante, vous pouvez spécifier la valeur à l’aide de sa représentation numérique.

Correspondance

Pour obtenir les valeurs de correspondance dont vous avez besoin pour ajouter des intervalles à la partie que vous souhaitez analyser (par exemple, pour extraire uniquement « docx » de « filename.docx »), selon l’expression régulière que nous utilisons pour ce scénario, vous devez appliquer les intervalles sur .(.+)

Cela capture « docx », le place dans un groupe et ignore « . » .

Obtenir les correspondances