Corrispondenza fuzzy in Query Service
Utilizza una corrispondenza "fuzzy" nei dati Adobe Experience Platform per restituire le corrispondenze più probabili e approssimative senza dover cercare stringhe con caratteri identici. Questo consente una ricerca molto più flessibile dei dati e li rende più accessibili risparmiando tempo e fatica.
Invece di provare a riformattare le stringhe di ricerca per farle corrispondere, la corrispondenza sfocata analizza il rapporto di somiglianza tra due sequenze e restituisce la percentuale di somiglianza. FuzzyWuzzy è consigliato per questo processo in quanto le sue funzioni sono più adatte per consentire la corrispondenza di stringhe in situazioni più complesse rispetto a regex o difflib.
L’esempio fornito in questo caso d’uso si concentra sulla corrispondenza di attributi simili da una ricerca nella camera d’albergo in due diversi set di dati dell’agenzia di viaggio. Il documento illustra come far corrispondere le stringhe in base al loro grado di somiglianza da grandi origini dati separate. In questo esempio, fuzzy match confronta i risultati della ricerca per le caratteristiche di una stanza delle agenzie di viaggio Luma e Acme.
Introduzione getting-started
Poiché parte di questo processo richiede la formazione di un modello di apprendimento automatico, il presente documento presuppone una conoscenza operativa di uno o più ambienti di apprendimento automatico.
Questo esempio utilizza Python e l'ambiente di sviluppo Jupyter Notebook. Sebbene siano disponibili molte opzioni, Jupyter Notebook è consigliato in quanto si tratta di un'applicazione Web open-source con requisiti di calcolo ridotti. Può essere scaricato da il sito ufficiale Jupyter.
Prima di iniziare, è necessario importare le librerie necessarie. FuzzyWuzzy è una libreria Python open source creata sulla libreria difflib e utilizzata per trovare stringhe corrispondenti. Utilizza Levenshtein Distance per calcolare le differenze tra sequenze e pattern. FuzzyWuzzy ha i seguenti requisiti:
- Python 2.4 (o versione successiva)
- Python-Levenshtein
Dalla riga di comando, utilizzare il comando seguente per installare FuzzyWuzzy:
pip install fuzzywuzzy
Oppure usa il seguente comando per installare anche Python-Levenshtein:
pip install fuzzywuzzy[speedup]
Ulteriori informazioni tecniche su Fuzzywuzzy sono disponibili nella documentazione ufficiale.
Connetti a Query Service
È necessario collegare il modello di apprendimento automatico a Query Service fornendo le credenziali di connessione. È possibile fornire credenziali sia in scadenza che non in scadenza. Per ulteriori informazioni su come acquisire le credenziali necessarie, vedere la guida alle credenziali. Se utilizzi Jupyter Notebook, leggi la guida completa su come connetterti a Query Service.
Assicurarsi inoltre di importare il pacchetto numpy nell'ambiente Python per abilitare l'algebra lineare.
import numpy as np
I comandi seguenti sono necessari per connettersi a Query Service da Jupyter Notebook:
import psycopg2
conn = psycopg2.connect('''
sslmode=require
host=<YOUR_ORGANIZATION_ID>
port=80
dbname=prod:all
user=<YOUR_ADOBE_ID_TO_CONNECT_TO_QUERY_SERVICE>
password=<YOUR_QUERY_SERVICE_PASSWORD>
''')
cur = conn.cursor()
L'istanza Jupyter Notebook è ora connessa a Query Service. Se la connessione ha esito positivo, non viene visualizzato alcun messaggio. Se la connessione non è riuscita, viene visualizzato un errore.
Dati Draw dal set di dati Luma luma-dataset
I dati per l’analisi vengono estratti dal primo set di dati con i seguenti comandi. Per brevità, gli esempi sono stati limitati ai primi 10 risultati della colonna.
cur.execute('''SELECT * FROM luma;
''')
luma = np.array([r[0] for r in cur])
luma[:10]
Seleziona Output per visualizzare l'array restituito.
code language-console |
---|
|
Dati Draw dal set di dati Acme acme-dataset
I dati per l’analisi vengono ora estratti dal secondo set di dati con i seguenti comandi. Anche in questo caso, per brevità, gli esempi sono stati limitati ai primi 10 risultati della colonna.
cur.execute('''SELECT * FROM acme;
''')
acme = np.array([r[0] for r in cur])
acme[:10]
Seleziona Output per visualizzare l'array restituito.
code language-console |
---|
|
Creare una funzione di punteggio fuzzy fuzzy-scoring
È quindi necessario importare fuzz
dalla libreria FuzzyWuzzy ed eseguire un confronto delle proporzioni parziali delle stringhe. La funzione di rapporto parziale consente di eseguire la corrispondenza della sottostringa. Questa opzione consente di prendere la stringa più breve e di farla corrispondere a tutte le sottostringhe della stessa lunghezza. La funzione restituisce un rapporto di somiglianza percentuale fino al 100%. Ad esempio, la funzione di rapporto parziale confronta le seguenti stringhe "Camera Deluxe", "1 Letto King" e "Camera Re Deluxe" e restituisce un punteggio di somiglianza del 69%.
Nel caso di utilizzo di corrispondenza della camera di hotel, questa operazione viene eseguita utilizzando i seguenti comandi:
from fuzzywuzzy import fuzz
def compute_match_score(x,y):
return fuzz.partial_ratio(x,y)
Importare quindi cdist
dalla libreria SciPy per calcolare la distanza tra ciascuna coppia nei due insiemi di input. In questo modo vengono calcolati i punteggi di tutte le coppie di camere di hotel fornite da ciascuna agenzia di viaggio.
from scipy.spatial.distance import cdist
pairwise_distance = cdist(luma.reshape((-1,1)),acme.reshape((-1,1)),compute_match_score)
Creare mappature tra le due colonne utilizzando il punteggio di join fuzzy
Ora che le colonne sono state valutate in base alla distanza, puoi indicizzare le coppie e mantenere solo le corrispondenze con un punteggio superiore a una determinata percentuale. In questo esempio vengono mantenute solo le coppie corrispondenti a un punteggio pari o superiore al 70%.
matched_pairs = []
for i,c1 in enumerate(luma):
idx = np.where(pairwise_distance[i,:] > 70)[0]
for j in idx:
matched_pairs.append((luma[i].replace("'","''"),acme[j].replace("'","''")))
I risultati possono essere visualizzati con il seguente comando. Per brevità, i risultati sono limitati a dieci righe.
matched_pairs[:10]
Seleziona Output per visualizzare i risultati.
code language-console |
---|
|
I risultati vengono quindi associati utilizzando SQL con il seguente comando:
matching_sql = ' OR '.join(["(e.luma = '{}' AND b.acme = '{}')".format(c1,c2) for c1,c2 in matched_pairs])
Applicare le mappature per eseguire un join fuzzy in Query Service mappings-for-query-service
Successivamente, le coppie corrispondenti con punteggio elevato vengono unite utilizzando SQL per creare un nuovo set di dati.
:
cur.execute('''
SELECT * FROM luma e
CROSS JOIN acme b
WHERE
{}
'''.format(matching_sql))
[r for r in cur]
Seleziona Output per visualizzare i risultati di questo join.
code language-console |
---|
|
Salva risultati di corrispondenza approssimativi in Platform save-to-platform
Infine, i risultati della corrispondenza fuzzy possono essere salvati come set di dati da utilizzare in Adobe Experience Platform utilizzando SQL.
cur.execute('''
Create table luma_acme_join
AS
(SELECT * FROM luma e
CROSS JOIN acme b
WHERE
{})
'''.format(matching_sql))