Clausola DISTINCT

La clausola DISTINCT consente di recuperare tutti i valori distinti a livello di riga/colonna, rimuovendo tutti i valori duplicati dalla risposta.

Di seguito è riportato un esempio di utilizzo della funzione distinct():

df = dataset_reader.select(['column-a']).distinct().read()

Clausola WHERE

È possibile usare determinati operatori in Python per filtrare il set di dati.

NOTA
Le funzioni utilizzate per filtrare fanno distinzione tra maiuscole e minuscole.
eq() = '='
gt() = '>'
ge() = '>='
lt() = '<'
le() = '<='
And = and operator
Or = or operator

Di seguito è riportato un esempio dell'utilizzo di queste funzioni di filtro:

df = dataset_reader.where(experience_ds['timestamp'].gt(87879779797).And(experience_ds['timestamp'].lt(87879779797)).Or(experience_ds['a'].eq(123)))

Clausola ORDINA BY

La clausola ORDER BY consente di ordinare i risultati ricevuti in base a una colonna specifica in un ordine specifico (crescente o decrescente). Questa operazione viene eseguita utilizzando la sort() funzione.

Di seguito è riportato un esempio di utilizzo della funzione sort():

df = dataset_reader.sort([('column_1', 'asc'), ('column_2', 'desc')])

clausola LIMIT

La clausola LIMIT consente di limitare il numero di record ricevuti dal set di dati.

Di seguito è riportato un esempio di utilizzo della funzione limit():

df = dataset_reader.limit(100).read()

clausola OFFSET

La clausola OFFSET consente di saltare le righe, dall'inizio, per iniziare a restituire le righe da un punto successivo. In combinazione con LIMIT, può essere utilizzato per iterare le righe in blocchi.

Di seguito è riportato un esempio dell'utilizzo offset() della funzione:

df = dataset_reader.offset(100).read()