Cláusula DISTINCT

La cláusula DISTINCT le permite obtener todos los valores distintos en un nivel de fila/columna, eliminando todos los valores duplicado de la respuesta.

A continuación se muestra un ejemplo de uso de la distinct() función:

df = dataset_reader.select(['column-a']).distinct().read()

Cláusula WHERE

Puede utilizar ciertos operadores en Python para filtrar el conjunto de datos.

NOTE
Las funciones utilizadas para el filtrado distinguen entre mayúsculas y minúsculas.
eq() = '='
gt() = '>'
ge() = '>='
lt() = '<'
le() = '<='
And = and operator
Or = or operator

A continuación se muestra un ejemplo del uso de estas funciones de filtrado:

df = dataset_reader.where(experience_ds['timestamp'].gt(87879779797).And(experience_ds['timestamp'].lt(87879779797)).Or(experience_ds['a'].eq(123)))

Cláusula ORDER BY

La cláusula ORDER BY permite ordenar los resultados recibidos por una columna especificada en un orden específico (ascendente o descendente). Esto se hace mediante la función sort().

A continuación se muestra un ejemplo de uso de la sort() función:

df = dataset_reader.sort([('column_1', 'asc'), ('column_2', 'desc')])

Cláusula LIMIT

La cláusula LIMIT le permite limitar el número de registros recibidos del conjunto de datos.

A continuación se muestra un ejemplo de uso de la limit() función:

df = dataset_reader.limit(100).read()

Cláusula OFFSET

La cláusula OFFSET permite omitir filas, desde el principio, para comenzar a devolver filas desde un punto posterior. En combinación con LIMIT, esto se puede utilizar para repetir filas en bloques.

A continuación se muestra un ejemplo del uso de la función offset():

df = dataset_reader.offset(100).read()