Searching...
sábado, 25 de abril de 2020

Guía de Spark SQL, DataFrames y DataSets

Spark SQL es un módulo de Spark para el procesamiento de datos estructurados. A diferencia de la API básica Spark RDD, las interfaces proporcionadas por Spark SQL proporcionan a Spark más información sobre la estructura de los datos y el cálculo que se realiza. Internamente, Spark SQL usa esta información adicional para realizar optimizaciones adicionales. Hay varias formas de interactuar con Spark SQL, incluyendo SQL y la API Dataset. Al calcular un resultado, se utiliza el mismo motor de ejecución, independientemente de la API / lenguaje que esté utilizando para expresar el cálculo. Esta unificación significa que los desarrolladores pueden alternar fácilmente entre diferentes API según lo que proporcione la forma más natural de expresar una transformación dada.

Todos los ejemplos de esta página usan datos de muestra incluidos en la distribución de Spark y pueden ejecutarse en el spark-shell, el shell pyspark o el shell sparkR.



DESCARGAR
Hasta la próxima !

0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!