Instalar y configurar notebooks Zeppelin para trabajar en Spark

En este post voy a explicar como empezar a utilizar Apache Zeppelin para dar soporte al desarrollo y análisis interactivo de datos utilizando Notebooks.

Para instalar Apache Zeppelin lo primero es comprobar que tenemos instalado Java:

Descargamos Apache Zeppelin:

Desempaquetamos el TGZ de Apache Zeppelin:

Chequeamos si tenemos instalado Docker en nuestra MV local:

Si no tenemos instalado Docker en nuestra MV local, procedemos a su instalación:

Iniciamos Apache Zeppelin desde el terminal:

Navegamos a la dirección http://localhost:8080 con el navegador para aterrizar en la pantalla principal de Zeppelin.

A la izquierda de la página se enumeran todos los notebooks actuales. Estos notebooks se almacenan por defecto en la carpeta $ZEPPELIN_HOME/notebook.

Nota: Para esto debemos haber metido la variable ZEPPELIN_HOME en ~/.bashrc.

Puedes filtrar por nombre utilizando el formulario de entrada de texto. También se puede crear un nuevo notebook, actualizar la lista de notebooks (si los copias manualmente en la carpeta $ZEPPELIN_HOME/notebook) e importar un notebook.

Cada notebook de Zeppelin se compone de 1 a N párrafos. El notebook se puede ver como un contenedor de párrafos.

Cada párrafo consta de 2 secciones: sección de código donde colocamos nuestro código fuente y sección de resultados donde se puede ver el resultado de la ejecución del código.

En la esquina superior derecha de cada párrafo hay algunos comandos para:

ejecutar el código del párrafo
mostrar / ocultar la sección de código
mostrar / ocultar la sección de resultados
configurar el párrafo

Para configurar el párrafo, simplemente haz clic en el icono de ajustes:

Desde este diálogo, se puede (en orden descendente):

· encontrar el id del párrafo (20150924-163507_134879501)

· controlar el ancho del párrafo. Dado que Zeppelin está utilizando el sistema de cuadrícula de Twitter Bootstrap, el ancho de cada párrafo se puede cambiar de 1 a 12.

· mover el párrafo 1 nivel hacia arriba

· mover el párrafo 1 nivel hacia abajo

· crear un nuevo párrafo

· cambiar el título del párrafo

· mostrar/ocultar el número de línea en la sección de código

· deshabilitar el botón run del párrafo

· exportar el párrafo actual como iframe y abrirlo en una nueva ventana

· limpiar la sección de resultados

· borrar el párrafo actual

En la parte superior del notebook, se puede encontrar una barra de herramientas que expone los botones de comando, así como las opciones de configuración, seguridad y visualización.

En el extremo izquierdo se muestra el nombre del notebook, simplemente haz clic en él para revelar el formulario de entrada y actualizarlo.

En mitad de la barra de herramientas se pueden encontrar los botones de comando:

· ejecutar todos los párrafos secuencialmente, por su orden de visualización

· ocultar / mostrar la sección de código de todos los párrafos

· ocultar / mostrar la sección de resultados de todos los párrafos

· borrar la sección de resultados de todos los párrafos

· clonar el notebook actual

· exportar la nota actual a un archivo JSON. Ten en cuenta que se exportarán la sección de código y la sección de resultados de todos los párrafos. Si tienes datos pesados en la sección de resultados de algunos párrafos, se recomienda limpiarlos antes de exportar

· confirmar el contenido del notebook actual

· borrar el notebook

· programar la ejecución de todos los párrafos mediante una sintaxis CRON

A la derecha de la barra de herramientas de notas puede encontrar iconos de configuración:

· mostrar todos los atajos de teclado

· configurar los intérpretes vinculados al notebook actual

· configurar los permisos del notebook

· cambia el modo de visualización del notebook entre predeterminado, simple e informe

Vamos a realizar ahora una pequeña práctica para sacarle partido a Zeppelin. Para ello vamos a descargarnos primero un fichero CSV para poder trabajar con él en local:

y lo descomprimimos en nuestro directorio de datos:

Movemos el directorio de datos con los ficheros descargados al directorio $ZEPPELIN_HOME, que es la ruta de trabajo por defecto para nuestros notebooks en Zeppelin.

Para transformar los datos del CSV en un RDD de objetos Bank, ejecuta el siguiente script. Este código también eliminará la cabecera usando la función filter.