Descargamos Apache Zeppelin:
Desempaquetamos el TGZ de Apache Zeppelin:
Chequeamos si tenemos instalado Docker en nuestra MV local:
Si no tenemos instalado Docker en nuestra MV local,
procedemos a su instalación:
Iniciamos Apache Zeppelin desde el terminal:
Navegamos a la dirección http://localhost:8080 con el navegador para aterrizar en la pantalla principal de Zeppelin.
A la izquierda de la página se
enumeran todos los notebooks actuales. Estos notebooks se almacenan por defecto
en la carpeta $ZEPPELIN_HOME/notebook.
Nota: Para esto
debemos haber metido la variable ZEPPELIN_HOME en ~/.bashrc.
Puedes filtrar por nombre
utilizando el formulario de entrada de texto. También se puede crear un nuevo notebook,
actualizar la lista de notebooks (si los copias manualmente en la carpeta $ZEPPELIN_HOME/notebook)
e importar un notebook.
Cada notebook de Zeppelin se
compone de 1 a N párrafos. El notebook se puede ver como un contenedor de
párrafos.
Cada párrafo consta de 2
secciones: sección de código donde colocamos nuestro código
fuente y sección de resultados donde se puede ver el resultado de
la ejecución del código.
En la esquina superior derecha de
cada párrafo hay algunos comandos para:
- ejecutar el código del párrafo
- mostrar / ocultar la sección de código
- mostrar / ocultar la sección de resultados
- configurar el párrafo
Desde este diálogo, se puede (en
orden descendente):
·
encontrar el id del párrafo
(20150924-163507_134879501)
· controlar el ancho del párrafo. Dado que
Zeppelin está utilizando el sistema de cuadrícula de Twitter Bootstrap,
el ancho de cada párrafo se puede cambiar de 1 a 12.
·
mover el párrafo 1 nivel hacia arriba
·
mover el párrafo 1 nivel hacia abajo
·
crear un nuevo párrafo
·
cambiar el título del párrafo
·
mostrar/ocultar el número de línea en la sección
de código
·
deshabilitar el botón run del párrafo
·
exportar el párrafo actual como iframe y
abrirlo en una nueva ventana
·
limpiar la sección de resultados
·
borrar el párrafo actual
En la parte superior del notebook,
se puede encontrar una barra de herramientas que expone los botones de comando,
así como las opciones de configuración, seguridad y visualización.
En el extremo izquierdo se
muestra el nombre del notebook, simplemente haz clic en él para revelar el
formulario de entrada y actualizarlo.
En mitad de la barra de
herramientas se pueden encontrar los botones de comando:
·
ejecutar todos los párrafos secuencialmente,
por su orden de visualización
·
ocultar / mostrar la sección de código de
todos los párrafos
·
ocultar / mostrar la sección de resultados
de todos los párrafos
·
borrar la sección de resultados de todos
los párrafos
·
clonar el notebook actual
· exportar la nota actual a un archivo JSON. Ten
en cuenta que se exportarán la sección de código y la sección de
resultados de todos los párrafos. Si tienes datos pesados en la sección
de resultados de algunos párrafos, se recomienda limpiarlos antes de
exportar
·
confirmar el contenido del notebook actual
·
borrar el notebook
·
programar la ejecución de todos los párrafos
mediante una sintaxis CRON
A la derecha de la barra de
herramientas de notas puede encontrar iconos de configuración:
·
mostrar todos los atajos de teclado
·
configurar los intérpretes vinculados al
notebook actual
·
configurar los permisos del notebook
·
cambia el modo de visualización del notebook
entre predeterminado, simple e informe
Vamos a realizar ahora una
pequeña práctica para sacarle partido a Zeppelin. Para ello vamos a
descargarnos primero un fichero CSV para poder trabajar con él en local:
y lo descomprimimos en nuestro
directorio de datos:
Movemos el directorio de datos
con los ficheros descargados al directorio $ZEPPELIN_HOME, que es la
ruta de trabajo por defecto para nuestros notebooks en Zeppelin.
Para transformar los datos del CSV
en un RDD de objetos Bank, ejecuta el siguiente script. Este código
también eliminará la cabecera usando la función filter.
Supongamos que queremos ver la distribución
por edades del banco. Para hacer esto, ejecuta:
Se puede hacer que se configure un
cuadro de entrada con la condición de edad reemplazando 30 con ${maxAge
= 30}.
Ahora queremos ver la
distribución de edad con cierto estado civil y añadir un cuadro combinado para
seleccionar el estado civil. Ejecuta:
Para dejar de trabajar con
zeppelin cerramos la interfaz del Navegador y luego detenemos el demonio:
¡Hasta la próxima!
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.