Searching...
domingo, 29 de noviembre de 2020

Iniciar un proyecto de Ciencia de Datos en Python con Anaconda

Hay diferentes maneras de abordar un proyecto de Ciencia de Datos. Una muy utilizada consiste en instalar en un primer paso la distribución de Anaconda. Para ello sigue los pasos descritos en la guía https://docs.anaconda.com/anaconda/install/. Básicamente te descargas el instalador en https://www.anaconda.com/products/individual#windows, haces doble-click en el, le das a siguiente, aceptas los términos de la licencia y continuas hasta el final con las opciones predeterminadas.











Para verificar que la instalación de Anaconda ha ido bien puedes abrir Anaconda Navigator.














Luego nos creamos un entorno virtual desde el entorno de Anaconda Navigator. Esta es una buena práctica en cada proyecto de ciencia de datos que realicemos, puesto que nos permite tener entornos de prueba aislados sin conflictos entre librerías, incluso con distintas versiones de Python.

Inicialmente nos aparecerá un entorno base configurado con un montón de paquetes, pero pulsamos el botón Create para crearnos un nuevo entorno para el proyecto.













Abrimos un prompt de Anaconda y reproducimos los siguientes pasos a continuación.

























Primero comprobamos la versión del gestor de paquetes.






Actualizamos el gestor de paquetes a la última versión:

























Sacamos una lista de todos los entornos. El entorno activo es que tiene el *.











Activamos el entorno que hemos creado para nuestro trabajo, en este caso, unirtia.












Observamos como el entorno activo también se visualiza por delante del indicador de comandos, entre paréntesis, en este caso (unirtia).

Verificamos la versión de Python que tenemos instalada en el entorno actual.





Sacamos una lista de los paquetes que tenemos instalados en este entorno.




















Nota: Para desactivar el entorno actual y volver al base solo tenemos que hacer conda activate.

Procedemos ahora a instalar las librerías estándar que vamos a necesitar para trabajar con Machine Learning.

En primer lugar instalamos pandas, que es librería muy utilizada en proyectos de ciencia de datos, que permite importación de distintos formatos, operaciones con dataframes y cálculo de estadística descriptiva. Se puede investigar la librería en el sitio https://pandas.pydata.org/.




















Observamos que también se nos ha instalado numpy, que es una librería que necesitamos también para realizar cálculo numérico y álgebra lineal, y en la que se apoya también pandas. Para investigar la librería NumPy, la página web oficial es https://numpy.org/.
































Ahora vamos a instalar matplotlib, que es la librería estándar de Python para generar representaciones visuales de datos de alta calidad en 2D (histogramas, diagramas de barras, gráficas de dispersión, etc.). Como se observa a continuación, se instalan también unas cuantas dependencias adicionales junto con este paquete. Para más información consultar el sitio https://matplotlib.org/.







































Instalamos IPython, que es una librería que nos da un entorno gráfico basado en notebooks para hacer cálculos interactivos. La documentación está disponible en http://ipython.org/.































Finalmente nos instalamos scikit-learn, que es la librería que se utiliza para realizar modelos predictivos en Python, y que está basado en los paquetes numpy, pandas y matplotlib, instalados previamente. La documentación oficial está disponible en https://scikit-learn.org/stable/.





























Como podemos observar, la instalación de scikit-learn también ha instalado la librería SciPy, una librería ampliamente utilizada para cálculo científico cuya documentación está disponible en https://www.scipy.org/.

La versión definitiva de nuestro entorno queda entonces de la siguiente manera:








































Hay que tener una base de Python antes de comenzar un curso de Machine Learning, por lo que te recomiendo seguir un curso introductorio de matemáticas o estadística descriptiva con Python, como por ejemplo, el disponible en https://www.udemy.com/course/estadistica-descriptiva/. También recomiendo el libro Data Science from Scratch - First Principles with Python como material de apoyo inicial.

Por último, debes familiarizarte con los entornos de desarrollo integrados en Anaconda (IDEs) con los que podemos trabajar programando en Python. Entre ellos, los entornos profesionales que se suelen usar indistintamente son Jupyter Notebooks, JupyterLab y Spyder. Todas estas utilidades se pueden instalar desde la sección Home de Anaconda Navigator, seleccionando el entorno virtual donde hemos instalado nuestras librerías para nuestro proyecto específico, pulsando el botón install correspondiente.


Características principales de Jupyter Notebooks:

Edición de código en el navegador, con resaltado automático de sintaxis, sangría y finalización / introspección de tabulación.

Capacidad de ejecutar código desde el navegador, adjuntando los resultados de los cálculos junto al código que los genera.

Visualización del resultado del cálculo utilizando representaciones de medios enriquecidos, como HTML, LaTeX, PNG, SVG, etc. Por ejemplo, se pueden incluir gráficos de calidad en línea representados con la librería matplotlib.

Edición en el navegador de texto enriquecido utilizando el lenguaje de marcado Markdown, que puede proporcionar comentarios en el código que no se limita al texto sin formato.

Capacidad de incluir fácilmente notación matemática dentro de las celdas usando LaTeX y renderizando de forma nativa con MathJax.


Características principales de JupyterLab:

JupyterLab es la evolución de la siguiente generación de Jupyter Notebooks, aunque se puede usar indistintamente para hacer notebooks de python. JupyterLab tiene una arquitectura modular extensible. Antiguamente, solo había un Jupyter Notebook, y ahora con JupyterLab, Notebook es solo una de las aplicaciones centrales en JupyterLab (junto con otras como la Consola de código, la Terminal de línea de comandos y un Editor de Texto).


Características principales de Spyder:

Spyder es un entorno científico potente escrito en Python, para Python, y diseñado por y para científicos, ingenieros y analistas de datos. Presenta una combinación única de funciones avanzadas de edición, análisis, depuración y creación de perfiles de una herramienta de desarrollo integral con la exploración de datos, ejecución interactiva, inspección profunda y bellas capacidades de visualización de un paquete científico.


Hasta el próximo artículo, ¡¡ Buen aprendizaje !!! 😀😀😀

0 comentarios:

Publicar un comentario

Gracias por participar en esta página.

 
Back to top!