martes, 26 de julio de 2016

Fundamentos informáticos de Big Data #1

A partir de la próxima semana comenzaremos a sumergirnos en los detalles del framework de Hadoop para Big Data. Pero antes de empezar quiero dedicar un poco de tiempo a que entiendas algunos conceptos básicos que te ayudarán a digerir mejor y más rápido la información sobre Hadoop.
Sistema de Ficheros Distribuidos

sábado, 23 de julio de 2016

Convirtiendo el Conocimiento en Acción

Ahora que hemos evaluado los resultados de nuestro análisis y generado informes sobre el valor potencial de los resultados, el siguiente paso consiste en determinar que acciones deben tomarse basándonos en los conocimientos adquiridos.
Fase de Accionamiento del Conocimiento del Proceso de Ciencia de Datos

Fase de Comunicación de Resultados

La cuarta fase de nuestro proceso de ciencia de datos consiste en comunicar los conocimientos adquiridos a partir de nuestro análisis, lo cual resulta muy importante para justificar las acciones que procedan. Esta comunicación puede cambiar de forma según la audiencia y no debe subestimarse. Entonces, ¿como empezamos?
Fase de Comunicación de Resultados del Proceso de Ciencia de Datos

lunes, 11 de julio de 2016

Fase de Análisis de Big Data

Ahora que ya tenemos bien preparados nuestros datos, la siguiente fase consiste en analizar los datos. El análisis de datos implica construir un modelo a partir de los datos de entrada utilizando una técnica de análisis para generar los datos de salida. Existen diferentes tipos de problemas y, por tanto, distintos tipos diferentes de técnicas de análisis: clasificación, regresión, clustering, análisis de asociación y análisis gráfico. Vamos a describir cada una de ellas.
Fase de Análisis del Proceso de Ciencia de Datos

sábado, 9 de julio de 2016

Fase de Procesamiento Previo de Big Data

Los datos en bruto que obtenemos directamente de las fuentes nunca están en el formato que necesitamos para llevar a cabo los análisis. Hay dos objetivos principales en la fase de procesamiento previo de los datos. El primero de ellos consiste en depurar los datos (pulirlos, mejorarlos) para hacer frente a los problemas de calidad de datos, y el segundo consiste en transformar los datos en bruto para adaptarlos al análisis.
Fase de Procesamiento previo del Proceso de Ciencia de Datos

jueves, 7 de julio de 2016

Fase de Exploración de Big Data

Después de haber recopilado los datos que necesitamos para nuestra aplicación podríamos tener la tentación de construir modelos de inmediato para analizar los datos (revisar artículo anterior). Debemos evitar esta tentación. El primer paso después de conseguir los datos es explorarlos, estudiarlos, indagar en ellos. Esta exploración de datos es parte del proceso de preparación de datos en dos fases.
Fase de Exploración del Proceso de Ciencia de Datos

lunes, 4 de julio de 2016

Fase de Adquisición de Big Data

El primer paso del proceso de Ciencia de Datos consiste en adquirir los datos (puedes ver un resumen de esto en este artículo anterior). Es necesario obtener el material de origen antes de analizarlo o actuar sobre el. El primer paso al adquirir los datos es determinar cuales de ellos están disponibles. No debemos escatimar esfuerzos a la hora de investigar las fuentes de datos adecuadas. Queremos identificar los datos adecuados relacionados con nuestro problema y aprovechar todos los datos que sean relevantes para el análisis del problema. Omitir solamente una pequeña cantidad de datos importante puede conducir a conclusiones incorrectas.
Fase de Adquisición del Proceso de Ciencia de Datos