Componentes de la Ciencia de Datos

Ahora que hemos definido la ciencia de datos y como las empresas pueden elaborar estrategias en torno a Big Data para comenzar a construir en torno a un propósito, vamos a utilizar de nuevo la ciencia de datos para obtener todo el valor de Big Data en cuanto al propósito o las preguntas que definen estos datos.

La experiencia en el desarrollo de proyectos de ciencia de datos con éxito ha conducido a un método artesanal con cinco componentes distintos que se pueden definir como componentes de la ciencia de datos. Aquí se define la ciencia de datos como una arte multidisciplinario en el que se combina a las personas haciendo equipo en torno a un propósito específico de la aplicación que puede lograrse mediante un proceso, plataformas de Big Data y con programación.

Las cinco P's de la Ciencia de Datos

Todo esto debe conducir a productos en los que el foco esté en realidad en las preguntas o en el propósito que define nuestra estrategia de Big Data. Hay muchas tareas relacionadas con tecnologías, datos, investigación analítica y desarrollo en torno a estas preguntas, pero al final todo lo que hacemos en esta fase es llegar a ese producto final basándonos en nuestros propósitos. Por lo tanto, tiene sentido comenzar a desarrollar un proceso con respecto a la forma en que hacemos realidad este producto.

¿Te acuerdas del proyecto de predicción de incendios forestales que describimos en un artículo anterior? Uno de los productos de los que tratamos fue la velocidad de propagación y la dirección del incendio. En este modelo se han identificado las preguntas y el proceso que ha conducido al producto final que lo resuelve. Se reunió a expertos en modelado de incendios, gestión de datos, análisis de series temporales, informática escalable, Sistemas de Información Geográfica (GIS) y respuesta a emergencias. Se les pidió que no entrasen todavía en el detalle técnico.

¿Cuál es el problema en general? ¿Cómo podemos resolverlo? Con esta pregunta se inicia el proceso y, a partir de entonces, se profundiza en múltiples áreas de especialización, obligándonos a menudo a desdibujar las líneas entre los pasos. El equipo de proyecto comienza a enumerar cosas como “no disponemos de un sistema integrado” o “no tenemos acceso en tiempo real a los datos mediante programación”, o “no podemos integrar los datos de sensores con datos de satélite”. Todo esto nos conduce a desafíos que luego podemos utilizar para definir los problemas.

Dentro de esta discusión existen muchas dimensiones de la ciencia de datos en las que pensar. Vamos a empezar por las más obvias, las personas y el propósito.

Por personas nos referimos al equipo científico de datos o a los grupos de interés del proyecto. Como sabemos por ahora, son expertos en análisis de datos, negocio, informática, ciencias o gestión de Big Data, como todo el conjunto de expertos que hemos enumerado en el escenario de los incendios forestales.

El propósito se refiere al desafío o al conjunto de desafíos definidos por nuestra estrategia de Big Data, como resolver la pregunta relacionada con la velocidad de propagación y la dirección del perímetro del incendio en el escenario de los incendios forestales.

Puesto que hay un equipo predefinido con un propósito, lo ideal es que este equipo comience por un proceso por el que puedan iterar continuamente. Podemos decir simplemente que las personas con un propósito definen un proceso en torno al que colaborar y comunicarse. Este proceso es conceptual al principio y define el conjunto de pasos y la forma en que todo el mundo puede contribuir.

Hay muchas maneras de entender el proceso. Una forma de verlo es como dos actividades distintas, principalmente Ingeniería de Big Data y Analítica de Big data, o resumiendo, Informática de Big Data, puesto que aquí se está realizando algo más que un simple análisis. Una manera más detallada de entender el proceso revela cinco pasos o actividades distintas de este proceso de ciencia de datos, a saber, adquirir, preparar, analizar, reportar y actuar. Podemos decir que la ciencia de datos ocurre en la frontera entre todos estos pasos. Idealmente este proceso debe apoyar el trabajo experimental y la escalabilidad dinámica de las plataformas de Big Data.

Las cinco actividades de la Ciencia de Datos

Este proceso de cinco pasos se puede utilizar de formas alternativas en las aplicaciones de Big Data de la vida real si añadimos las dependencias entre las herramientas. La influencia de Big Data insiste en enfoques alternativos de escalabilidad en cada paso del proceso. De igual forma que escalaríamos cada paso por sí solo, podemos acabar escalando todo el proceso en su conjunto al final.

Se puede decir que todos estos pasos tienen necesidades de reporting en diferentes formas, o que existe una necesidad de elaborar todas estas actividades como un proceso iterativo, incluyendo como pasos el desarrollo (build), el análisis (explore) y el cambio de escala (scale) de Big Data. Los análisis de Big Data necesitan técnicas y sistemas alternativos de gestión de datos, así como herramientas y métodos analíticos alternativos. Se necesitan múltiples modos de escalabilidad basados en datos y cargas dinámicas de procesamiento. Además del cambio en la infraestructura física, las urgencias específicas de los datos de streaming derivadas de eventos especiales también pueden requerir múltiples modos de escalabilidad. De momento, para simplificar me voy a referir en este curso de introducción al proceso como a un conjunto de cinco actividades secuenciales que son iterativas. Sin embargo, voy a abordar la escalabilidad cuando sea necesario en las aplicaciones de ejemplo.

Como parte de la construcción de nuestro proceso de Big Data, es importante mencionar otras dos Ps. La primera de ellas son las Plataformas de Big Data, como las que hay en el framework de Hadoop, u otras plataformas informáticas para escalar los diferentes pasos. La escalabilidad debe ser primordial para todos los miembros del equipo y debe comunicarse como una expectativa. Además, el proceso escalable debe ser programable utilizando APIs reutilizables y reproducibles y otras librerías, como middleware de sistemas, herramientas analíticas, entornos de visualización y entornos de reporting de usuario final.

Pensar en las aplicaciones de Big Data como un proceso que incluye un conjunto de actividades en las que pueden colaborar los miembros del equipo también ayuda a construir métricas de control de responsabilidades y a incorporarlas al proceso. De esta manera, los miembros del equipo pueden debatir sobre expectativas de coste, tiempo, optimización de entregables y plazos, empezando desde el inicio del proceso de ciencia de datos. Algunas veces es posible que no seamos capaces de hacer esto en un solo paso y los análisis en conjunto como las evaluaciones estadísticas de resultados intermedios o la precisión de los conjuntos de datos de muestra cobren importancia.

Resumiendo:

La ciencia de datos se puede definir como el arte de utilizar las cinco P’s identificadas en este artículo, lo que lleva a una sexta P, el producto de datos. Tener un proceso dentro de las Ps más orientadas a negocio, como las personas y el propósito, y las Ps más orientadas a la tecnología, como las plataformas y la programación, conduce a un método simplificado que empieza y termina teniendo en cuenta el producto, la responsabilidad y el trabajo en equipo. El proceso de ciencia de datos proporciona directrices para implementar soluciones de Big Data, ya que ayuda a organizar los esfuerzos y asegura que todos los pasos críticos que se dan se ajusten a métricas predefinidas y acordadas.

Componentes de la Ciencia de Datos

Entradas Relacionadas

0 comentarios:

Publicar un comentario