El Problema del Sesgo de Datos en Sistemas Distribuidos

Home » Optimization » Spark » Tuning » El Problema del Sesgo de Datos en Sistemas Distribuidos

El rendimiento de los sistemas de Big Data está directamente relacionado con la distribución uniforme de los datos de procesamiento entre todos los workers. Cuando tienes una tabla de base de datos y luego extraes los datos para procesarlos, las filas de datos deben distribuirse uniformemente entre todos los workers de datos. Si algunos segmentos de datos tienen más filas que otros, los workers con más datos tienen que trabajar más duro, más tiempo y necesitan más recursos y tiempo para completar sus trabajos. Estos segmentos de datos y los workers que los administran se convierten en un cuello de botella de rendimiento para la tarea completa de procesamiento de datos. La distribución desigual de datos se denomina sesgo y una distribución de datos óptima no tiene sesgo.

DESCARGAR
Hasta la próxima !

El Problema del Sesgo de Datos en Sistemas Distribuidos

Entradas Relacionadas

0 comentarios:

Publicar un comentario