El rendimiento de los sistemas de Big Data está directamente relacionado con la distribución
uniforme de los datos de procesamiento entre todos los workers. Cuando tienes una tabla de base de
datos y luego extraes los datos para procesarlos, las filas de datos deben distribuirse uniformemente
entre todos los workers de datos. Si algunos segmentos de datos tienen más filas que otros, los
workers con más datos tienen que trabajar más duro, más tiempo y necesitan más recursos y tiempo
para completar sus trabajos. Estos segmentos de datos y los workers que los administran se
convierten en un cuello de botella de rendimiento para la tarea completa de procesamiento de datos.
La distribución desigual de datos se denomina sesgo y una distribución de datos óptima no tiene
sesgo.
DESCARGAR
Hasta la próxima !
0 comentarios:
Publicar un comentario
Gracias por participar en esta página.