2. Preparación de datos#
La preparación de datos es la actividad encargada de recibir las fuentes de datos y ‘prepararla’ para el análisis.
Es una tarea compleja en donde la información de las fuentes de datos seleccionadas en la actividad previa de colección debe ser procesada para:
limpiarlas, en el sentido de eliminar redundancias innecesarias como datos duplicados, inconsistencias, etc.
reorganizarlas, en caso de ser necesario, en información útil de acuerdo a los requerimientos del sistema de análisis.
Como podemos observar en la figura siguiente, las datos coleccionados deben transformarse primero individualmente para obtener datos con calidad, y luego se deben integrar y agregar de acuerdo a las necesidades específicas del sistema a construir.
De esta forma, separamos a la Preparación de Datos en dos partes: análisis individual de las fuentes de datos e integración y agregación.
Análisis individual de las fuentes de datos#
Esta parte se centra en el análisis individual de cada fuente de datos coleccionada en la actividad anterior.
Los temas que trataremos en esta parte son:
2.1. Tratamiento de valores perdidos o faltantes
2.2. Tratamiento de valores duplicados
Integración y agregación#
La segunda parte se refiere a las tareas necesarias para la integración de los datos ya preparados y la agregación de los mismos. Generalmente, esta etapa se realiza acorde a los objetivos propuestos para la implementación de un Proceso de Análisis de Datos.
Los temas que trataremos en esta parte son: