2. Preparación de datos#

La preparación de datos es la actividad encargada de recibir las fuentes de datos y ‘prepararla’ para el análisis.

Es una tarea compleja en donde la información de las fuentes de datos seleccionadas en la actividad previa de colección debe ser procesada para:

  • limpiarlas, en el sentido de eliminar redundancias innecesarias como datos duplicados, inconsistencias, etc.

  • reorganizarlas, en caso de ser necesario, en información útil de acuerdo a los requerimientos del sistema de análisis.

Como podemos observar en la figura siguiente, las datos coleccionados deben transformarse primero individualmente para obtener datos con calidad, y luego se deben integrar y agregar de acuerdo a las necesidades específicas del sistema a construir.

De esta forma, separamos a la Preparación de Datos en dos partes: análisis individual de las fuentes de datos e integración y agregación.

Análisis individual de las fuentes de datos#

Esta parte se centra en el análisis individual de cada fuente de datos coleccionada en la actividad anterior.

Analizar los datos en forma individual

Los temas que trataremos en esta parte son:

2.1. Tratamiento de valores perdidos o faltantes

2.2. Tratamiento de valores duplicados

2.3. Tratamiento de valores atípicos

2.4. Tratamiento de inconsistencias

Integración y agregación#

La segunda parte se refiere a las tareas necesarias para la integración de los datos ya preparados y la agregación de los mismos. Generalmente, esta etapa se realiza acorde a los objetivos propuestos para la implementación de un Proceso de Análisis de Datos.

Integrar y Agregar los datos

Los temas que trataremos en esta parte son:

2.5. Integración y agregación