1. Colección de datos

1. Colección de datos#

La colección de datos es la actividad de identificar y recuperar datos de diferentes fuentes para que comiencen a formar parte de un sistema.

Como podemos observar en la figura siguiente, las fuentes de datos disponibles son muy variadas en cuanto a tipo, volúmen, estructura, etc. Justamente la colección se refiere a todas las tareas involucradas para su obtención y tratamiento futuro.

Uno de los problemas a los que se debe enfrentar la colección, es la manipulación de los diferentes tipos de datos a recuperar: estructurados, semi-estructurados y sin estructura, como podemos obervar en la imagen siguiente:

En todos los casos, los datos que ingresan deben después manipularse, es decir, se deben transformar y estructurar. De esta forma, además de las tres tareas de colección de los diferentes tipos de datos, agregamos la manipulación de dataframes y conversión de los datos, de forma de tranformar los datos a estructuras convenientes y en el formato deseado, ya sea string, entero, float, fechas, etc.

Para la actividad de colección de datos, trataremos los temas siguientes:

1.1. Datos estructurados

1.2. Datos semi-estructurados

1.3. Datos sin estructura

1.4. Manipulación de dataframes

1.5. Conversión de datos