1. Colección de datos#
La colección de datos es la actividad de identificar y recuperar datos de diferentes fuentes para que comiencen a formar parte de un sistema.
Como podemos observar en la figura siguiente, las fuentes de datos disponibles son muy variadas en cuanto a tipo, volúmen, estructura, etc. Justamente la colección se refiere a todas las tareas involucradas para su obtención y tratamiento futuro.
Uno de los problemas a los que se debe enfrentar la colección, es la manipulación de los diferentes tipos de datos a recuperar: estructurados, semi-estructurados y sin estructura, como podemos obervar en la imagen siguiente:
En todos los casos, los datos que ingresan deben después manipularse, es decir, se deben transformar y estructurar. De esta forma, además de las tres tareas de colección de los diferentes tipos de datos, agregamos la manipulación de dataframes y conversión de los datos, de forma de tranformar los datos a estructuras convenientes y en el formato deseado, ya sea string, entero, float, fechas, etc.
Para la actividad de colección de datos, trataremos los temas siguientes:
1.4. Manipulación de dataframes