En Ingeniería de Datos, entender los tipos de datos es tan importante como saber procesarlos. No todos los datos se tratan igual, ni deberían viajar por los mismos pipelines.
Elegir mal cómo tratar un tipo de dato genera:
- pipelines innecesariamente complejos
- costos elevados
- errores difíciles de detectar
Porque el tipo de dato determina:
- cómo se ingiere
- cómo se almacena
- cómo se transforma
- cómo se consume
- cómo escala el sistema
Antes de escribir código, hay que entender el dato.
Son datos con un esquema bien definido.
Ejemplos:
- tablas relacionales
- archivos CSV bien formados
- tablas en un Data Warehouse
- filas y columnas
- tipos de datos claros
- fáciles de consultar con SQL
- reportes
- métricas
- análisis histórico
Tienen estructura, pero no rígida.
Ejemplos:
- JSON
- XML
- logs
- eventos
- esquemas flexibles
- campos opcionales
- anidados
- validación
- cambios de esquema
- normalización
No siguen un esquema tabular.
Ejemplos:
- texto libre
- imágenes
- audio
- video
- difíciles de analizar directamente
- requieren procesamiento adicional
- suelen almacenarse como archivos
En Data Engineering, normalmente se:
- almacenan
- indexan
- enriquecen con metadatos
Otra forma clave de clasificar datos es cómo llegan.
- llegan en bloques
- se procesan por horarios
- más simples de operar
- llegan de forma continua
- requieren baja latencia
- más complejos
👉 El tipo de llegada influye directamente en el diseño del pipeline.
- representan eventos individuales
- cambian constantemente
- normalizados
Ejemplo:
- órdenes
- pagos
- registros de usuarios
- optimizados para lectura
- agregados
- históricos
Ejemplo:
- métricas
- KPIs
- tablas de hechos
No todos los datos deben usarse directamente para análisis.
- tal como llegan de la fuente
- sin modificar
- sirven como respaldo
- limpios
- validados
- listos para consumo
Una buena práctica es nunca perder los datos crudos.
- Tratar JSON como si fuera CSV
- Analizar datos transaccionales directamente
- Mezclar datos crudos y transformados
- Ignorar cambios de esquema
Estos errores escalan rápido.
La AI puede ayudarte a:
- inferir esquemas
- detectar anomalías
- clasificar datos
- generar documentación
Pero:
- no reemplaza el entendimiento del dato
- no define reglas de negocio
Para continuar:
📄 01_que-es-un-pipeline.md
Los datos no son solo volumen. Son contexto, forma y significado.