Este roadmap está diseñado para ayudarte a convertirte en Data Engineer de forma progresiva, construyendo bases sólidas antes de avanzar a sistemas más complejos.
No es una lista de herramientas. Es una forma de pensar.
Antes de empezar, algunas reglas importantes:
- No necesitas aprender todo a la vez
- Los fundamentos importan más que las herramientas
- Entender por qué es más importante que el cómo
- La experiencia se construye paso a paso
Objetivo: Entender el ecosistema de datos.
Aprende:
-
Qué es Data Engineering
-
Cómo fluye un dato desde su origen hasta el negocio
-
Diferencia entre:
- Data Engineer
- Data Analyst
- Data Scientist
No necesitas escribir código todavía. Necesitas contexto.
📁 Contenido recomendado:
Objetivo: Configurar Cursor para usar AI como copiloto durante el aprendizaje.
⭐ Opcional: Cursor puede ayudarte durante el aprendizaje, pero no es un requisito. Puedes usar cualquier editor (VS Code, PyCharm, etc.) y configurar Cursor más adelante si lo deseas.
Aprende:
- Instalar y configurar Cursor
- Clonar este repositorio en Cursor
- Usar el chat de AI para hacer preguntas sobre el contenido
- Pedir explicaciones adaptadas a tu nivel
- Solicitar ayuda para ejecutar comandos (Docker, etc.)
💡 Tip: Si decides usar Cursor, puedes preguntarle sobre cualquier archivo del repositorio, pedir explicaciones simples, o solicitar ayuda para ejecutar comandos.
📁 Contenido recomendado:
- Cursor para Data Engineers ⭐ Opcional
Objetivo: Configurar tu entorno de trabajo.
Aprende:
- Git y GitHub para versionar código
- Archivos .env para gestionar configuraciones
- Docker para entornos reproducibles
Estas herramientas te acompañarán durante todo el camino. Aprenderlas temprano te ahorrará tiempo después.
📁 Contenido recomendado:
- Tipos de Datos
- ¿Qué es un Pipeline?
- Batch vs Streaming
- Git y GitHub para Data Engineers
- Archivos .env para Data Engineers
- Docker para Data Engineers
Objetivo: Poder consultar y transformar datos con confianza.
Aprende:
- Conceptos fundamentales: SQL transaccional vs analítico
- Básico: SELECT, WHERE, JOIN, GROUP BY
- Intermedio: Subqueries, CTEs, Window functions
- Avanzado: Optimización, particionamiento, índices
- Modelado relacional: Diseño de esquemas, normalización
Buenas prácticas:
- Queries legibles
- Nombres claros
- Evitar lógica innecesaria
- Optimización para grandes volúmenes
👉 Si sabes SQL, siempre tendrás trabajo en datos.
📁 Contenido recomendado:
- Introducción a SQL
- SQL básico (próximo)
- SQL intermedio (próximo)
- SQL avanzado (próximo)
- Modelado Relacional (próximo)
- Base de datos local con Docker - Para practicar
Objetivo: Automatizar y estructurar procesos.
Aprende:
- Fundamentos Python para Data Engineering (trabajando con Jupyter Notebooks)
- Manejo de archivos: CSV, JSON, Parquet
- Pandas para manipulación de datos
- Storytelling con Datos: Comunicar hallazgos a personas de negocios
- Scripts vs módulos: Estructura de proyectos (para cuando construyas pipelines)
- Manejo de errores y logging
- Integración con SQL y bases de datos
💡 Flujo recomendado dentro de Python: Fundamentos → Pandas → Storytelling → Modelado y Calidad (siguiente etapa)
No se trata de "saber todo Python". Se trata de escribir código mantenible.
📁 Contenido recomendado:
- Fundamentos Python - Incluye Jupyter Notebooks
- Pandas para Datos
- Storytelling con Datos
- Ejemplos (Notebooks)
Objetivo: Que los datos sean confiables.
Aprende:
- Modelado analítico: Star Schema, Snowflake, tablas de hechos y dimensiones
- Calidad de datos: Dimensiones de calidad, métricas, KPIs
- Validaciones: Checks de integridad, validación de esquemas
- Testing de datos: Tests unitarios, tests de integración
- Detección de errores: Alertas y notificaciones
Aquí pasas de "mover datos" a ingeniería real.
📁 Contenido recomendado:
Objetivo: Automatizar procesos de forma robusta.
Aprende:
- Conceptos: Qué es un pipeline, diferencia con scripts
- Componentes: Tareas, dependencias, monitoreo
- Batch vs Streaming: Cuándo usar cada enfoque
- Pipelines con Python: Construir pipelines desde cero
- Orquestadores: Introducción a Airflow
- Buenas prácticas: Manejo de errores, logging, testing
El foco no es la herramienta. Es la orquestación correcta.
📁 Contenido recomendado:
- ¿Qué es un Pipeline? (conceptual)
- Batch vs Streaming
- Pipelines básicos
- Pipelines con Python
- Introducción a Airflow
- Buenas Prácticas (integrado en "¿Qué es un pipeline?")
Objetivo: Aumentar productividad sin perder criterio.
Aprende a usar AI para:
- Entender código: Explicar funciones complejas, SQL, pipelines
- Generar código: SQL queries, funciones Python, pipelines
- Documentar: Docstrings, READMEs, documentación técnica
- Generar tests: Tests unitarios, tests de integración
- Debugging: Identificar errores, sugerir soluciones
- Refactorizar: Mejorar código existente
Pero también aprende:
- Cuándo NO usar AI: Decisiones críticas, validaciones importantes
- Cómo validar resultados: Revisar siempre el código generado
- Límites de la AI: Qué puede y qué no puede hacer
La AI es una herramienta. La responsabilidad sigue siendo tuya.
📁 Contenido recomendado:
- Cursor para Data Engineers
- Cómo usar AI como DE
- Ejemplos de Prompts
- Documentación con AI
- Límites de la AI
- Buenas Prácticas de AI
Objetivo: Aplicar conocimientos en entornos cloud.
Aprende:
- Conceptos fundamentales: Serverless, almacenamiento de objetos, servicios gestionados
- Proveedores principales: AWS, GCP, Azure
- Servicios clave: Almacenamiento, procesamiento, orquestación
- Costos y optimización: Free tier, monitoreo de costos
- Arquitecturas cloud: Data Warehouse vs Data Lake en cloud
💡 Nota: Puedes aprender cloud en paralelo con otras etapas. No es necesario esperar hasta aquí.
📁 Contenido recomendado:
- Data Engineering en la Nube
- Orquestadores Cloud - Guía completa de orquestadores cloud y servicios principales
Objetivo: Integrar todo lo aprendido.
Construye proyectos que incluyan:
- Ingesta: Extraer datos de fuentes (APIs, bases de datos, archivos)
- Transformación: Limpiar, normalizar, enriquecer datos
- Modelado: Diseñar esquemas analíticos apropiados
- Validación: Tests de calidad, checks de integridad
- Orquestación: Pipelines automatizados y monitoreados
- Documentación: READMEs, comentarios, guías de uso
Un proyecto bien hecho vale más que 10 cursos.
📁 Contenido recomendado:
Depende de:
- tu punto de partida
- tu constancia
- tu contexto profesional
Como referencia:
- 3–6 meses para bases sólidas
- 6–12 meses para nivel intermedio
- aprendizaje continuo para nivel senior
No hay atajos reales.
Una vez domines este roadmap, el siguiente paso natural es aplicar todo en un Data Lake real, donde:
- los datos escalan
- los errores cuestan
- las decisiones importan
👉 Repositorio complementario:
data-lake-engineering-en-espanol (próximamente)
La Ingeniería de Datos no se aprende en línea recta. Se construye con criterio, práctica y paciencia.