Esta sección cubre orquestadores cloud y servicios principales de los proveedores cloud más importantes para Data Engineering.
Los orquestadores cloud son servicios gestionados que te permiten orquestar pipelines de datos sin gestionar infraestructura. Son ideales para producción cuando ya estás usando servicios cloud.
¿Qué es?
- Orquestación serverless nativa de AWS
- Define workflows con JSON o UI visual
- Integración profunda con servicios AWS
Ventajas:
- ✅ Serverless (sin gestión de infraestructura)
- ✅ Integración nativa con Lambda, Glue, EMR, S3
- ✅ Escala automáticamente
- ✅ Pago por uso
Cuándo usar:
- ✅ Ya estás en AWS
- ✅ Quieres serverless
- ✅ Necesitas integración con servicios AWS
- ❌ No estás en AWS
- ❌ Necesitas portabilidad entre clouds
¿Qué es?
- Airflow gestionado en GCP
- Sin necesidad de gestionar infraestructura
- Integración nativa con servicios GCP
Ventajas:
- ✅ Airflow sin el dolor de gestionar servidores
- ✅ Integración con BigQuery, Cloud Storage, Dataflow
- ✅ Monitoreo y logging integrados
- ✅ Actualizaciones automáticas
Cuándo usar:
- ✅ Estás en GCP
- ✅ Quieres Airflow sin gestión
- ✅ Necesitas integración con GCP
- ❌ No estás en GCP
- ❌ Presupuesto limitado (tiene costos base)
¿Qué es?
- Servicio de orquestación nativo de Azure
- UI visual para diseñar pipelines
- Code-first opcional (también soporta código)
Ventajas:
- ✅ UI visual muy intuitiva
- ✅ Integración profunda con servicios Azure
- ✅ Sin gestión de infraestructura
- ✅ Ideal para equipos no técnicos
Cuándo usar:
- ✅ Estás en Azure
- ✅ Prefieres UI visual
- ✅ Necesitas integración con servicios Azure
- ❌ No estás en Azure
- ❌ Prefieres código sobre UI
| Característica | Step Functions | Cloud Composer | Data Factory |
|---|---|---|---|
| Proveedor | AWS | GCP | Azure |
| Tipo | Serverless | Airflow gestionado | ETL/Orquestación |
| UI | Visual (JSON) | Airflow UI | Visual (drag & drop) |
| Código | JSON/YAML | Python (DAGs) | JSON/Visual |
| Integración | AWS nativa | GCP nativa | Azure nativa |
| Costo | Pago por uso | Costo base + uso | Pago por uso |
| Complejidad | Media | Media-Alta | Baja-Media |
| Vendor Lock-in | Alto | Alto | Alto |
- Serverless y escalable
- Excelente para workflows con Lambda
- Integración perfecta con servicios AWS
- Si ya conoces Airflow, es la opción natural
- Integración excelente con BigQuery
- Ideal para equipos que prefieren código (Python)
- UI visual muy amigable
- Excelente para equipos no técnicos
- Integración profunda con servicios Azure
- Aprende primero con Prefect o Dagster localmente
- Luego considera servicios cloud cuando necesites escalar
Además de orquestadores, estos son los servicios principales de cada proveedor:
Almacenamiento:
- S3: Almacenamiento de objetos escalable (equivalente a Data Lake)
- Ideal para: Data Lakes, archivos raw, backups
ETL y Procesamiento:
- AWS Glue: ETL serverless y catalogado de datos
- EMR: Clusters Spark/Hadoop gestionados
- Lambda: Funciones serverless para micro-ETL
Data Warehouse:
- Redshift: Data warehouse columnar
- Athena: Query SQL sobre S3 (serverless)
Streaming:
- Kinesis: Streaming de datos en tiempo real
Almacenamiento:
- Cloud Storage: Almacenamiento de objetos (equivalente a S3)
Data Warehouse:
- BigQuery: Data warehouse serverless ⭐ (el servicio estrella de GCP)
- Serverless, pago por query
- Datasets públicos gratuitos para practicar
- Excelente para analytics masivos
ETL y Procesamiento:
- Dataflow: Procesamiento stream/batch (Apache Beam)
- Dataproc: Clusters Spark/Hadoop gestionados
- Cloud Functions: Funciones serverless
Streaming:
- Pub/Sub: Messaging y streaming de eventos
Almacenamiento:
- Azure Blob Storage: Almacenamiento de objetos
- Azure Data Lake Storage Gen2: Optimizado para analytics
ETL y Procesamiento:
- Azure Databricks: Spark optimizado en Azure
- Azure Functions: Funciones serverless
Data Warehouse:
- Azure Synapse Analytics: Analytics unificado (SQL + Spark)
- Azure SQL Database: Base de datos relacional gestionada
Streaming:
- Event Hubs: Streaming de eventos
AWS:
- S3: 5 GB de almacenamiento (12 meses)
- Lambda: 1 millón de requests gratis
- Glue: 10,000 objetos catalogados gratis
- Athena: 10 GB de datos escaneados/mes
GCP:
- BigQuery: 10 GB almacenamiento, 1 TB queries/mes (siempre gratis)
- Cloud Storage: 5 GB (siempre gratis)
- Cloud Functions: 2 millones invocaciones/mes
- $300 de crédito gratis por 90 días (nuevas cuentas)
Azure:
- Blob Storage: 5 GB LRS (siempre gratis)
- Azure Functions: 1 millón requests/mes
- $200 de crédito gratis por 30 días (nuevas cuentas)
- ✅ Configura alertas de costo desde el inicio
- ✅ Apaga recursos cuando no los uses (clusters, warehouses)
- ✅ Usa free tier para aprender
- ✅ Monitorea regularmente el uso y costos
- ✅ Usa datasets públicos (BigQuery tiene muchos gratuitos)
Recomendación para empezar:
- GCP si quieres empezar rápido (BigQuery tiene datasets públicos)
- AWS si quieres el más popular y con más recursos
- Azure si ya estás en el ecosistema Microsoft
- Ve al sitio del proveedor (aws.amazon.com, cloud.google.com, azure.microsoft.com)
- Crea una cuenta (requiere tarjeta, pero free tier es generoso)
- Configura alertas de costo inmediatamente
- Activa MFA (autenticación de dos factores)
GCP (Recomendado para principiantes):
- Explora BigQuery y sus datasets públicos (gratis)
- Ejecuta queries SQL sin costo
- Crea un bucket en Cloud Storage
- Prueba Cloud Composer (tiene costo, pero puedes probar)
AWS:
- Crea un bucket S3
- Sube un archivo CSV
- Consulta con Athena
- Prueba Step Functions con Lambda
Azure:
- Crea un Storage Account
- Sube archivos a Blob Storage
- Crea un pipeline simple en Data Factory
- Explora Azure Databricks
Antes de empezar con servicios cloud, asegúrate de dominar:
- 01_fundamentos: Conceptos básicos
- 02_sql: SQL para transformaciones
- 03_python: Python para automatización
- 05_pipelines: Conceptos de pipelines
- Orquestadores locales: Prefect, Dagster, Airflow (recomendado empezar local)
Y especialmente:
- Data Engineering en la Nube: Conceptos fundamentales
- ✅ Necesitas escalar a producción
- ✅ Tienes presupuesto para servicios gestionados
- ✅ Necesitas integración con otros servicios cloud
- ✅ Quieres evitar gestionar infraestructura
- ✅ Tu equipo ya está en un cloud provider
- ✅ Estás aprendiendo
- ✅ Desarrollando y probando
- ✅ Presupuesto limitado
- ✅ Necesitas control total
- ✅ Quieres evitar vendor lock-in
La nube es una herramienta poderosa, pero:
- No reemplaza entender los fundamentos
- No es gratis - monitorea costos cuidadosamente
- No es mágica - sigue requiriendo buen diseño
- Vendor lock-in es real - considera portabilidad
La nube facilita la infraestructura, pero la ingeniería de datos sigue siendo tu responsabilidad.
- AWS: AWS Data Engineering
- GCP: GCP Data Engineering
- Azure: Azure Data Engineering
- AWS: AWS Certified Data Analytics - Specialty
- GCP: Google Cloud Professional Data Engineer
- Azure: Microsoft Certified: Azure Data Engineer Associate
Después de dominar servicios cloud:
👉 Siguiente etapa: 07_proyectos
- Proyectos end-to-end completos
- Integrar todo lo aprendido
- Proyectos para tu portafolio
También puedes:
- Profundizar en servicios específicos (BigQuery, Redshift, etc.)
- Explorar arquitecturas multi-cloud
- Obtener certificaciones cloud
- Explorar servicios avanzados (streaming, ML, etc.)
💡 Tip: No necesitas dominar todos los servicios. Enfócate en los servicios principales de un proveedor primero (almacenamiento, ETL, data warehouse), luego expande según tus necesidades.
- AWS Step Functions - Orquestación serverless en AWS
- Google Cloud Composer - Airflow gestionado en GCP
- Azure Data Factory - Orquestación nativa de Azure
- Prefect - Orquestador moderno Python-first
- Dagster - Enfoque en data assets
- Apache Airflow - Estándar de industria
- Luigi - Alternativa simple
- Data Engineering en la Nube - Conceptos básicos de cloud