Esta guía te ayudará a configurar tu entorno de desarrollo para seguir el roadmap de Ingeniería de Datos.
- pyenv - Gestor de versiones de Python (recomendado) - Instalar pyenv
- Python 3.8+ - Se instalará con pyenv
- Git - Descargar Git
- Docker Desktop (opcional pero recomendado) - Descargar Docker
- Cursor IDE (opcional) - Descargar Cursor - Para usar AI como copiloto
# Verificar pyenv
pyenv --version
# Verificar Python instalado con pyenv
pyenv versions
# Verificar Git
git --version
# Verificar Docker (opcional)
docker --version
docker-compose --version⚡ Antes de instalar cosas con
pip, asegúrate de tener la última versión de pip (opcional pero recomendado):
python -m pip install --upgrade pip
[notice] To update, run: python -m pip install --upgrade pip# Clonar el repositorio
git clone https://github.com/USERNAME/REPO.git
cd ingenieria-de-datos
# O si ya lo tienes, actualiza
git pull origin main# Copiar archivo de ejemplo
cp .env.example .env💡 Para desarrollo local: Los valores por defecto en
.env.examplefuncionan perfectamente para trabajar localmente. No necesitas editar nada por ahora. Solo copia el archivo y ya está listo.
📝 Más adelante: Si necesitas configurar valores específicos (como credenciales de base de datos, APIs, etc.), puedes editar el archivo
.env. Lee más sobre.enven: Archivos .env para Data Engineers
Si quieres usar AI como copiloto durante tu aprendizaje, puedes configurar Cursor:
Sigue la guía completa: Cursor para Data Engineers
💡 Nota: Cursor es completamente opcional. Puedes usar cualquier editor (VS Code, PyCharm, etc.). Si prefieres configurarlo más adelante, está bien.
macOS/Linux:
# Instalar pyenv con Homebrew (macOS)
brew install pyenv
# O con el instalador automático
curl https://pyenv.run | bash
# Agregar a tu shell (agrega estas líneas a ~/.zshrc o ~/.bashrc)
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.zshrc
echo 'command -v pyenv >/dev/null || export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.zshrc
echo 'eval "$(pyenv init -)"' >> ~/.zshrc
# Recargar shell
exec $SHELLWindows:
# Instalar pyenv-win
git clone https://github.com/pyenv-win/pyenv-win.git %USERPROFILE%\.pyenv# Ver versiones disponibles de Python
pyenv install --list
# Instalar Python 3.11 (o la versión que prefieras, mínimo 3.8)
pyenv install 3.11.0
# Establecer como versión global (opcional)
pyenv global 3.11.0👇 Antes de establecer la versión local, asegúrate de estar dentro de la carpeta del repositorio "ingenieria-de-datos".
# Verifica tu ubicación actual
pwd # Debería terminar en "ingenieria-de-datos"
# Si NO estás en el directorio correcto, navega primero:
cd ruta/al/directorio/ingenieria-de-datos# Ahora sí puedes establecer la versión local de Python para este proyecto
pyenv local 3.11.0💡 Si tienes dudas, usa
pwdpara confirmar que estás dentro de "ingenieria-de-datos" antes de correrpyenv local.
macOS/Linux:
# Instalar el plugin
git clone https://github.com/pyenv/pyenv-virtualenv.git $(pyenv root)/plugins/pyenv-virtualenv
# Agregar a tu shell (agrega esta línea a ~/.zshrc o ~/.bashrc)
echo 'eval "$(pyenv virtualenv-init -)"' >> ~/.zshrc
# Recargar shell
exec $SHELLWindows:
# pyenv-win incluye virtualenv por defecto# Crear entorno virtual (desde la raíz del proyecto)
pyenv virtualenv 3.11.0 ingenieria-de-datos
# Activar entorno virtual
pyenv activate ingenieria-de-datos
# O usar automáticamente cuando entres al directorio (recomendado)
# Crea un archivo .python-version en la raíz del proyecto
# pyenv activará automáticamente el entorno al entrar al directorio
echo "ingenieria-de-datos" > .python-version💡 Tip: Con
pyenv-virtualenv, el entorno se activa automáticamente cuando entras al directorio si tienes.python-versionconfigurado.
# Instalar todas las dependencias principales
pip install -r requirements.txt
# O instalar solo lo que necesites según el módulo:
# Para SQL:
pip install psycopg2-binary python-dotenv sqlalchemy
# Para Python/Pandas:
pip install pandas numpy matplotlib seaborn python-dotenv
# Para Jupyter Notebooks:
pip install jupyter jupyterlab ipykernel
# Para Calidad de Datos:
pip install great-expectations pandera
# Para Pipelines:
pip install prefect # o apache-airflowSi vas a trabajar con SQL:
cd 02_sql
# Iniciar PostgreSQL con Docker
docker-compose up -d
# Verificar que está corriendo
docker-compose ps💡 Nota: Los valores por defecto funcionan perfectamente para desarrollo local. No necesitas editar el
.enva menos que quieras cambiar puertos o credenciales.
Lee más en: README-DOCKER.md
python -c "import pandas; import psycopg2; print('✅ Dependencias básicas OK')"docker psjupyter --versioncd 02_sql
docker-compose ps
# Deberías ver PostgreSQL y pgAdmin corriendoUna vez configurado todo:
- Lee ¿Qué es Data Engineering?
- Revisa el Roadmap
- Sigue el orden sugerido en el roadmap
- Practica con los ejercicios y proyectos
Solución: Usa python3 en lugar de python, o configura un alias.
Solución:
python -m pip install --upgrade pip
# o
python3 -m pip install --upgrade pipSolución:
- Verifica que Docker esté corriendo:
docker ps - Verifica que los contenedores estén activos:
cd 02_sql && docker-compose ps - Verifica que el archivo
.envexiste en la raíz del proyecto:ls -la .env
Solución:
- Asegúrate de tener el entorno virtual activado:
pyenv activate ingenieria-de-datos - Verifica que estás usando la versión correcta de Python:
pyenv version - Instala las dependencias:
pip install -r requirements.txt - Verifica que estás en el directorio correcto
Solución:
# Reinstalar Jupyter
pip install --upgrade jupyter jupyterlab
# O usar JupyterLab
jupyter lab- Usa pyenv para gestionar versiones de Python - facilita cambiar entre versiones
- Usa pyenv-virtualenv para entornos virtuales - se activan automáticamente
- Lee los READMEs de cada módulo antes de empezar
- ⭐ Opcional: Configura Cursor - puede ayudarte con AI como copiloto
- Usa el chat de Cursor para resolver dudas sobre el contenido
- Revisa los READMEs de cada módulo
- Abre un Issue en GitHub
- Usa el chat de Cursor para preguntas sobre el contenido
Recuerda: La configuración inicial puede tomar tiempo, pero una vez lista, todo será más fácil. ¡Vale la pena!