La desigualdad entre países es un fenómeno complejo y multidimensional. Tradicionalmente, los organismos internacionales clasifican los países en categorías como “desarrollados” o “en desarrollo” basándose en indicadores agregados.
Este enfoque presenta varias limitaciones:
- Depende de criterios predefinidos que pueden introducir sesgos
- Simplifica en exceso la realidad, reduciéndola a categorías rígidas
- No captura situaciones intermedias ni patrones ocultos en los datos
En la práctica, los niveles de desarrollo y riesgo de exclusión no son binarios, sino continuos y heterogéneos.
El objetivo de este proyecto es aplicar técnicas de Machine Learning no supervisado para:
- Identificar patrones ocultos en datos socioeconómicos
- Agrupar países según similitudes reales en sus indicadores
- Detectar niveles de riesgo de exclusión sin imponer etiquetas previas
- Proporcionar una visión más objetiva y basada en datos
Se utiliza un enfoque no supervisado en el que el modelo no recibe etiquetas previas. En lugar de clasificar países según definiciones externas, se permite que los datos revelen su propia estructura.
Este enfoque permite:
- Reducir el sesgo humano
- Detectar agrupaciones no evidentes
- Analizar la desigualdad desde una perspectiva cuantitativa
El análisis se basa en indicadores socioeconómicos por país, como:
- PIB per cápita
- Esperanza de vida
- Mortalidad infantil
- Nivel de alfabetización
- Otros indicadores de desarrollo y salud
La calidad del análisis depende directamente de la calidad, cobertura y actualidad de estos datos.
- Limpieza de datos
- Tratamiento de valores nulos
- Escalado de variables (StandardScaler)
- Análisis de Componentes Principales (PCA) para visualización
- Aplicación de K-Means
- Selección del número óptimo de clusters mediante:
- Método del codo
- Silhouette Score
- Interpretación de los clusters
- Relación entre grupos y niveles de desarrollo
El modelo segmenta los países en distintos grupos que reflejan niveles diferenciados de desarrollo y riesgo de exclusión:
- Cluster de alto riesgo: bajos ingresos, peores indicadores de salud y desarrollo
- Cluster intermedio: economías en transición con mejoras parciales
- Cluster bajo riesgo: altos niveles de desarrollo económico y social
Estos resultados permiten una lectura más matizada de la desigualdad global.
- La desigualdad global es gradual y multidimensional
- Existen países que no encajan en clasificaciones tradicionales
- Algunos indicadores tienen mayor peso en la segmentación de lo esperado
- El clustering permite identificar transiciones entre niveles de desarrollo
- Los resultados dependen de las variables seleccionadas
- K-Means asume estructuras simples (clusters esféricos)
- No se consideran factores políticos o geopolíticos
- Sensible a valores atípicos
- Incorporar nuevas variables (desigualdad, acceso digital, estabilidad política)
- Probar otros algoritmos (DBSCAN, clustering jerárquico)
- Añadir visualizaciones interactivas
- Integrar el modelo en una aplicación
- Python
- Pandas
- NumPy
- Scikit-learn
- Matplotlib / Seaborn
.
├── data
│ └── paises.csv
├── LICENSE
├── notebooks
│ └── Paises en peligro de exclusion.ipynb
└── README.Md
git clone https://github.com/tu-usuario/country-exclusion-clustering.git
cd country-exclusion-clustering
pip install -r requirements.txt
jupyter notebookEste proyecto muestra cómo el uso de técnicas de Machine Learning no supervisado permite analizar problemas complejos sin depender de clasificaciones predefinidas, aportando una perspectiva más flexible y basada en datos.