Predicción de Deforestación en la Selva Peruana mediante Imágenes Satelitales
Propuesta de un modelo predictivo basado en Google Earth Engine (GEE) y Aprendizaje Automático, fundamentado en el estado del arte de la investigación forestal.
🎯 Objetivo Principal
Desarrollar un modelo predictivo robusto para identificar zonas de riesgo de deforestación, superando la detección tradicional.
🛰️ Herramienta Core
Uso de Google Earth Engine para el procesamiento masivo de datos Landsat/Sentinel y extracción de atributos espaciales.
📚 Fundamento
Selección de variables y algoritmos basada en una revisión exhaustiva de tesis y papers (Springer, ScienceDirect, Google Research).
1. Selección de Modelos Predictivos
Se han seleccionado tres modelos candidatos basándose en su rendimiento histórico en literatura científica sobre bosques tropicales. La estrategia es comparar un estándar robusto (RF), un clasificador geométrico (SVM) y un modelo de vanguardia (XGBoost).
A. Random Forest (RF)
El EstándarModelo base seleccionado por su robustez al ruido y capacidad de manejar datos no lineales.
Justificación: Springer (2025) - Alta tasa de verdaderos positivos (TPR).
B. Support Vector Machine (SVM)
El ComparativoIdeal para límites de decisión complejos en espacios de características espectrales.
Justificación: ScienceDirect (2022) - Mejor rendimiento frente a ANN y NB.
C. XGBoost
La VanguardiaAlgoritmo de boosting optimizado. Corrige errores iterativamente para máxima precisión.
Justificación: Google ForestCast / DeepMind - Estado del arte en predicción.
Comparativa Estimada de Capacidades
Seleccione un modelo a la izquierda para ver detalles específicos.
2. Definición de Atributos (Drivers)
La deforestación no es aleatoria. Se utilizan variables predictoras clasificadas en tres grupos fundamentales, justificadas por investigaciones previas (ej. St. Cloud State University).
A. Accesibilidad (Antrópicos)
- Distancia a Carreteras: El predictor #1. Facilita transporte de madera/cultivos.
- Distancia a Ríos: Vías de transporte tradicionales en selva baja.
- Distancia a Poblados: Presión de frontera agrícola.
B. Biofísicos
- Elevación (DEM): Zonas altas son menos accesibles.
- Pendiente (Slope): La agricultura mecanizada requiere terrenos planos.
C. Espectrales
- NDVI: Índice de vigor vegetal (Landsat/Sentinel).
- Precipitación: Datos CHIRPS (opcional, contexto climático).
Importancia Relativa de Variables (Basado en Literatura)
Valores referenciales basados en la importancia típica reportada en estudios de Random Forest.
💡 Insight Clave
Según el estudio de Nigeria y similares en Perú, la Distancia a Carreteras suele explicar más del 40% de la variabilidad en los modelos de deforestación.
3. Metodología y Flujo de Trabajo en GEE
El flujo de trabajo aprovecha la computación en la nube. No se descargan imágenes; se procesan scripts en GEE.
Adquisición y Preprocesamiento
Selección de colecciones Landsat/Sentinel. Aplicación de máscaras de nubes y sombras.
Rasterización de Drivers
Paso Crítico: Conversión de vectores (vías, pueblos) a imágenes Raster de distancia euclidiana o costo-distancia.
Muestreo Estratificado (Sampling)
Generación de puntos de entrenamiento basada en la "Verdad Terreno" (Geobosques/Hansen).
Entrenamiento y Validación
División de data (Split 70/30). Entrenamiento de algoritmos (RF, SVM, XGBoost) y cálculo de matriz de confusión.