Tesis Data Science | Deforestación Perú

Proyecto de Maestría

Predicción de Deforestación en la Selva Peruana mediante Imágenes Satelitales

Propuesta de un modelo predictivo basado en Google Earth Engine (GEE) y Aprendizaje Automático, fundamentado en el estado del arte de la investigación forestal.

🎯 Objetivo Principal

Desarrollar un modelo predictivo robusto para identificar zonas de riesgo de deforestación, superando la detección tradicional.

🛰️ Herramienta Core

Uso de Google Earth Engine para el procesamiento masivo de datos Landsat/Sentinel y extracción de atributos espaciales.

📚 Fundamento

Selección de variables y algoritmos basada en una revisión exhaustiva de tesis y papers (Springer, ScienceDirect, Google Research).


1. Selección de Modelos Predictivos

Se han seleccionado tres modelos candidatos basándose en su rendimiento histórico en literatura científica sobre bosques tropicales. La estrategia es comparar un estándar robusto (RF), un clasificador geométrico (SVM) y un modelo de vanguardia (XGBoost).

A. Random Forest (RF)

El Estándar

Modelo base seleccionado por su robustez al ruido y capacidad de manejar datos no lineales.

Justificación: Springer (2025) - Alta tasa de verdaderos positivos (TPR).

B. Support Vector Machine (SVM)

El Comparativo

Ideal para límites de decisión complejos en espacios de características espectrales.

Justificación: ScienceDirect (2022) - Mejor rendimiento frente a ANN y NB.

C. XGBoost

La Vanguardia

Algoritmo de boosting optimizado. Corrige errores iterativamente para máxima precisión.

Justificación: Google ForestCast / DeepMind - Estado del arte en predicción.

Comparativa Estimada de Capacidades

Seleccione un modelo a la izquierda para ver detalles específicos.

2. Definición de Atributos (Drivers)

La deforestación no es aleatoria. Se utilizan variables predictoras clasificadas en tres grupos fundamentales, justificadas por investigaciones previas (ej. St. Cloud State University).

A. Accesibilidad (Antrópicos)

  • Distancia a Carreteras: El predictor #1. Facilita transporte de madera/cultivos.
  • Distancia a Ríos: Vías de transporte tradicionales en selva baja.
  • Distancia a Poblados: Presión de frontera agrícola.

B. Biofísicos

  • Elevación (DEM): Zonas altas son menos accesibles.
  • Pendiente (Slope): La agricultura mecanizada requiere terrenos planos.

C. Espectrales

  • NDVI: Índice de vigor vegetal (Landsat/Sentinel).
  • Precipitación: Datos CHIRPS (opcional, contexto climático).

Importancia Relativa de Variables (Basado en Literatura)

Valores referenciales basados en la importancia típica reportada en estudios de Random Forest.

💡 Insight Clave

Según el estudio de Nigeria y similares en Perú, la Distancia a Carreteras suele explicar más del 40% de la variabilidad en los modelos de deforestación.

3. Metodología y Flujo de Trabajo en GEE

El flujo de trabajo aprovecha la computación en la nube. No se descargan imágenes; se procesan scripts en GEE.

1

Adquisición y Preprocesamiento

Selección de colecciones Landsat/Sentinel. Aplicación de máscaras de nubes y sombras.

var dataset = ee.ImageCollection('LANDSAT/LC08/C01/T1_SR')...
2

Rasterización de Drivers

Paso Crítico: Conversión de vectores (vías, pueblos) a imágenes Raster de distancia euclidiana o costo-distancia.

3

Muestreo Estratificado (Sampling)

Generación de puntos de entrenamiento basada en la "Verdad Terreno" (Geobosques/Hansen).

Clase 1: Bosque
Clase 2: Deforestado
4

Entrenamiento y Validación

División de data (Split 70/30). Entrenamiento de algoritmos (RF, SVM, XGBoost) y cálculo de matriz de confusión.

📚 Referencias Clave Analizadas