MODELAGEM PREDITIVA DA EFICIÊNCIA DOS INVESTIMENTOS PÚBLICOS EM OBRAS E INFRAESTRUTURA NO ESTADO DO AMAPÁ
Resumo
RESUMO: Este trabalho avalia a eficiência dos investimentos públicos em obras e infraestrutura no Estado do Amapá, medindo a capacidade dos recursos orçamentários de gerar emprego e renda. A pesquisa utilizou 703 registros oficiais (2007-2025), submetidos a limpeza de dados, padronização monetária e imputação de faltantes críticos por Predictive Mean Matching, e gerou indicadores de eficiência baseados em empregos e receita por real investido, incluindo variáveis de controle como etapa da obra, eixo temático, região e impacto local. A metodologia combinou técnicas de Machine Learning, incluindo Random Forest, XGBoost, Gradient Boosting e Redes Neurais, com métodos estatísticos clássicos, estimados em amostras de treino e teste com validação cruzada repetida. O Random Forest apresentou melhor desempenho geral (R²=0,956; MAE=3,04; RMSE=32,41), seguido pelo XGBoost (R²=0,959; MAE=2,65; RMSE=35,05), enquanto Gradient Boosting obteve resultado intermediário e a Rede Neural revelou instabilidade. A análise de importância de variáveis evidenciou a primazia do valor global e de indicadores de impacto, indicando que escala financeira e externalidades locais determinam a eficiência. Técnicas de clusterização (k-means, DBSCAN) identificaram perfis distintos de custo-benefício, com um grande cluster de baixa eficiência e dois grupos menores de alto desempenho. Testes estatísticos e um modelo de diferença-em-diferenças com efeitos fixos confirmaram ganhos médios de eficiência após 2020, embora o efeito marginal do investimento permaneça frágil. Os achados sugerem priorizar eixos com maior impacto local, limitar dispersão de recursos em iniciativas terceirizadas e sustentar monitoramento contínuo para orientar decisões orçamentárias futuras.
PALAVRAS-CHAVE: Infraestrutura; Políticas Públicas; Machine Learning; Random Forest; Estado do Amapá
ABSTRACT: This study evaluates the efficiency of public investments in works and infrastructure in the State of Amapá, measuring the capacity of budgetary resources to generate employment and income. The research used 703 official records (2007–2025), subjected to data cleaning, monetary standardization, and imputation of critical missing values using Predictive Mean Matching, and generated efficiency indicators based on employment and revenue per invested real, including control variables such as project stage, thematic axis, region, and local impact. The methodology combined Machine Learning techniques, including Random Forest, XGBoost, Gradient Boosting, and Neural Networks, with classical statistical methods, estimated on training and testing samples with repeated cross-validation. Random Forest showed the best overall performance (R²=0.956; MAE=3.04; RMSE=32.41), followed closely by XGBoost (R²=0.959; MAE=2.65; RMSE=35.05), while Gradient Boosting achieved intermediate results and the Neural Network exhibited instability. Variable importance analysis highlighted the primacy of total project value and impact indicators, indicating that financial scale and local externalities drive efficiency. Clustering techniques (k-means, DBSCAN) identified distinct cost-benefit profiles, with a large low-efficiency cluster and two smaller high-performance groups. Statistical tests and a
ABSTRACT: This study evaluates the efficiency of public investments in works and infrastructure in the State of Amapá, measuring the capacity of budgetary resources to generate employment and income. The research used 703 official records (2007–2025), subjected to data cleaning, monetary standardization, and imputation of critical missing values using Predictive Mean Matching, and generated efficiency indicators based on employment and revenue per invested real, including control variables such as project stage, thematic axis, region, and local impact. The methodology combined Machine Learning techniques, including Random Forest, XGBoost, Gradient Boosting, and Neural Networks, with classical statistical methods, estimated on training and testing samples with repeated cross-validation. Random Forest showed the best overall performance (R²=0.956; MAE=3.04; RMSE=32.41), followed closely by XGBoost (R²=0.959; MAE=2.65; RMSE=35.05), while Gradient Boosting achieved intermediate results and the Neural Network exhibited instability. Variable importance analysis highlighted the primacy of total project value and impact indicators, indicating that financial scale and local externalities drive efficiency. Clustering techniques (k-means, DBSCAN) identified distinct cost-benefit profiles, with a large low-efficiency cluster and two smaller high-performance groups. Statistical tests and a difference-in-differences model with fixed effects confirmed average efficiency gains after 2020, although the marginal effect of investment remained weak. The findings suggest prioritizing axes with higher local impact, limiting resource dispersion in outsourced initiatives, and maintaining continuous monitoring to guide future budgetary decisions.
KEYWORDS: Infrastructure; Public Policy; Machine Learning; Random Forest; State of Amapá
RESUMEN: Este trabajo evalúa la eficiencia de las inversiones públicas en obras e infraestructura en el Estado de Amapá, midiendo la capacidad de los recursos presupuestarios para generar empleo e ingresos. La investigación utilizó 703 registros oficiales (2007-2025), sometidos a limpieza de datos, estandarización monetaria e imputación de valores críticos faltantes mediante Predictive Mean Matching, y generó indicadores de eficiencia basados en empleo e ingresos por real invertido, incluyendo variables de control como etapa de la obra, eje temático, región e impacto local. La metodología combinó técnicas de Machine Learning, incluyendo Random Forest, XGBoost, Gradient Boosting y Redes Neuronales, con métodos estadísticos clásicos, estimados en muestras de entrenamiento y prueba con validación cruzada repetida. Random Forest presentó el mejor desempeño general (R²=0,956; MAE=3,04; RMSE=32,41), seguido de cerca por XGBoost (R²=0,959; MAE=2,65; RMSE=35,05), mientras que Gradient Boosting obtuvo resultados intermedios y la Red Neuronal mostró inestabilidad. El análisis de importancia de variables evidenció la primacía del valor global y de los indicadores de impacto, indicando que la escala financiera y las externalidades locales determinan la eficiencia. Las técnicas de clusterización (k-means, DBSCAN) identificaron perfiles de costo-beneficio distintos, con un gran clúster de baja eficiencia y dos grupos más pequeños de alto desempeño. Pruebas estadísticas y un modelo de diferencias en diferencias con efectos fijos confirmaron ganancias medias de eficiencia después de 2020, aunque el efecto marginal de la inversión permaneció débil. Los hallazgos sugieren priorizar ejes con mayor impacto local, limitar la dispersión de recursos en iniciativas tercerizadas y mantener un monitoreo continuo para guiar decisiones presupuestarias futuras.
PALABRAS CLAVE: Infraestructura; Políticas Públicas; Machine Learning; Random Forest; Estado de Amapá
CLASSIFICAÇÃO JEL: Informe a classificação JEL aqui (G11; J31; J32);