Pipeline Distribuído para Análise Espacial em Larga Escala: Avaliação da Regra 3 do Índice 3-30-300 em Fortaleza com Apache Spark e Sedona

Abstract: 

A aplicação de operações espaciais em grandes conjuntos de dados enfrenta limitações nas ferramentas tradicionais de geoprocessamento e em bibliotecas como Geopandas. Este trabalho apresenta um pipeline distribuído baseado em Apache Spark e Sedona para analisar dados geolocalizados de edificações e arborização, em Fortaleza, CE, identificando residências com visibilidade mínima de 3 árvores em 30 metros. O processamento em batches, a indexação espacial e a persistência estruturada permitiram superar gargalos do Python. Apresenta-se uma documentação detalhada de código modular que permite rastrear scripts e replicá-los em outras cidades para efetuar operações geométricas e espaciais em larga escala.

Author: 
Silva, Lucas L.
González, Marta C.
Babadopulos, Lucas F. A.
Soares, Jorge B.
Furtado, Lara S.
Publication date: 
September 29, 2025
Publication type: 
Conference Paper
Citation: 
Silva, L. L., Gonzalez, M. C., Babadopulos, L. F. A., Soares, J. B., & Furtado, L. S. (2025). Pipeline Distribuído para Análise Espacial em Larga Escala: Avaliação da Regra 3 do Índice 3-30-300 em Fortaleza com Apache Spark e Sedona. Simpósio Brasileiro de Banco de Dados (SBBD), 970–976. https://doi.org/10.5753/sbbd.2025.247837