Implementação de aprendizado por reforço em hardware para aplicações de computação de borda (“edge computing”)
Resumo
Este estudo apresenta uma pesquisa de caráter aplicado, com ênfase exploratória e bibliográfica, que visa desenvolver a implementação do algoritmo de Aprendizado por Reforço em um sistema de computação de borda, começando, em sua fase inicial, pelo microcontrolador ESP32. O aprendizado por reforço é um ramo da Inteligência Artificial que possibilita que agentes autônomos façam escolhas em ambientes dinâmicos a partir de interações contínuas com o ambiente. Embora tenha potencial em várias aplicações, sua implementação ainda é bastante dependente de plataformas de software e computação em nuvem, o que pode resultar em instabilidades de conexão, aumento da latência e vulnerabilidades na segurança das informações. O objetivo deste estudo é analisar opções para permitir a implementação local e integrada do algoritmo, oferecendo soluções que combinam portabilidade, eficiência e segurança. A seleção do ESP32 como plataforma inicial é válida devido ao seu elevado desempenho computacional, tamanhos compactos, ampla conectividade e preço acessível, atributos que se alinham aos requisitos de aplicações embarcadas. Essa estratégia tem como objetivo confirmar a viabilidade da utilização de hardware simples e econômico como fase inicial para a futura aplicação em chips do tipo FPGA, conforme estipulado no projeto.
Referências
Circuitstate. (2022). DOIT ESP32 DevKit V1 Wi-Fi development board: Pinout diagram & reference. https://www.circuitstate.com/pinouts/doit-esp32-devkit-v1-wifi-development-board-pinout-diagram-and-reference/
Embarcados. (2015). Módulo matriz de LEDs com MAX7219. https://embarcados.com.br/modulo-matriz-de-leds-com-max7219
EMQX. (2024). ESP32 connects to the free public MQTT broker: Publish & subscribe demo with Arduino IDE. https://www.emqx.com/en/blog/esp32-connects-to-the-free-public-mqtt-broker
Espressif Systems. (s.d.). ESP32 overview. https://www.espressif.com/en/products/socs/esp32
Playelek. (s.d.). Pinout DOIT 32 DevKit V1 [Repositório GitHub]. https://github.com/playelek/pinout-doit-32devkitv1
Quincozes, S. E., Tubino, E. R., & Kazienko, J. F. (2019). MQTT protocol: Fundamentals, tools and future directions. IEEE Latin America Transactions, 17(9), 1439–1447. https://doi.org/10.1109/TLA.2019.8991277
Random Nerd Tutorials. (s.d.). ESP32 MQTT: Publish and subscribe with Arduino IDE. https://randomnerdtutorials.com/esp32-mqtt-publish-subscribe-arduino-ide/
Russell, S. J., & Norvig, P. (2010). Artificial intelligence: A modern approach (3rd ed.). Pearson.
Silva, I. N., Spatti, D. H., & Flauzino, R. A. (2010). Redes neurais artificiais para engenharia e ciências aplicadas. Artliber.
Sousa, M. A. A., Pires, R., & Del-Moral-Hernandez, E. (2020). Somprocessor: A high-throughput FPGA-based architecture for implementing self-organizing maps and its application to video processing. Neural Networks, 125, 349–362.
Souza, E. S., & Braga, A. P. (2009). Aprendizado por reforço aplicado ao controle. Revista Controle & Automação, 20(3), 284–295.
Spano, S., Fanni, A., Marras, M., Massidda, L., Pani, D., Raffo, L., & Tuveri, G. (2019). An efficient hardware implementation of reinforcement learning: The Q-learning algorithm. IEEE Access, 7, 186340–186351. https://doi.org/10.1109/ACCESS.2019.2959466
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT Press.
Copyright (c) 2025 Miguel Angelo de Abreu de Sousa, Pedro dos Prazeres Marques, Olívia Furlani Camargo de Souza, Felipe Neves de Sousa Lima, Ricardo Pires

This work is licensed under a Creative Commons Attribution 4.0 International License.

Todos os trabalhos publicados na REGRASP estão licenciados sob a Creative Commons Atribuição 4.0 Internacional (CC BY 4.0).
Isso significa que:
-
Qualquer pessoa pode copiar, distribuir, exibir, adaptar, remixar e até utilizar comercialmente os conteúdos publicados na revista;
-
Desde que sejam atribuídos os devidos créditos aos autores e à REGRASP como fonte original;
-
Não é exigida permissão adicional para reutilização, desde que respeitados os termos da licença.
Esta política está em conformidade com os princípios do acesso aberto, promovendo a ampla disseminação do conhecimento científico.









.png)




























