Implementação de aprendizado por reforço em hardware para aplicações de computação de borda (“edge computing”)

Palavras-chave: inteligência artificial, aprendizado por reforço, computação de borda, microcontroladores, ESP32

Resumo

Este estudo apresenta uma pesquisa de caráter aplicado, com ênfase exploratória e bibliográfica, que visa desenvolver a implementação do algoritmo de Aprendizado por Reforço em um sistema de computação de borda, começando, em sua fase inicial, pelo microcontrolador ESP32. O aprendizado por reforço é um ramo da Inteligência Artificial que possibilita que agentes autônomos façam escolhas em ambientes dinâmicos a partir de interações contínuas com o ambiente. Embora tenha potencial em várias aplicações, sua implementação ainda é bastante dependente de plataformas de software e computação em nuvem, o que pode resultar em instabilidades de conexão, aumento da latência e vulnerabilidades na segurança das informações. O objetivo deste estudo é analisar opções para permitir a implementação local e integrada do algoritmo, oferecendo soluções que combinam portabilidade, eficiência e segurança. A seleção do ESP32 como plataforma inicial é válida devido ao seu elevado desempenho computacional, tamanhos compactos, ampla conectividade e preço acessível, atributos que se alinham aos requisitos de aplicações embarcadas. Essa estratégia tem como objetivo confirmar a viabilidade da utilização de hardware simples e econômico como fase inicial para a futura aplicação em chips do tipo FPGA, conforme estipulado no projeto.

Biografia do Autor

Pedro dos Prazeres Marques, IFSP - Campus São Paulo

Estudante do 7o semestre de Engenharia de Controle e Automação, bolsita PIBIFISP 2025 de iniciação cientítica.

Olívia Furlani Camargo de Souza, IFSP - Campus São Paulo

Estudante do 7o semestre de Engenharia de Controle e Automação, participante em 2025 do grupo de estudos em Inteligência Artificial.

Felipe Neves de Sousa Lima, IFSP - Campus São Paulo

Estudante do 7o semestre de Engenharia de Controle e Automação, participante em 2025 do grupo de estudos em Inteligência Artificial.

Ricardo Pires, IFSP - Campus São Paulo

Possui graduação em Engenharia de Eletricidade pela Escola Politécnica da Universidade de São Paulo (1991), mestrado em Engenharia Elétrica pela Escola Politécnica da Universidade de São Paulo (1994) e doutorado em Sistemas Automáticos e Microeletrônicos pela Université de Montpellier II (Sciences et Techniques du Languedoc), França (1998). Atualmente, é professor no Instituto Federal de Educação, Ciência e Tecnologia de São Paulo.

Miguel Angelo de Abreu de Sousa, IFSP - Campus São Paulo

Doutor e Mestre em Engenharia Elétrica pela Escola Politécnica da Universidade de São Paulo (POLI-USP). Possui graduação em Engenharia Elétrica pela Faculdade de Engenharia São Paulo e graduação em Tecnologia em Eletrônica pela Universidade Presbiteriana Mackenzie. Atualmente é professor do Departamento de Elétrica do Instituto Federal de Educação, Ciência e Tecnologia de São Paulo (IFSP) e membro do AI - Advanced Institute for Artificial Intelligence. Seus interesses incluem o estudo de Sistemas Inteligentes, arquiteturas de circuitos elétricos para implementação de modelos neurais de computação e - mais recentemente - ética em Inteligência Artificial.

Referências

Banzi, M., & Shiloh, M. (2014). Arduino: An open-source electronics prototyping platform (2ª ed.). Maker Media.
Circuitstate. (2022). DOIT ESP32 DevKit V1 Wi-Fi development board: Pinout diagram & reference. https://www.circuitstate.com/pinouts/doit-esp32-devkit-v1-wifi-development-board-pinout-diagram-and-reference/
Embarcados. (2015). Módulo matriz de LEDs com MAX7219. https://embarcados.com.br/modulo-matriz-de-leds-com-max7219
EMQX. (2024). ESP32 connects to the free public MQTT broker: Publish & subscribe demo with Arduino IDE. https://www.emqx.com/en/blog/esp32-connects-to-the-free-public-mqtt-broker
Espressif Systems. (s.d.). ESP32 overview. https://www.espressif.com/en/products/socs/esp32
Playelek. (s.d.). Pinout DOIT 32 DevKit V1 [Repositório GitHub]. https://github.com/playelek/pinout-doit-32devkitv1
Quincozes, S. E., Tubino, E. R., & Kazienko, J. F. (2019). MQTT protocol: Fundamentals, tools and future directions. IEEE Latin America Transactions, 17(9), 1439–1447. https://doi.org/10.1109/TLA.2019.8991277
Random Nerd Tutorials. (s.d.). ESP32 MQTT: Publish and subscribe with Arduino IDE. https://randomnerdtutorials.com/esp32-mqtt-publish-subscribe-arduino-ide/
Russell, S. J., & Norvig, P. (2010). Artificial intelligence: A modern approach (3rd ed.). Pearson.
Silva, I. N., Spatti, D. H., & Flauzino, R. A. (2010). Redes neurais artificiais para engenharia e ciências aplicadas. Artliber.
Sousa, M. A. A., Pires, R., & Del-Moral-Hernandez, E. (2020). Somprocessor: A high-throughput FPGA-based architecture for implementing self-organizing maps and its application to video processing. Neural Networks, 125, 349–362.
Souza, E. S., & Braga, A. P. (2009). Aprendizado por reforço aplicado ao controle. Revista Controle & Automação, 20(3), 284–295.
Spano, S., Fanni, A., Marras, M., Massidda, L., Pani, D., Raffo, L., & Tuveri, G. (2019). An efficient hardware implementation of reinforcement learning: The Q-learning algorithm. IEEE Access, 7, 186340–186351. https://doi.org/10.1109/ACCESS.2019.2959466
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT Press.
Publicado
2025-12-04
Como Citar
Marques, P., Souza, O., Lima, F., Pires, R., & Sousa, M. (2025). Implementação de aprendizado por reforço em hardware para aplicações de computação de borda (“edge computing”). Revista Para Graduandos/Instituto Federal De Educação, Ciência E Tecnologia De São Paulo - Campus São Paulo - REGRASP, 10(4), 40-46. https://doi.org/10.47734/regrasp.v10.04.p40-46