Este artigo faz parte de uma série de artigos redigidos por colaboradores do Departamento de Ensino e Ação Social da ANEEB. Apoie o autor lendo o artigo no seu LinkedIn.

Ao longo dos anos, animais, humanos e não humanos, têm evoluído com a Natureza. Em particular, o Homem tem um papel importante na compreensão desta evolução, pois somos os seres inteligentes; mas será que entendemos a nossa inteligência?

Não vou responder concretamente a esta questão, mas posso afirmar que vivemos numa Era de Design, na qual assistimos a um crescimento exponencial da capacidade computacional e das tentativas de replicar a inteligência do ser humano, através do design de sistemas inteligentes, recorrendo ao emprego de Artificial Intelligence (AI).

Em especial, da ânsia de entender quais as regras que regem o comportamento do Homem e de outros animais, nasceu uma abordagem à AI liderada por métodos fracos e generalizados (falta de especificidade torna os métodos fracos, mas é necessária para uma maior compreensão de um “mundo oculto” com base em dados).

Quando classificamos um prato de um restaurante como um bom prato, com base na experiência que temos do restaurante sem termos experimentado o prato em si, por exemplo, este é um comportamento que parte da perceção que temos do restaurante, ou de outros pratos que comemos neste. É possível um computador simular este tipo de comportamento tão próprio dos animais? Naturalmente, um computador não poderá formar uma perceção de um prato de comida, não tem a experiência, não vai ao restaurante, nem prova o prato como eu provo ou tu provas, e muito menos tem uma mente complexa, de forma a produzir uma ideia tão própria como nós.

A utilização de modelos de AI pode ser a resposta para uma simulação do comportamento animal, por outras palavras, da resposta da mente (humana ou não humana) que é caracterizada pelo processamento em tempo-real de informação sensoriomotora e posterior tradução desta numa resposta rápida e reativa. Estes modelos são classificados como:

  • Escalonáveis e generalizados, de forma a aprenderem coisas aleatórias;
  • Computacionalmente “sóbrios” e poderosos, para encontrarem soluções aproximadas dos processos que regem a mente dos seres, atendendo que a procura de modelos ótimos pode ser uma grande distração, pois é insustentável;
  • Não supervisionados, ou seja, a aprendizagem é sem rótulos (“self-labelling”).

Adicionalmente, sendo bons ou maus “animais”, agimos de acordo com as nossas necessidades e desejos. Inicialmente, as nossas ações são aleatórias e desconhecidas (por nós mesmos), mas com a experiência vamos aprendendo como devemos agir, ou reagir, de forma a atingirmos os nossos objetivos mais eficientemente e seguramente.

Estudos de comportamento animal revelam que este processo de concretização de objetivos liderado pela experiência advém de um mecanismo de recompensa versus castigo (recompensa negativa). Desta ideia, nasceu o Reinforcement Learning (RL), uma categoria de métodos de AI usados no controlo e otimização de problemas. Estes são definidos por algoritmos construídos para aquisição de funções com base em dados/sinais de recompensa. Contudo o que para mim deve ser feito, para outra pessoa poderá ter de ser evitado, logo as funções definidas num algoritmo construído por mim podem não ser as mais gerais! Daí que métodos RL implicarem muitas vezes a ocorrência de erros e/ou a necessidade de número elevado de testes.

Finalmente, como podem imaginar ou especular, AI e, em particular RL twm sido usado nas mais diversas áreas, desde as neurociências à economia, uma vez que pode ajudar a compreender e/ou caracterizar o comportamento humano, por exemplo, pode ser aplicado na compreensão de doenças psiquiátricas complexas cujas motivações comportamentais são desconhecidas.

Referências:

Gershman, S.J. and Niv, Y. (2015), Novelty and Inductive Generalization in Human Reinforcement Learning. Top Cogn Sci, 7: 391-415. doi:10.1111/tops.12138. Disponível em: https://onlinelibrary.wiley.com/doi/full/10.1111/tops.12138. Assessed in 25/04/2020.

Sutton, R. Introduction to Reinforcement Learning. Reinforcement Learning and Artificial Intelligence Laboratory, Department of Computing Science, University of Alberta, Canada. Disponível em: https://login.cs.utexas.edu/sites/default/files/legacy_files/research/documents/1%20intro%20up%20to%20RL%3ATD.pdf.

Kenji Doya (2007) Reinforcement learning: Computational theory and biological mechanisms, HFSP Journal, 1:1, 30-40, DOI: 10.2976/1.2732246/10.2976/1. Disponível em: https://www.tandfonline.com/doi/abs/10.2976/1.2732246/10.2976/1

Cohen, M.X. Ranganath C. Reinforcement Learning Signals Predict Future Decisions. Journal of Neuroscience 10 January 2007, 27 (2) 371-378; DOI: 10.1523/JNEUROSCI.4421-06.2007. Disponível em: https://www.jneurosci.org/content/jneuro/27/2/371.full.pdf.

Sutton, R. & Barto, A. Reinforcement Learning: An Introduction (MIT Press, 1998).

Mnih, V., Kavukcuoglu, K., Silver, D. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015). Disponível em: https://doi.org/10.1038/nature14236.

Categorias: Artigo