quarta-feira, 19 de maio de 2010

Dopamina é o bicho!

O blog Neuroskeptic, sempre interessante, publicou esse artigo que traduzi abaixo. Quem se interessar por ele deve procurar ver o original, pois o texto traz alguns links legais/importantes que expurguei aqui para não atravancar o visual. Além do mais, o artigo de Niv et al. é bem mais complexo e rico do que fica entrevisto nessa resenha do Neuroskeptic.

Saturday, 15 May 2010
Do It Like You Dopamine It

Os leitores do Neuroskeptic sabem que sou um grande fã de teorias. Ao invés de ficar apenas futucando o cérebro (ou tomografando) sob diferentes condições para ver o que acontece, sempre é melhor ter uma teoria que possa ser testada.

Descobri um
paper de 2007 dos neurocientistas computacionais israelenses Niv et al. que introduz uma teoria muito interessante sobre a dopamina. A dopamina é um neurotransmissor, e sabe-se que as células de dopamina disparam em surtos fásicos - curtas rajadas de disparos em escalas temporais de milissegundos - em resposta a alguma coisa que é prazerosa por si mesma, ou que v. aprendeu que está associada a prazer. Pensa-se, então, que a dopamina está envolvida na aprendizagem do que fazer para obter recompensas gratificantes.

Mas o caso é que os níveis de dopamina tônica também variam através de longos períodos. A função desse disparo de dopamina tônica e sua relação - se é que existe alguma - com a sinalização de dopamina fásica não é muito clara. A idéia de Niv et al. é que o nível de dopamina tônica representa a estimativa do cérebro da disponibilidade média de recompensas no meio ambiente, e que assim ela controla com quanto 'vigor' devemos fazer as coisas.

Uma grande disponibilidade de recompensas significa que, em geral, há muitas coisas acontecendo, muitos ganhos potenciais a serem arrecadados. Assim, se v. não está por lá ganhando algo gratificante, v. está perdendo terreno. Em termos econômicos, o custo oportunístico de não agir, ou de agir devagar, é alto - então v. precisa se apressar. Por outro lado, se existem apenas recompensas pequenas disponíveis, v. pode muito bem ir levando as coisas com calma, para conservar energias. Niv et al. apresentam um modelo matemático simples, no qual um rato hipotético precisa decidir com que frequência deve apertar uma alavanca para obter alimento, e mostram que isso explica os dados provenientes de experimentos com aprendizagem animal.

A distinção entre a dopamina fásica (uma recompensa específica) vs. a dopamina tônica (a disponibilidade geral de recompensas) é um pouco como a distinção entre medo vs. ansiedade. Medo é o que v. sente quando algo assustador, isto é, nocivo, está bem à sua frente. A ansiedade é a sensação de que algo ruim pode aparecer ao virar a esquina.

Essa teoria explica o fato de que se v. der a alguém uma droga que aumente os níveis de dopamina, como anfetamina, a pessoa se torna hiperativa - faz mais coisas, mais depressa, ou pelo menos tenta. Por isso é que chamam (anfetamina) de
speed (NT - speed é 'velocidade'). Isso também acontece com os animais. Mas essa hiperatividade começa quase imediatamente, o que significa que não pode ser um produto da aprendizagem.

Isto também parece ser verdade quanto a seres humanos. A sensação de que tudo é incrivelmente importante, e de que as tarefas quotidianas são realmente emocionantes, é um dos principais efeitos da anfetamina. Todo viciado em speed tem uma história na qual passou a noite toda limpando cada centímetro de sua casa ou organizando seu armário. Isto pode rapidamente se transformar em uma repetição compulsiva e despropositada da mesma tarefa. As pessoas que têm distúrbio bipolar frequentemente comunicam o mesmo tipo de coisa durante a (hipo)mania.

O que controla os níveis de dopamina tônica? Uma resposta que seria realmente de uma elegância brilhante poderia ser: a dopamina fásica. Talvez, todas as vezes em que os níveis de dopamina fásica disparam em resposta a uma recompensa (ou a algo que se aprendeu a associar a uma recompensa), um pouco de dopamina fica como sobra. Se houver muitos disparos de dopamina fásica, o que sugere que a disponibilidade de recompensas é grande, os níveis de dopamina tônica aumentam.

Infelizmente, provavelmente não é simples assim, já que sinais de diferentes partes do cérebro parecem alterar o disparo da dopamina tônica e fásica bastante independentemente, e isso significaria que a dopamina tônica só aumentaria após um bom número de recompensas, e não por antecipação, o que parece improvável. A verdade é que não sabemos o que estabelece a expressão geral da dopamina, e não sabemos o que essa expressão geral faz; mas a explicação de Niv et al. é a mais convincente que vi até agora
.

Niv Y, Daw ND, Joel D, & Dayan P (2007). Tonic dopamine: opportunity costs and the control of response vigor. Psychopharmacology, 191 (3), 507-20 PMID: 17031711 *********************************************

Com ênfase completamente diferente (e uma metodologia aparentemente mais rigorosa), temos também:

Neural mechanisms of acquired phasic dopamine responses in learning
Thomas E. Hazy, Michael J. Frank, Randall C. O’Reilly 2010

Um pequeno trecho do artigo (que também não faz justiça à sua complexidade geral) ajuda a entender melhor suas finalidades:

"Além disso, juntamente com o reconhecimento da importância dos sinais de dopamina para fenômenos de nível inferior como o condicionamento, os sinais de dopamina também vêm sendo crescentemente ligados a fenômenos de nível relativamente superior mais frequentemente associados à neurociência cognitiva como tomada de decisões, função executiva e o novo campo da neuroeconomia. Assim, parece que um entendimento melhor dos mecanismos envolvidos na sinalização da dopamina podem ajudar a melhorar nossa compreensão através de múltiplos níveis de explicações, desde comportamentos fisiológicos básicos até complexos comportamentos cognitivos".
****************************************************

Computational models of reinforcement learning: the role of dopamine as a reward signal
R. D. Samson, M. J. Frank & Jean-Marc Fellous 2010

Como diz o nome, a ênfase é colocada nas abordagens computacionais (cerebrais/neurais, é claro) da aprendizagem por reforço, e o abstract resume direitinho a visão dos autores.

Abstract A aprendizagem por reforço está em toda parte. À diferença de outras formas de aprendizagem, ela envolve o processamento de informações de feedback pobres de conteúdo mas rápidas para corrigir suposições sobre a natureza de uma tarefa ou de um conjunto de estímulos. Essas informações de feedback quase sempre são transmitidas como recompensas ou punições genéricas, e pouco têm a ver com os modelos de estímulos a serem aprendidos. Como é que um tal feedback de baixo conteúdo pode levar a semelhante paradigma de aprendizagem eficiente? Através de uma revisão de modelos neurocomputacionais existentes da aprendizagem por reforço, sugerimos que a eficiência desse tipo de aprendizagem reside na cooperação dinâmica e sinergética de sistemas cerebrais que utilizam diferentes níveis de computações. A implementação de sinais de recompensa em níveis sinápticos, celulares, de rede e de sistema dá ao organismo a necessária robustez, adaptabilidade e velocidade de processamento exigidas para o sucesso evolutivo e comportamental".
**************************************************

Leia também:

Prefrontal cortex mediation of cognitive enhancement in rewarding motivational contexts
Koji Jimura, Hannah S. Locke, and Todd S. Brave 2010