Redes neuronais

Jornal Policlínico, 1990; 293: 6-13.

PROCESSAMENTO DE SINAL EM REDES NEURONAIS
Conceptualização, contributos e perspectivas

Ramiro Verissimo

Address mail to
Prof Doutor Ramiro Verissimo

Psicologia Médica / Faculdade de Medicina do Porto
Al Hernani Monteiro, 4200-319 Porto, Portugal.
Phone: + 351 225 023 963 Fax: + 351 225 088 011
E-mail: [email protected]

Resumo

Desenvolvendo o conceito de redes neuronais através da história do seu aparecimento, o autor pretende indiciar os seus contributos, designadamente para a compreensão do funcionamento do sistema nervoso nesta perspectiva que enquadra como sistémica. Para consubstanciar a exposição apoia-se no exemplo do reconhecimento de padrões, que deste modo reputa de paradigmático.

De igual modo, antecipa aplicações que desde logo enuncia ou prevê através do estado do conhecimento actual em tais domínios.

A associação ocasional entre computador e cérebro, seja encarando o computador como cérebro electrónico, seja o cérebro como computador natural, data dos primórdios da sua história. Nessas alturas logo surgem acalorados debates. O que de facto acontece é que, tal como os computadores têm dado importantes achegas para a compreensão do funcionamento cerebral, também o cérebro tem servido de modelo para uma abordagem biónica da informática; é a este último tipo de estruturas que se chama de redes neuronais.

Estas redes neuronais podem então definir-se como sistemas altamente dinâmicos de processamento paralelo da informação continuamente recebida; esta definição tem a vantagem de ir de encontro, exactamente, à tentativa de mimetizar o cérebro no que este tem de versatilidade e capacidade para intuir e inferir a partir de dados escassos porque incompletos ou confusos.

O que acontece quando aprendemos? Bom, o que de facto acontece é que, entre conceitos como compreender, memorizar, ou evocar, por um lado, e noções como neurónios, sinapses, impulso, e despolarização, por outro, vamos ter de observar, efectivamente, o que entra e o que surge, o que é fornecido e o que resulta, e ver depois então de que modo determinadas variáveis, seja o estado emocional ou outras, vão fazer variar os acontecimentos.

Quando nos voltamos para as redes neuronais, portanto, passamos a recorrer a todo um vocabulário novo, ou melhor, renovado. Não programamos uma rede neuronal, ensinamo-la. Não medimos a sua velocidade de processamento em instruções por segundo, mas em interconexões por segundo. De facto, as entradas e saídas são, aqui, em tudo idênticas às da computação convencional; o que pode ser tido como mais misterioso é o que vai acontecer entre umas e outras, entre as chamadas características definidoras, e pense-se por exemplo nos sinais e sintomas apresentados por um paciente, e as características classificadoras, tomadas agora como o diagnóstico sindromático capaz de enquadrar com determinada probabilidade o referido conjunto de sinais e sintomas.

A sua estrutura consiste num elevado número de elementos processadores, os neurónios formais, elementos esses que, enquanto neurónios simulados, admitem múltiplas entradas, os dendritos, mas uma só saída, o axónio; para além destes elementos processadores a rede neuronal é formada pelo seu esquema interconexional - topologia -, pelo modelo de aprendizagem, e pelo conhecimento do estado do sistema. É a este conjunto de aspectos que se chama de paradigma da rede, sendo que actualmente estão identificados cerca de 20.

Vejamos então de mais perto onde começam e terminam as analogias, tendo em mente o conceito de modelo tal como no-lo apresenta Ashby: "No electronic model of a cat´s brain can possibly be as true as that provided by the brain of another cat; yet what is the use of the latter as a model? Its very closeness means that it also presents all the technical features that make the first so difficult. From here on, then, I shall take as a basis the thesis that the first virtue of a model is to be useful." (Ashby, in Stogdill, 1970, p. 96)

Claude Shannon, sobretudo conhecido pela teoria matemática da comunicação (1949), terminou os seus estudos no MIT em 1938 com uma tese de doutoramento em que elaborou a demonstração da analogia de estrutura entre a álgebra de Boole e o funcionamento de circuitos eléctricos com comutadores; a concepção dos componentes dos computadores e a sua montagem, ainda hoje obedecem aos princípios fundamentais expostos por Shannon, pois que toda a informática assenta na descoberta de que os processos físicos podem ser exactamente isomorfos das operações lógicas. Um pouco mais tarde, em 1943, foram publicados dois artigos fundamentais. O primeiro, "Behaviour, Purpose and Teleology" (1), da autoria do matemático Norbert Wiener (1943), do fisiologista Arturo Rosenblueth e do engenheiro de electrónica Julian Bigelow, tomando como ponto de partida a analogia entre os seres vivos e as máquinas, propõe-se explicar o comportamento finalista dos animais através da causalidade circular que liga os organismos ao seu meio ambiente; é o famoso feedback. Do neuropsiquiatra Warren McCulloch (1943) e do matemático Walter Pitts (que contava então 18 anos), o segundo, "Logical Calculus of the Ideas Imminent in Nervous Activity", o qual identifica o sistema nervoso com uma máquina lógica e mostra que uma rede de neurónios formais, mediante órgãos de recepção, efecção e conexão, possui o mesmo poder de cálculo que uma máquina de Turing universal (1936). Estavam lançados os alicerces do empreendimento de epistemologia experimental que visa cercear cientificamente o espírito humano través do conceito de informação.

Reportando-nos aos elementos primários no que eles têm de comum, independentemente do tipo específico, vejamos então muito sucintamente em que aspectos os neurónios interligados em rede, uma vez que isoladamente de pouco servem, de que modo os neurónios, dizia, vão semelhar as portas lógicas e os circuitos de memória. Como resultado dos estímulos oriundos de inúmeros outros neurónios, ou do "mundo exterior" em se tratando de receptores, e uma vez alcançado um determinado limiar, vão-se dar, a nível neuronal, descargas eléctricas transmitidas ao longo do axónio, descargas essas conducentes, no botão terminal, a determinados fenómenos de membrana que culminam numa libertação quântica de mediador. O resultado, se transmitido ao exterior, será uma função de efecção, uma vez que é uma função linear do referido somatório; se transmitido a outros neurónios, vai depender da natureza do mediador, e isto porque pode resultar, por exemplo, em estabilização da membrana pós-sináptica. Id est, a ponderação da resposta neuronal está, de certo modo, dependente do somatório dos estímulos excitatórios e inibitórios recebidos a nível sináptico. E até aqui não temos dúvida em afirmar a possibilidade de emulação através de portas lógicas. A questão surge, de facto, no modo como os vários elementos se interligam, e de que resulta uma diferença capital, se bem que subtil na aparência: qualquer alteração nas conexões dos circuitos integrados de silício ou nas placas de circuitos impressos e eis que a finalidade que presidiu à sua concepção não mais será conseguida; na rede neuronal a que claudica um elo diminui certamente a performance, a eficácia, seja em termos de velocidade ou de fiabilidade, mas nada mais. Ou seja, muitas células morrem a todo o momento, mas a falha é colmatada e o declínio das capacidades gradual.

Em relação à arquitectura convencional, a que se tem chamado de "gargalo de Von Neumann" (vonNeumann 1948, publicado em 1951), pouco mais há a dizer além da referida incapacidade para lidar com o erro, a qual é, pois, inerente à sua concepção; na verdade, para obviar à desproporção entre a vasta quantidade de silício a que está acometida a "pouco movimentada" tarefa da memória e a minúscula mas "atarefada" unidade central de processamento, tudo o que tem sido feito, visando acelerar o processo, é minimizar até ao limite as distâncias e outros factores de resistência ao trânsito electrónico, e utilizar em paralelo múltiplos processadores controlados de modo a subdividir tarefas e evitar conflitos.

No processamento distribuído das redes neuronais, as actividades misturam-se e espalham-se por toda a rede, até porque toda e qualquer parte dessa mesma rede aparenta (e funciona como) qualquer outra. Assim, não é para admirar que, além da já referida capacidade para lidar com a falha, exista a capacidade igualmente distintiva para lidar com informação escassa, porque incompleta ou corrompida, seja a de uma imagem ténue ou a de um som com interferências. Finalmente, também diferenciadora é a característica notável de aprender com a experiência, a qual, se surge aqui naturalmente, já em termos de programação envolve problemas extremamente complexos. O facto de as redes neuronais não serem programáveis mas sim treináveis com exemplos, resulta de serem elas auto-organizáveis, id est, capazes de se estabelecer num estado significativo em termos do objectivo a alcançar, sem que seja necessária uma especificação algorítmica de como o alcançar. Por outras palavras pode dizer-se que, se por um lado não é possível saber qual o estado interno da rede através da observação do seu comportamento, por outro lado o seu conhecimento não é minimamente necessário. E por estes indícios podemos desde logo antecipar as linhas mestras da investigação nesta área, as quais vão desde a modelação do sistema nervoso para simulação e compreensão da ultaestrutura da cognição, até aos estudos sobre linguagem natural, ou de reconhecimento óptico de caracteres, ou seja, de reconhecimento de padrões (problema do caixeiro-viajante (2), análise de imagens médicas, etc.) e filtragem de ruído em geral.

E nesta altura a questão que se oferece é a de saber o que se passou desde os tempos de Pitts e McCulloch. E algo se passou de facto. Em 1948, no celebrado Cybernetics: or Control and Communications in the Animal and the Machine, Norbert Wiener (1948) propõe que o modus operandum do cérebro pode ser imanente da sua organização, pelo que sugere desde logo a construção de dispositivos que o tomem como modelo. Porém, se recordarmos as válvulas e os relais electromagnéticos então em uso, logo compreenderemos de que modo as exigências inerentes aos meios tecnológicos disponíveis não permitiram avançar significativamente nesta área; assim, o que restou de facto foram os avanços que este apport veio trazer para o domínio cognitivo.

Em 1952 o psicólogo inglês W. Ross Ashby (1952, 1966), no seu Design For a Brain propõe-nos o homeostato, um engenho analógico que concebe para, de algum modo, materializar o seu conceito de ultraestabilidade: tendência encontrada em sistemas naturais com base na sua capacidade para absorver ruído, id est, capacidade de manter um determinado nível de funcionamento apesar das variações do meio.

Por razões que não será difícil discorrer, no struggle for life das máquinas a informática seguiu o seu rumo na estirpe do computador; de facto, nada havia que pudesse justificar a orientação dos enormes custos da miniaturização para o serviço de uma eficácia duvidosa e em tudo semelhante à que desde logo existe no Homem levada ao seu expoente máximo, uma vez que se trata do seu modelo paradigmático. Assim é que o Perceptron, projectado por Frank Rosenblatt em 1955 (Rosenblatt, 1962), teve de esperar que a evolução dos computadores digitais viesse a permitir a simulação em software de redes com dimensões úteis, o que só viria a acontecer nos anos 60. Tratava-se de um sistema de visão artificial que simulava a retina por meio de células fotoeléctricas, órgão de entrada de uma rede neuronal simples que podia ser ensinada a reconhecer padrões visuais (Rosenblatt, 1958). O entusiasmo com que se discutia nessa altura a programação aleatória (Friedberg, 1958) e a abordagem de rede do tipo do Pandemonium (Selfridge, 1959), por exemplo, veio a esmorecer quando, por volta de 1969, os trabalhos de Marvin Minsky e Seymour Papert votaram o Perceptron ao ostracismo ao evidenciar a impossibilidade de expressão XOR, ou seja, de activar uma célula se uma e somente uma de duas células de entrada estiver activada. Vedando assim vastas áreas de processamento, consubstanciavam matematicamente o desinteresse nesta área. Até que às duas camadas de neurónios do Perceptron se juntou pelo menos mais uma, e aí o problema foi deslocado para a regra de aprendizagem capaz de se haver com camadas ocultas. Só mais recentemente é que este problema viria, em parte, a ser debelado, fazendo ressurgir a "fénix" conexionista; assim, e de um modo muito geral, o que se faz é comparar os valores de saída com os dos estímulos à entrada, reduzindo o erro através de uma função matemática que pondere e reajuste as ligações da rede, processo sucessivamente repetido até que seja alcançada uma distribuição estável.

O primeiro congresso internacional sobre redes neuronais do IEEE (3), em 1987, pode descrever-se em boa verdade como uma dúzia de apresentações perante uma assistência escassa. Enfim, além dos prelectores já havia quem tivesse ouvido falar no assunto a ponto de aparecer. Cerca de um ano depois, no segundo congresso internacional sobre redes neuronais, que decorreu em Julho de 1988 em San Diego, apareceram cerca de duas mil pessoas para ouvir falar em temas como "Neural Network Models and Their application to Handwritten Digit Recognition" ou "A Multilayer Perception Network for the Diagnosis of Low Back Pain". De então para cá começaram a ser comuns congressos de teor mais técnico como seja o de Pattern Recognition and Advanced Missile System. Fruto disso começaram também a aparecer firmas a comercializar tecnologia neuronal para resolver tarefas computacionais complexas. O Perceptron tem, finalmente, o seu herdeiro comercializado com o nome de WISARD, um projecto da Universidade de Brunel que consiste numa câmara de vídeo ligada a uma rede; treinado com expressões faciais, por exemplo, cedo ele se torna capaz de distinguir um sorriso de uma carranca. Também no domínio da voz humana a NETalk, construída na Universidade de Princeton, aceita texto como entrada, e acciona um sintetizador como órgão de saída; neste caso o ruído ininteligível das conexões aleatórias vem dar lugar à fala depois de um treino de ajuste das conexões por meio do fornecimento de palavras escritas a par com os respectivos fonemas. Outros casos ainda, capazes de ilustrar os avanços notáveis alcançados por esta via são o do reconhecimento da fala, aprendizagem de que se encarrega a TDNN (4) (Waibel, 1989), e o projecto em curso na Carnegie Mellon de um veículo de navegação autónoma, o NAVLAB, desde logo pilotado com precisão pelo ALVINN (5) (Pomerleau, 1989) a uma velocidade de cerca de 3 milhas e meia, em diferentes condições climatéricas e de luz.

Actualmente há dois congressos por ano, designadamente o IJCNN (6) do Verão e o do Inverno, ambos patrocinados pela INNS (7) e pelo IEEE, tendo decorrido o último em 19 de Junho de 1989, e seguindo-se o do Inverno, a decorrer a 15 de Janeiro próximo (8).

Face a problemas que requeiram decisões por aproximação, e não por correspondência exacta, a questão que o programador esclarecido sobre esta matéria se põe de hoje em dia já não é sobre se a rede neuronal tem ou não aplicação, mas antes sobre qual o paradigma a aplicar numa determinada situação.

Ao descrever o modo como os neurónios semelham as portas lógicas designamos, no fundo, as cinco funções passíveis de caracterizar a actividade dos neurónios formais. São elas:

Entrada, uma vez que qualquer neurónio deve poder ser estimulado por outros, usando tais valores para calcular o seu próprio nível de actividade: os binários 1 e 0 para activo e inactivo respectivamente, na proposta de McCulloch-Pitts; de facto podem ser de 1 e -1, ou até de valores discretos, seja entre 0 e 1.

Ponderabilidade, na medida em que deve poder reagir mais ou menos a uma dada entrada, seja ela excitatória ou inibitória. Tal peso irá pois, ser multiplicado pela entrada recebida, determinando assim o valor efectivamente utilizado enquanto função linear do estímulo.

Somatório, posto que o estímulo resulta de todas as entradas positivas e negativas uma vez ponderadas.

Limiar a partir do qual o somatório irá determinar a efecção, limiar esse que permite discriminar valores de entrada diferentes, bem como eliminar o ruído branco.

Função de retrotransmissão que permita, além do que acontece na célula de McCulloch-Pitts, em que a saída é determinada conforme a entrada alcança (1) ou não (0) o limiar, que permita, dizia, caso o limiar seja alcançado, relacionar a saída com a entrada de modo tão complexo quanto se pretenda. Este é aliás, um dos meios que confere utilidade extrema às redes neuronais, seja por exemplo em matéria de filtrar ruído.

Além disso as redes neuronais tendem a arranjar-se em camadas, recebendo as células de uma camada as suas entradas, em regra, dos neurónios da camada precedente. A ideia é obter um esquema de ligações, e uma distribuição de pesos, por forma a conseguir que determinadas saídas se relacionem de forma considerada útil com os valores das entradas. Isto consegue-se, não mais recorrendo a uma sequência algorítmica de instruções, mas através de um treino por meio de exemplos, treino esse capaz de permitir o desenvolvimento iterativo de uma combinação de pesos que faculte a saída pretendida. Um dos principais alvos de estudo nesta área é precisamente o das regras para alteração dos pesos, visando encerrar em fórmulas as leis da aprendizagem, por forma a acelerar o processo e alcançar rapidamente uma situação estável. Mas talvez não seja este o local mais adequado para nos debruçarmos sobre a análise detalhada dos paradigmas de aprendizagem. Para facilitar a compreensão, no entanto, julgo que talvez seja mais conveniente, isso sim, que nos detenhamos sobre a questão das topologias. E isto porque, para enfrentar uma determinada tarefa, muitas topologias há, e se a correcta nos pode dar uma solução extremamente simples, já uma escolha errada pode resultar numa complicação desnecessária ou até numa ausência de solução.

Vejamos então, como exemplo ilustrativo, em que consiste o reconhecimento de padrões e de que modo pode ser alcançado. No fundo, consiste em memorizar um padrão e reconhecê-lo depois, tolerando as ambiguidades. O que se constata, porém, é que há mais do que um paradigma para o conseguir, cada um deles com a sua especificidade. Um deles é o da associação de padrões. Um outro é o da classificação. O primeiro consiste em manipular pares de padrões por forma a fornecer um deles como saída, quando recebe o outro como entrada; esta configuração, em que a rede associa o padrão de saída com o de entrada, é-lhe ensinada, ou então fornecida explicitamente através das já mencionadas fórmulas com as regras da ponderabilidade. O paradigma da classificação, análogo enquanto associador das entradas com as saídas, difere na medida em que categoriza os padrões de entrada de acordo com determinadas formas de os agrupar; ora isto vai permitir à rede fornecer uma saída correcta quando confrontada com uma entrada distorcida ou incompleta.

Vamos então definir uma topologia por forma a podermos começar a aproximar-nos da ilustração pretendida. A nossa rede (figura 1), com três camadas, utilizará uma delas para entrada, outra como oculta, e a terceira para saída. Em cada uma das camadas os respectivos neurónios estão todos ligados aos da seguinte, e o seu limiar de activação está sempre dependente de uma mesma função. Finalmente, a função de propagação é sempre um somatório ponderado, activando-se as ligações na direcção da camada de saída - rede de antero-alimentação.

Nas redes mais simples a função de activação é linear, não modificando a entrada, pelo que a função de propagação transmite o seu resultado directamente para a saída. Suponhamos uma reunião da direcção numa empresa em que os accionistas se fazem representar por 5 executivos (figura 2). Há um elemento que recolhe os votos e que transmite o resultado da votação ao presidente em função do voto a favor ou contra de cada um dos votantes e do número de accionistas por ele representado. Nesta rede o peso entre a camada de entrada e a oculta reside no número de accionistas representado por cada votante; entre a oculta e a de saída o peso é 1.0 uma vez que o presidente parte do princípio que o membro que recolhe os votos é honesto.

Complicando um pouco mais a nossa rede, vamos imaginar que a resposta assume determinado valor se a entrada ultrapassar um limiar determinado por uma função linear, e um outro de contrário. É exactamente isto o que acontece nas portas lógicas, em que o limiar é determinado por uma função binária: existência ou não de resposta. Para uma porta de duas entradas, como a OR ou a AND (porção esquerda da figura 3), pode usar-se uma camada de entrada de dois neurónios e uma camada de saída de um neurónio; já a XOR (porção direita da figura 3), vai requerer uma camada oculta de dois neurónios, por forma a poder executar a operação de exclusão, posto que tem de comparar as duas entradas da perspectiva de cada uma delas.

Com efeito, podemos estabelecer, a partir das respectivas tabelas de verdade (figura 4 e 5), que o neurónio de saída da porta OR é estimulado por uma sinapse oriunda de cada um dos neurónios de entrada, podendo ser activado por qualquer delas. O mesmo se passa na porta AND, porém aqui o limiar tem de ser duplicado e reduzido a zero após qualquer estimulação; não fora esta acção inibitória e uma dupla estimulação de um dos neurónios de entrada poderia determinar uma resposta. Quanto à porta XOR, provavelmente um mecanismo idêntico ao utilizado por sistemas biológicos para comparação de padrões, ela disporá de um neurónio de saída que traduz uma porta OR em relação aos dois intermédios; cada um destes, por seu turno, estará ligado por uma sinapse excitatória a um dos de entrada, e por uma inibitória ao outro. Deste modo, para que um dos neurónios intermédios atinja o limiar, o outro não pode estar a ser estimulado.

Vejamos então de que modo se pode alcançar o reconhecimento óptico de caracteres (OCR), isto é, de que modo pode um determinado padrão óptico ser traduzido num código que o represente, seja por exemplo o do ASCII (American Standard Code for Information Interchange); e até aqui, desde que o padrão introduzido corresponda exactamente ao que à partida se associou ao respectivo código, nada de novo. Onde as redes neuronais se tornam particularmente adequadas, conforme foi dito, é a reconhecer padrões que não constituem tais decalques dos que se lhes ensinou, antes fornecendo uma resposta com o respectivo grau de certeza.

Antes de avançar, no entanto, importa precisar o conceito de nódulo. Este refere-se a um conjunto de neurónios pertencentes a uma mesma camada, mas por tal forma interrelacionados que competem mutuamente para serem os representantes exclusivos do grupo; por outras palavras: o neurónio mais perto do limiar é levado a alcançá-lo, ao passo que todos os outros são inibidos; no caso de haver neurónios equidistantes, é "despolarizado" o primeiro a ser encontrado, sem que com isso diminua a precisão, uma vez que aos mesmos valores corresponderão graus de certeza idênticos.

Ao conjunto formado pela camada de entrada com a oculta costuma chamar-se de Perceptron (Rosenblatt, 1958). É uma rede cujos neurónios podem assumir um de dois estados, conforme o limiar é ou não alcançado; além disso, o somatório de todas as entradas de um neurónio da camada oculta, uma vez ponderadas, será sempre igual ou inferior a 1.0. A camada oculta com a camada de saída, por seu turno, formam uma rede linear. Quanto aos nódulos, eles só existem na camada oculta, formando esta, no caso de que nos temos vindo a aproximar, um único nódulo (figura 6). Deste modo torna-se possível classificar tantos padrões de entrada quantos os neurónios da camada oculta, atribuindo-se, por exemplo, cada um deles a uma das letras do alfabeto. A partir daqui, vai ser preciso ensinar à rede quais os padrões que produzem este ou aquele resultados, a menos que se saiba o que a rede aprende, construindo atalhos que permitam acelerar o processo. É o que faremos se, por exemplo, nos limitarmos ao reconhecimento de um só caracter.

Cada uma das letras é então lida e apresentada à rede, seleccionando-se o neurónio da camada oculta ainda não atribuído, o qual passará então a ponderar cada uma das entradas oriundas da primeira camada, naturalmente. O peso de cada sinapse por cujo axónio atravessa um impulso será igual a 1.0 a dividir pelo número total de neurónios estimulados; já o peso de cada sinapse não activada vai ser de 0.0. Quanto ao peso das sinapses entre os neurónios da camada oculta e os da de saída, ele vai ser igual ao do valor numérico do código que assim pretendemos associar ao padrão de entrada. Aprendidos determinados caracteres, sempre que se lhe apresente um novo padrão a rede dir-nos-á qual dos padrões aprendidos mais se lhe assemelha.

Mas não devemos concluir de toda esta simplicidade aparente, ou pelo facto de esta tecnologia de processamento da informação tomar como modelo o sistema nervoso, que ela é por isso mesmo menos bem fundamentada. Com efeito, certos tipos de rede têm profundas bases matemáticas. Sem querer penetrar em tais fundamentos, até porque, tendo feito do sistema nervoso a minha principal área de interesse, não me julgo como a pessoa mais indicada para o fazer, não quero no entanto deixar de referir as implicações em termos de aprendizagem da técnica de retrotransmissão. Esta, cuja eficácia já foi mencionada como particularmente importante em termos de filtro de ruído de fundo que se supõe aleatório, esta, dizia, baseia-se numa configuração da rede capaz de estabelecer uma relação entre as variáveis de entrada e as de saída, por forma a minimizar o erro entre a saída fornecida pela rede e a saída que se pretende correcta. Após minimizar o erro, ou seja, depois de ensinar a rede, podemos dizer que ela aprendeu a relação entrada / saída, podendo agora dar respostas próximas das correctas apesar dos dados fornecidos serem incompletos. Temos pois, em resumo, uma rede constituída por três camadas, o que em regra é suficiente, rede essa cujas respostas se relacionam com os dados fornecidos através de uma função não linear. As modificações no peso das sinapses tem de ser feita, por um lado, entre a segunda e a terceira camadas, mas também tem, por outro, de ser transmitida para trás até às que ligam a primeira à segunda. E assim se determina o erro, o qual vai diminuindo à medida que se modifica, proporcionalmente, o peso. Ora a constante de proporcionalidade é o que se designa por taxa de aprendizagem; digamos, exemplificando, que se essa taxa for de 0.5, isso significa que a variação do peso é função de metade do erro. Daqui poder-se-ia concluir que aumentar a taxa de aprendizagem seria um factor positivo de aprendizagem, dado que esta se torna mais rápida. Acontece porém que isso pode conduzir a oscilações mais amplas, e impedir mesmo a estabilização, ou então levar a rede a convergir para uma solução inadequada. Para obviar a isso vai-se entrar em linha de conta com o momento, isto é, vai-se fazer depender a variação no peso da anterior, o que resulta numa progressão mais suave. Ou seja:

Cada nova alteração do peso =

(taxa de aprendizagem) * (função do erro) + (momento) * (alteração anterior)

(1) Comportamento, finalidade e teleologia
(2) Caixeiro-viajante que deve achar o caminho mais curto para percorrer de modo a passar num determinado número de cidades; tendo em mente, por exemplo, que para 10 cidades existem 1 814 400 de alternativas (10!/2), logo se compreende a inexequibilidade da via algorítmica que consiste em calcular e comparar exaustivamente as alternativas.
(3) Institute of Electrical and Electronics Engineers
(4) Time-Delay Neural Network
(5) Autonomous Land Vehicle In a Neural Network
(6) International Joint Conference on Neural Network
(7) International Neural Network Society. Para obter informações sobre como tornar-se membro deve dirigir-se a Frank Polkinghorn na seguinte direcção: INNS Membership, P.O. Box 441166, Fort Washington, Md. 20744, U.S.A. [Telefone: (301) 839-2114].
(8) No Omni Shoreham Hotel, em Washington, DC
Agradecimentos

O autor quer deste modo expressar a sua gratidão aos organizadores das II JORNADAS DE INFORMÁTICA E IMAGEM MÉDICAS DO PORTO na pessoa do Dr. F. Reis Lima pelo amável convite que lhe foi dirigido no sentido de fazer a exposição a que se refere o presente texto.

Bibliografia

Almeida Luis B. Backpropagation in Perceptrons with Feedback. In Rolf Eckmiller and Christoph Malsburg (eds) Neural Computers. Berlin: Springer-Verlag, 1989.

Arbib Michael A. Brain, Machines, and Mathematics. Berlin: Springer-Verlag, 1987.

Ashby W Ross. Design for a Brain (Col. Science Paperbacks). London: Chapman & Hall, 1952, 1966.

Cannon WB. The Wisdom of the Body. Norton, 1939.

Eckmiller Rolf & Malsburg Christoph (eds). Neural Computers: Proceedings of the NATO Advanced Research Workshop on Neural Computers. Berlin: Springer-Verlag, 1988.

Friedberg RM. A Learning Machine: Part I IBM Journal 1958 (Jan.): 2-13.

King Todd. Using Neural Networks for Pattern Recognition. Dr. Dobb's Journal 1989 (Jan.): 14-28.

Klimasauskas Casey. Neural Nets and Noise Filtering. Dr. Dobbs Journal 1989 (Jan.): 32-48.

Kohonen Teuvo. Self-Organization and Associative Memory. Berlin: Springer-Verlag, 1988.

McClelland JL and Rumelhart DE. Explorations in Parallel Distributed Processing: A Handbook of Models, Programs and Exercises. Cambridge, MA: MIT Press, 1988.

McCulloch WS and Pitts WH. A logical calculus of the ideas immanent in nervous activity. Bull. Math. Biophys. 1943; 5: 115-133.

Minsky ML and Papert S. Perceptrons: An Essay in Computational Geometry. Cambridge, MA: MIT Press, 1969, 1988.

Obermeier Klaus K. and Barron Janet J. Time to Get Fired Up. BYTE 1989 (Aug.): 214-224.

Pomerleau DA. ALVINN: An Autonomous Land Vehicle in a Neural Network. In D. S. Touretzky (ed) Advances in Neural Information Processing Systems 1. San Mateo, CA: Morgan Kaufmann Publishers, 1989.

Rosenblatt F. The Perceptron, a Probabilistic Model for Information Organization and Storage in the Brain. Psychological Review 1958; V65: 363-408.

Rosenblatt F. Principles of Neurodynamics. Spartan Books, 1962.

Rosenbleuth A, Wiener N and Biglow J. Behaviour, purpose and teleology. Philos. Sci. 1943; 10: 18-24.

Rumelhart David E, McClelland James L (eds) and the PDP Research Group. Parallel Distributed Processing. Cambridge, MA: MIT Press, 1986, 1987.

Selfridge OG. Pandemonium: a Paradigm for Learning In D Blake & A Uttley (eds.) Proc. Symposium on Mechanization of Thought Processes. London: H. M. Stationery Office, 1959: 511-531.

Shannon Claude E. A symbolic Analysis of Relay and Switching Circuits. Trans. Amer. 1938; IEE, 57.

Shannon Claude E and Weaver W. The Mathematical Theory of Communication. Urbana, Chicago, London: University of Illinois Press, 1949.

Stogdill RN (ed). The Process of Model Building. Ohio State University Press, 1970.

Touretzky David S and Pomerleau Dean A. What's Hidden in the Hidden Layers? BYTE 1989: 227-233.

Turing Allan. On Computable Numbers with an Application to the Entscheidungs Problem. Proceeding of the London Mathematical Society, 2ª Serie. 1936 (12 Nov); V42 (3ª parte): 230-265.

Turing Allan. On Computable Numbers with an Application to the Entscheidungs Problem. Proceeding of the London Mathematical Society, 2ª Serie, 1937 (20 Maio); V43 (7ª parte): 546-550.

Verissimo R. Introdução às Aplicações da Microinformática na Investigação; Inteligência Artificial. Texto de apoio à palestra proferida no Instituto de Histologia e Embriologia de Abel Salazar (Março 25). Porto, Faculdade de Medicina, 1987.

vonNeumann John. The general and logical theory of automata In LA Jeffer (ed) Cerebral Mechanisms in Behaviour: The Hixon Symposium. Wiley, 1951: 1-32.

Waibel Alex and Hampshire John. Building Blocks for Speech. BYTE 1989; 235-242.

Weber Jack. Uma janela para o cérebro. PCW (ed. port.), 1989; (Fev.): 70-75.

Wiener Norbert. Cybernetics Mass.: MIT Press, 1948.