The Birth of AI and The First AI Hype Cycle

Por Alok Aggarwal, Scry Analytics.

Cada década parece ter suas buzzwords tecnológicas: tivemos computadores pessoais na década de 1980; Internet e web mundial na década de 1990; smart phones e redes sociais na década de 2000; e Inteligência Artificial (IA) e Machine Learning nesta década. No entanto, o campo da IA tem 67 anos e este é o primeiro de uma série de cinco artigos em que:

Este artigo discute a gênese da IA e o primeiro ciclo de hype durante 1950 e 1982
O segundo artigo discute um ressurgimento da IA e suas realizações durante 1983-2010
O terceiro artigo discute os domínios nos quais os sistemas de IA já estão rivalizando com os humanos
O quarto artigo discute o atual ciclo de hype em Inteligência Artificial
O quinto artigo discute o que 2018-2035 pode portar para os cérebros, mentes e máquinas

Introdução

Embora a inteligência artificial (IA) esteja entre os tópicos mais populares de hoje, um fato comumente esquecido é que ela realmente nasceu em 1950 e passou por um ciclo de hype entre 1956 e 1982. O objetivo deste artigo é destacar algumas das conquistas que ocorreram durante a fase de boom deste ciclo e explicar o que levou à sua fase de bust. As lições a serem aprendidas deste ciclo de hype não devem ser ignoradas – seus sucessos formaram os arquétipos de algoritmos de aprendizagem de máquinas usados hoje, e suas deficiências indicavam os perigos do excesso de entusiasmo em campos promissores de pesquisa e desenvolvimento.

A Questão Pioneira

Embora os primeiros computadores tenham sido desenvolvidos durante a Segunda Guerra Mundial, o que parecia realmente desencadear o campo da IA foi uma questão proposta por Alan Turing em 1950: uma máquina pode imitar a inteligência humana? Em seu trabalho seminal, “Computing Machinery and Intelligence”, ele formulou um jogo, chamado jogo de imitação, no qual um humano, um computador e um interrogador (humano) estão em três salas diferentes. O objetivo do interrogador é distinguir o humano do computador, fazendo-lhes uma série de perguntas e lendo suas respostas datilografadas; o objetivo do computador é convencer o interrogador de que ele é o humano. Em uma entrevista à BBC em 1952, Turing sugeriu que, até o ano 2000, o interrogador médio teria menos de 70% de chances de identificar corretamente o humano após uma sessão de cinco minutos .

Turing não foi o único a perguntar se uma máquina poderia modelar a vida inteligente. Em 1951, Marvin Minsky, um estudante de pós-graduação inspirado em pesquisas anteriores de neurociência indicando que o cérebro era composto por uma rede elétrica de neurônios disparando com pulsos de tudo ou nada, tentou modelar computacionalmente o comportamento de um rato. Em colaboração com o estudante de Física Dean Edmonds, ele construiu a primeira máquina de rede neural chamada Stochastic Neural Analogy Reinforcement Computer (SNARC) . Embora primitivo (consistindo de cerca de 300 tubos de vácuo e motores), foi bem sucedido em modelar o comportamento de um rato em um pequeno labirinto em busca de alimento .

A noção de que poderia ser possível criar uma máquina inteligente foi um fato sedutor, e levou a vários desenvolvimentos subsequentes. Por exemplo, Arthur Samuel construiu um programa de jogo de damas em 1952 que foi o primeiro programa de auto-aprendizagem do mundo. Mais tarde, em 1955, Newell, Simon e Shaw construíram o Logic Theorist, que foi o primeiro programa a imitar as habilidades de resolução de problemas de um humano e que acabaria por provar 38 dos primeiros 52 teoremas de Whitehead e o Principia Mathematica de Russell.

O Início da Fase de Boom

Inspirado por esses sucessos, o jovem professor John McCarthy organizou uma conferência em 1956 para reunir vinte pesquisadores pioneiros e, “explorar formas de fazer uma máquina que pudesse raciocinar como um humano, fosse capaz de pensamento abstrato, resolução de problemas e auto-aperfeiçoamento” . Foi em sua proposta de 1955 para esta conferência onde o termo “inteligência artificial” foi cunhado e foi nesta conferência que a IA ganhou sua visão, missão e hype.

Os pesquisadores logo começaram a fazer afirmações audaciosas sobre a incipiência da poderosa inteligência da máquina, e muitos anteciparam que uma máquina tão inteligente quanto um humano existiria em não mais do que uma geração . Por exemplo:

Em 1958, Simon e Newell disseram, “dentro de dez anos um computador digital será o campeão mundial de xadrez”, e, “dentro de dez anos um computador digital descobrirá e provará um novo teorema matemático importante”.
Em 1961, Minsky escreveu, “dentro de nossa vida as máquinas podem nos superar em inteligência geral”, e em 1967 ele reiterou, “dentro de uma geração, estou convencido, poucos compartimentos do intelecto permanecerão fora do reino da máquina – o problema de criar ‘inteligência artificial’ será substancialmente resolvido” .

“…dentro de nossa vida as máquinas podem nos superar em inteligência geral…” – Marvin Minsky, 1961

AI tinha até atraído a atenção de Hollywood. Em 1968, Arthur Clarke e Stanley Kubrick produziram o filme, 2001: Uma Odisséia Espacial, cujo antagonista era um computador artificialmente inteligente, HAL 9000 exibindo criatividade, senso de humor e a capacidade de esquematizar contra qualquer um que ameaçasse sua sobrevivência. Isto foi baseado na crença mantida por Turing, Minsky, McCarthy e muitos outros de que tal máquina existiria até 2000; na verdade, Minsky serviu como conselheiro para este filme e um de seus personagens, Victor Kaminski, foi nomeado em sua homenagem.

Subcampos da IA nascem

Entre 1956 e 1982, o entusiasmo inabalável da IA levou ao trabalho seminal, que deu origem a vários subcampos da IA que são explicados abaixo. Muito desse trabalho levou aos primeiros protótipos da teoria moderna da IA.

Sistemas baseados em regras

Sistemas especialistas baseados em regras tentam resolver problemas complexos implementando séries de regras “se-então-else”. Uma vantagem para tais sistemas é que suas instruções (o que o programa deve fazer quando vê “se” ou “else”) são flexíveis e podem ser modificadas ou pelo codificador, usuário ou pelo próprio programa. Tais sistemas especializados foram criados e usados nos anos 70 por Feigenbaum e seus colegas, e muitos deles constituem os blocos de fundação para os sistemas de IA de hoje.

Machine Learning

O campo da aprendizagem de máquinas foi cunhado por Arthur Samuel em 1959 como, “o campo de estudo que dá aos computadores a capacidade de aprender sem ser explicitamente programado” . A aprendizagem de máquinas é um vasto campo e sua explicação detalhada está além do escopo deste artigo. O segundo artigo desta série – ver Prologue na primeira página e – discutirá brevemente os seus subcampos e aplicações. No entanto, abaixo damos um exemplo de um programa de aprendizagem de máquinas, conhecido como a rede perceptron.

“Machine learning is the field of study that gives computers the ability to learn without being explicitly programmed” – Arthur Samuel, 1959

Single and Multilayer Perceptron Networks

Inspirado pelo trabalho de McCulloch e Pitts em 1943 e de Hebb em 1949 , Rosenblatt em 1957 introduziu a rede perceptron como um modelo artificial de neurônios comunicantes . Este modelo é mostrado na Figura 5 e pode ser descrito brevemente como se segue. Uma camada de vértices, onde variáveis de entrada são inseridas, está conectada a uma camada oculta de vértices (também chamada de perceptrons), que por sua vez está conectada a uma camada de saída de perceptrons. Um sinal vindo através de uma conexão de um vértice de entrada a um perceptron na camada oculta é calibrado por um “peso” associado a essa conexão, e esse peso é atribuído durante um “processo de aprendizagem”. Os sinais dos perceptrons da camada oculta para os perceptrons da camada de saída são calibrados de forma análoga. Como um neurônio humano, um perceptron “dispara” se o peso total de todos os sinais que chegam excede um potencial especificado. No entanto, ao contrário dos humanos, os sinais neste modelo são transmitidos apenas para a camada de saída, razão pela qual estas redes são frequentemente chamadas de “feed-forward”. As redes Perceptron com apenas uma camada oculta de perceptrons (ou seja, com duas camadas de conexões de borda ponderada) tornaram-se mais tarde conhecidas como redes neurais artificiais “rasas”. Embora as redes rasas fossem limitadas em potência, Rosenblatt conseguiu criar uma rede de perceptrons de uma camada, que ele chamou de Mark 1, que foi capaz de reconhecer imagens básicas .

Hoje, a excitação é sobre redes neurais “profundas” (duas ou mais camadas ocultas), que também foram estudadas nos anos 60. De fato, o primeiro algoritmo de aprendizagem geral para redes profundas remonta ao trabalho de Ivakhnenko e Lapa em 1965 . Redes tão profundas quanto oito camadas foram consideradas por Ivakhnenko em 1971, quando ele também forneceu uma técnica para treiná-las .

Natural Language Processing (NLP)

Em 1957 Chomsky revolucionou a linguística com a gramática universal, um sistema baseado em regras para a compreensão da sintaxe . Isso formou o primeiro modelo que os pesquisadores puderam usar para criar sistemas de PNL de sucesso nos anos 60, incluindo SHRDLU, um programa que trabalhava com pequenos vocabulários e era parcialmente capaz de entender documentos textuais em domínios específicos . Durante o início dos anos 70, os pesquisadores começaram a escrever ontologias conceituais, que são estruturas de dados que permitem aos computadores interpretar relações entre palavras, frases e conceitos; essas ontologias continuam a ser amplamente utilizadas hoje em dia .

Conhecimento de Falantes e Discurso para Processamento de Texto

A questão de saber se um computador poderia reconhecer a fala foi inicialmente proposta por um grupo de três pesquisadores na AT&T Bell Labs em 1952, quando construíram um sistema de reconhecimento de dígitos isolados para um único falante . Este sistema foi amplamente melhorado durante o final dos anos 60, quando Reddy criou o Hearsay I, um programa que tinha baixa precisão, mas foi um dos primeiros a converter grande vocabulário contínuo de fala em texto. Em 1975, seus alunos Baker e Baker criaram o Sistema Dragon , que melhorou ainda mais o Hearsay I usando o Modelo Markov Escondido (HMM), um modelo probabilístico unificado que lhes permitiu combinar várias fontes, como acústica, linguagem e sintaxe. Hoje, o HMM continua sendo uma estrutura eficaz para o reconhecimento da fala .

Processamento de Imagens e Visão por Computador

No verão de 1966, Minsky contratou um estudante de graduação do primeiro ano do MIT e lhe pediu para resolver o seguinte problema: conectar uma câmera de televisão a um computador e fazer com que a máquina descrevesse o que ela vê . O objetivo era extrair a estrutura tridimensional das imagens, permitindo assim que sistemas sensoriais robóticos imitassem parcialmente o sistema visual humano. A pesquisa em visão computacional no início dos anos 70 formou a base para muitos algoritmos que existem hoje, incluindo extrair bordas de imagens, etiquetar linhas e círculos e estimar o movimento em vídeos .

Aplicações comerciais

Os avanços teóricos acima mencionados levaram a várias aplicações, a maioria das quais ficou aquém de ser usada na prática naquela época, mas preparou o cenário para que seus derivados fossem usados comercialmente mais tarde. Algumas dessas aplicações são discutidas abaixo.

Chatterbots ou Chat-Bots

Entre 1964 e 1966, Weizenbaum criou o primeiro chat-bot, ELIZA, com o nome de Eliza Doolittle, que foi ensinada a falar corretamente no romance de Bernard Shaw, Pygmalion (posteriormente adaptado para o filme, My Fair Lady). ELIZA podia realizar conversas que às vezes enganavam os usuários a acreditar que eles estavam se comunicando com um humano, mas, por acaso, ELIZA deu apenas respostas padrão que muitas vezes não tinham sentido. Mais tarde, em 1972, o pesquisador médico Colby criou um chatbot “paranóico”, PARRY, que também era um programa sem sentido. Ainda assim, em suma, jogos de imitação, os psiquiatras eram incapazes de distinguir as divagações de PARRY das de um humano paranóico .

Robótica

Em 1954, Devol construiu o primeiro robô programável chamado Unimate, que foi uma das poucas invenções de IA da sua época a ser comercializada; foi comprado pela General Motors em 1961 para uso em linhas de montagem de automóveis . Melhorando significativamente na Unimate, em 1972, pesquisadores da Universidade de Waseda em 1972 construíram o primeiro robô humanóide inteligente em escala real do mundo, o WABOT-1 . Embora fosse quase um brinquedo, seu sistema de membros lhe permitia andar e agarrar, bem como transportar objetos com as mãos; seu sistema de visão (composto por seus olhos e ouvidos artificiais) lhe permitia medir distâncias e direções a objetos; e sua boca artificial lhe permitia conversar em japonês . Isto levou gradualmente a um trabalho inovador em visão mecânica, incluindo a criação de robôs que podiam empilhar blocos .

The Bust Phase and the AI Winter

Apesar de alguns sucessos, em 1975 os programas de IA estavam em grande parte limitados à resolução de problemas rudimentares. Em retrospectiva, os pesquisadores perceberam duas questões fundamentais com sua abordagem.

Potência limitada e dispendiosa de computação

Em 1976, o supercomputador mais rápido do mundo (que teria custado mais de cinco milhões de dólares americanos) só era capaz de executar cerca de 100 milhões de instruções por segundo . Em contraste, o estudo de Moravec de 1976 indicou que mesmo a capacidade de correspondência de borda e detecção de movimento de uma retina humana exigiria um computador para executar tais instruções dez vezes mais rápido . Da mesma forma, um humano tem cerca de 86 bilhões de neurônios e um trilhão de sinapses; cálculos básicos usando os números fornecidos em indicam que a criação de uma rede perceptron desse tamanho teria custado mais de 1,6 trilhões de dólares, consumindo todo o PIB dos EUA em 1974.

O Mistério por trás do Pensamento Humano

Os cientistas não entenderam como o cérebro humano funciona e permaneceram especialmente inconscientes dos mecanismos neurológicos por trás da criatividade, raciocínio e humor. A falta de uma compreensão sobre o que exatamente os programas de aprendizagem de máquinas deveriam estar tentando imitar representava um obstáculo significativo para avançar a teoria da inteligência artificial. De fato, nos anos 70, cientistas de outras áreas começaram até mesmo a questionar a noção de “imitar um cérebro humano”, proposta pelos pesquisadores da IA. Por exemplo, alguns argumentaram que se símbolos não têm ‘significado’ para a máquina, então a máquina não poderia ser descrita como ‘pensando’ .

Eventualmente tornou-se óbvio para os pioneiros que eles tinham subestimado grosseiramente a dificuldade de criar um computador de IA capaz de ganhar o jogo de imitação. Por exemplo, em 1969, Minsky e Papert publicaram o livro, Perceptrons , no qual indicavam severas limitações do perceptron de uma camada oculta de Rosenblatt. Elaborado por um dos fundadores da inteligência artificial enquanto atestava as deficiências dos perceptrons, este livro serviu como um sério impedimento para a pesquisa em redes neurais por quase uma década .

Nos anos seguintes, outros pesquisadores começaram a compartilhar as dúvidas de Minsky sobre o futuro incipiente da IA forte. Por exemplo, em uma conferência de 1977, um agora muito mais circunspecto John McCarthy notou que criar tal máquina exigiria ‘avanços conceituais’, porque ‘o que você quer é 1,7 Einsteins e 0,3 do Projeto Manhattan, e você quer os Einsteins primeiro’. Acredito que levará de cinco a 500 anos’ .

O entusiasmo dos anos 50 elevou as expectativas a um nível tão audacioso que, quando os resultados não se materializaram até 1973, os governos americano e britânico retiraram o financiamento da pesquisa na IA . Embora o governo japonês tenha fornecido temporariamente financiamento adicional em 1980, rapidamente se desiludiu com o final dos anos 80 e retirou novamente seus investimentos. Essa fase de falência (particularmente entre 1974 e 1982) é comumente chamada de “inverno da IA”, como era quando a pesquisa em inteligência artificial quase parou completamente. De fato, durante este tempo e nos anos seguintes, “alguns cientistas da computação e engenheiros de software evitariam o termo inteligência artificial por medo de serem vistos como sonhadores de olhos selvagens” .

“…porque o que você quer é 1,7 Einsteins e 0,3 do Projeto Manhattan, e você quer os Einsteins primeiro. Acredito que vai levar de cinco a 500 anos”. – John McCarthy, 1977

A atitude predominante durante o período 1974-1982 foi altamente infeliz, pois os poucos avanços substanciais que ocorreram durante este período passaram essencialmente despercebidos, e foi feito um esforço significativo para recriá-los. Dois desses avanços são os seguintes:

O primeiro é a técnica de retropropagação, que é comumente usada hoje em dia para treinar eficientemente as redes neurais na atribuição de pesos quase ótimos às suas bordas. Embora tenha sido introduzida por vários pesquisadores independentemente (por exemplo, Kelley, Bryson, Dreyfus e Ho) nos anos 60 e implementada por Linnainmaa em 1970 , ela foi ignorada principalmente. Da mesma forma, a tese de 1974 de Werbos que propunha que essa técnica poderia ser usada efetivamente para o treinamento de redes neurais não foi publicada até 1982, quando a fase de busto estava se aproximando de seu fim. Em 1986, essa técnica foi redescoberta por Rumelhart, Hinton e Williams, que a popularizaram mostrando seu significado prático .
A segunda é a rede neural recorrente (RNNN), que é análoga à rede perceptron de Rosenblatt que não é feed-forward porque permite que as conexões vão em direção às camadas de entrada e saída. Tais redes foram propostas por Little em 1974 como um modelo mais biologicamente mais preciso do cérebro. Lamentavelmente, as RNNs passaram despercebidas até Hopfield popularizá-las em 1982 e melhorá-las ainda mais .

Conclusão

As características definidoras de um ciclo hype são uma fase de boom, quando pesquisadores, desenvolvedores e investidores se tornam excessivamente otimistas e um enorme crescimento ocorre, e uma fase de busto, quando os investimentos são retirados, e o crescimento reduz substancialmente. Da história apresentada neste artigo, podemos ver que a IA passou por tal ciclo durante 1956 e 1982.

Nascido da visão de Turing e Minsky de que uma máquina poderia imitar a vida inteligente, a IA recebeu seu nome, missão e hype da conferência organizada por McCarthy na Universidade de Dartmouth em 1956. Isso marcou o início da fase de boom do ciclo de hype da IA. Entre 1956 e 1973, muitos avanços teóricos e práticos penetrantes foram descobertos no campo da IA, incluindo sistemas baseados em regras; redes neurais rasas e profundas; processamento de linguagem natural; processamento de fala; e reconhecimento de imagem. As realizações que ocorreram durante esse tempo formaram os arquétipos iniciais dos sistemas de IA atuais.

O que também ocorreu durante essa fase de boom foi “exuberância irracional” . Os pioneiros da IA foram rápidos em fazer previsões exageradas sobre o futuro de máquinas fortes e artificialmente inteligentes. Em 1974, essas previsões não aconteceram, e os pesquisadores perceberam que suas promessas haviam sido infladas. A essa altura, os investidores também se tornaram cépticos e retiraram fundos. Isso resultou em uma fase de falência, também chamada de inverno da IA, quando a pesquisa na IA era lenta e até mesmo o termo “inteligência artificial” foi desdenhado. A maioria das poucas invenções durante esse período, tais como retropropagação e redes neurais recorrentes, foram largamente ignoradas, e um esforço substancial foi gasto para redescobri-las nas décadas seguintes.

Em geral os ciclos de hype são espadas de duas pontas, e a que foi exibida pela IA entre 1956 e 1982 não foi diferente. É preciso ter cuidado para aprender com ela: os sucessos de sua fase de boom devem ser lembrados e apreciados, mas seu excesso de entusiasmo deve ser visto com pelo menos algum ceticismo para evitar as penalidades totais da fase de busto. No entanto, como a maioria dos ciclos de hype, “brotos verdes” começam a aparecer novamente em meados dos anos 80 e houve um ressurgimento gradual da pesquisa de IA durante 1983 e 2010; discutiremos estes e outros desenvolvimentos relacionados em nosso próximo artigo, “Ressurgimento da Inteligência Artificial Durante 1983-2010” .

Referências para todos os artigos desta série podem ser encontradas em www.scryanalytics.com/bibliography

Informações adicionais sobre a história da IA podem ser encontradas em:

McCorduck, Pamela (2004), Machines Who Think (2ª ed.), Natick, MA: A. K. Peters, Ltd. ISBN 1-56881-205-1, OCLC 52197627.

Crevier Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence (A Tumultuosa Busca por Inteligência Artificial). Nova York, NY: Basic Books [Livros Básicos]. ISBN 0-465-02997-3.

Russell Stuart; Norvig, Peter (2003). Inteligência Artificial: Uma Abordagem Moderna. Londres, Inglaterra: Pearson Education. ISBN 0-137-90395-2.

Bio: Dr. Alok Aggarwal, é CEO e Cientista Chefe de Dados da Scry Analytics, Inc., EUA. Ele esteve anteriormente na IBM Research Yorktown Heights, fundou o IBM India Research Lab, e foi fundador e CEO da Evalueserve, que empregou mais de 3.000 pessoas em todo o mundo. Em 2014 ele iniciou a Scry Analytics.

Original. Reposta com permissão.

Relacionada

Deep Learning – Past, Present, and Future
A Brief History of Artificial Intelligence
Industry Predictions: Principais IA, Grandes Dados, Desenvolvimentos da Ciência dos Dados em 2017 e Tendências para 2018

KDnuggets

Deixe uma resposta Cancelar resposta