KDnuggets

Par Alok Aggarwal, Scry Analytics.

Chaque décennie semble avoir ses mots à la mode en matière de technologie : nous avons eu les ordinateurs personnels dans les années 1980 ; Internet et le web mondial dans les années 1990 ; les smartphones et les médias sociaux dans les années 2000 ; et l’intelligence artificielle (IA) et l’apprentissage automatique dans cette décennie. Cependant, le domaine de l’IA a 67 ans et ceci est le premier d’une série de cinq articles dans lesquels :

  1. Cet article aborde la genèse de l’IA et le premier cycle de hype au cours de 1950 et 1982
  2. Le deuxième article aborde une résurgence de l’IA et ses réalisations au cours de 1983-.2010
  3. Le troisième article traite des domaines dans lesquels les systèmes d’IA rivalisent déjà avec les humains
  4. Le quatrième article traite du cycle de hype actuel de l’intelligence artificielle
  5. Le cinquième article traite de ce que 2018-2035 peut présager pour les cerveaux, les esprits et les machines

Introduction

Alors que l’intelligence artificielle (IA) fait partie des sujets les plus populaires aujourd’hui, un fait communément oublié est qu’elle est en fait née en 1950 et a connu un cycle de hype entre 1956 et 1982. L’objectif de cet article est de mettre en lumière certaines des réalisations qui ont eu lieu pendant la phase d’expansion de ce cycle et d’expliquer ce qui a conduit à sa phase d’effondrement. Les leçons à tirer de ce cycle d’emballement ne doivent pas être négligées – ses succès ont formé les archétypes des algorithmes d’apprentissage automatique utilisés aujourd’hui, et ses défauts ont indiqué les dangers d’un enthousiasme excessif dans des domaines de recherche et de développement prometteurs.

La question pionnière

Bien que les premiers ordinateurs aient été développés pendant la Seconde Guerre mondiale , ce qui a semblé véritablement déclencher le domaine de l’IA est une question proposée par Alan Turing en 1950 : une machine peut-elle imiter l’intelligence humaine ? Dans son article fondateur, « Computing Machinery and Intelligence », il a formulé un jeu, appelé jeu d’imitation, dans lequel un humain, un ordinateur et un interrogateur (humain) se trouvent dans trois pièces différentes. Le but de l’interrogateur est de distinguer l’humain de l’ordinateur en leur posant une série de questions et en lisant leurs réponses dactylographiées ; le but de l’ordinateur est de convaincre l’interrogateur qu’il s’agit de l’humain . Dans une interview à la BBC en 1952, Turing a suggéré que, d’ici l’an 2000, l’interrogateur moyen aurait moins de 70 % de chances d’identifier correctement l’humain après une session de cinq minutes .

Turing n’a pas été le seul à se demander si une machine pouvait modéliser la vie intelligente. En 1951, Marvin Minsky, un étudiant diplômé inspiré par des recherches antérieures en neurosciences indiquant que le cerveau était composé d’un réseau électrique de neurones tirant avec des impulsions tout ou rien, a tenté de modéliser informatiquement le comportement d’un rat. En collaboration avec Dean Edmonds, étudiant diplômé en physique, il a construit la première machine à réseau neuronal appelée Stochastic Neural Analogy Reinforcement Computer (SNARC). Bien que primitif (composé d’environ 300 tubes à vide et moteurs), il a réussi à modéliser le comportement d’un rat dans un petit labyrinthe à la recherche de nourriture .

L’idée qu’il serait possible de créer une machine intelligente était en effet séduisante, et elle a conduit à plusieurs développements ultérieurs. Par exemple, Arthur Samuel a construit un programme de jeu de dames en 1952 qui était le premier programme d’auto-apprentissage au monde . Plus tard, en 1955, Newell, Simon et Shaw ont construit Logic Theorist, qui était le premier programme à imiter les compétences de résolution de problèmes d’un humain et qui finirait par prouver 38 des 52 premiers théorèmes des Principia Mathematica de Whitehead et Russell .

Le début de la phase d’essor

Inspiré par ces succès, le jeune professeur de Dartmouth John McCarthy organise une conférence en 1956 pour réunir vingt chercheurs pionniers et, « explorer les moyens de fabriquer une machine qui pourrait raisonner comme un humain, était capable de pensée abstraite, de résolution de problèmes et d’auto-amélioration » . C’est dans sa proposition de 1955 pour cette conférence que le terme, « intelligence artificielle », a été inventé et c’est à cette conférence que l’IA a acquis sa vision, sa mission et son battage médiatique.

Les chercheurs ont rapidement commencé à faire des déclarations audacieuses sur l’embryon d’une puissante intelligence de machine, et beaucoup ont prévu qu’une machine aussi intelligente qu’un humain existerait dans pas plus d’une génération . Par exemple :

  • En 1958, Simon et Newell ont déclaré : « dans dix ans, un ordinateur numérique sera le champion du monde d’échecs », et, « dans dix ans, un ordinateur numérique découvrira et prouvera un nouveau théorème mathématique important ».
  • En 1961, Minsky a écrit, « au cours de notre vie, les machines peuvent nous dépasser en intelligence générale », et en 1967, il a réitéré, « dans une génération, je suis convaincu, peu de compartiments de l’intellect resteront en dehors du domaine de la machine – le problème de la création de « l’intelligence artificielle » sera substantiellement résolu » .

« …au cours de notre vie, les machines peuvent nous dépasser en intelligence générale… » – Marvin Minsky, 1961

L’IA avait même attiré l’attention d’Hollywood. En 1968, Arthur Clarke et Stanley Kubrick ont produit le film 2001 : L’Odyssée de l’espace, dont l’antagoniste était un ordinateur artificiellement intelligent, HAL 9000, faisant preuve de créativité, d’un sens de l’humour et de la capacité de comploter contre quiconque menaçait sa survie. Ceci était basé sur la croyance de Turing, Minsky, McCarthy et bien d’autres qu’une telle machine existerait en l’an 2000 ; en fait, Minsky a servi de conseiller pour ce film et l’un de ses personnages, Victor Kaminski, a été nommé en son honneur.

Des sous-domaines de l’IA sont nés

Entre 1956 et 1982, l’enthousiasme ininterrompu dans l’IA a conduit à des travaux séminaux, qui ont donné naissance à plusieurs sous-domaines de l’IA qui sont expliqués ci-dessous. Une grande partie de ces travaux a conduit aux premiers prototypes de la théorie moderne de l’IA.

Systèmes basés sur des règles

Les systèmes experts basés sur des règles tentent de résoudre des problèmes complexes en mettant en œuvre des séries de règles « si-ens-else ». Un avantage de ces systèmes est que leurs instructions (ce que le programme doit faire lorsqu’il voit « if » ou « else ») sont flexibles et peuvent être modifiées soit par le codeur, l’utilisateur ou le programme lui-même. De tels systèmes experts ont été créés et utilisés dans les années 1970 par Feigenbaum et ses collègues , et beaucoup d’entre eux constituent les blocs de base des systèmes d’IA aujourd’hui.

Apprentissage automatique

Le domaine de l’apprentissage automatique a été inventé par Arthur Samuel en 1959 comme, « le domaine d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmé » . L’apprentissage automatique est un vaste domaine et son explication détaillée dépasse le cadre de cet article. Le deuxième article de cette série – voir Prologue sur la première page et – abordera brièvement ses sous-domaines et ses applications. Cependant, nous donnons ci-dessous un exemple de programme d’apprentissage automatique, connu sous le nom de réseau perceptron.

« L’apprentissage automatique est le domaine d’étude qui donne aux ordinateurs la capacité d’apprendre sans être explicitement programmés » – Arthur Samuel, 1959

Réseaux de perceptron à une et plusieurs couches

Inspiré par les travaux de McCulloch et Pitts en 1943 et de Hebb en 1949 , Rosenblatt en 1957 a introduit le réseau de perceptron comme modèle artificiel de neurones communicants . Ce modèle est illustré à la figure 5 et peut être brièvement décrit comme suit. Une couche de sommets, où les variables d’entrée sont introduites, est connectée à une couche cachée de sommets (également appelée perceptrons), qui est à son tour connectée à une couche de sortie de perceptrons. Un signal provenant d’une connexion entre un sommet d’entrée et un perceptron de la couche cachée est calibré par un « poids » associé à cette connexion, et ce poids est attribué au cours d’un « processus d’apprentissage ». Les signaux des perceptrons de la couche cachée vers les perceptrons de la couche de sortie sont calibrés de manière analogue. Comme un neurone humain, un perceptron « se déclenche » si le poids total de tous les signaux entrants dépasse un potentiel spécifié. Toutefois, contrairement aux humains, les signaux dans ce modèle sont uniquement transmis vers la couche de sortie, ce qui explique pourquoi ces réseaux sont souvent appelés « feed-forward ». Les réseaux de perceptrons ne comportant qu’une seule couche cachée de perceptrons (c’est-à-dire avec deux couches de connexions de bords pondérées) ont par la suite été appelés réseaux de neurones artificiels « peu profonds ». Bien que les réseaux peu profonds aient été limités en puissance, Rosenblatt a réussi à créer un réseau de perceptrons à une couche, qu’il a appelé créé Mark 1, qui était capable de reconnaître des images de base .

Aujourd’hui, l’excitation porte sur les réseaux neuronaux « profonds » (deux couches cachées ou plus), qui ont également été étudiés dans les années 1960. En effet, le premier algorithme d’apprentissage général pour les réseaux profonds remonte aux travaux d’Ivakhnenko et Lapa en 1965 . Des réseaux aussi profonds que huit couches ont été envisagés par Ivakhnenko en 1971, année où il a également fourni une technique pour les entraîner.

Traitement du langage naturel (NLP)

En 1957, Chomsky a révolutionné la linguistique avec la grammaire universelle, un système basé sur des règles pour comprendre la syntaxe . Cela a formé le premier modèle que les chercheurs pouvaient utiliser pour créer des systèmes NLP réussis dans les années 1960, y compris SHRDLU, un programme qui travaillait avec de petits vocabulaires et était partiellement capable de comprendre des documents textuels dans des domaines spécifiques . Au début des années 1970, les chercheurs ont commencé à écrire des ontologies conceptuelles, qui sont des structures de données permettant aux ordinateurs d’interpréter les relations entre les mots, les phrases et les concepts ; ces ontologies restent largement utilisées aujourd’hui .

Reconnaissance du locuteur et traitement de la parole en texte

La question de savoir si un ordinateur pouvait reconnaître la parole a été proposée pour la première fois par un groupe de trois chercheurs des AT&T Bell Labs en 1952, lorsqu’ils ont construit un système de reconnaissance de chiffres isolés pour un seul locuteur . Ce système a été grandement amélioré à la fin des années 1960, lorsque Reddy a créé le Hearsay I, un programme dont la précision était faible mais qui était l’un des premiers à convertir en texte un discours continu de grand vocabulaire. En 1975, ses étudiants Baker et Baker ont créé le système Dragon, qui a encore amélioré Hearsay I en utilisant le modèle de Markov caché (HMM), un modèle probabiliste unifié qui leur a permis de combiner diverses sources telles que l’acoustique, la langue et la syntaxe. Aujourd’hui, le HMM reste un cadre efficace pour la reconnaissance vocale .

Traitement d’images et vision par ordinateur

À l’été 1966, Minsky engagea un étudiant de première année de premier cycle au MIT et lui demanda de résoudre le problème suivant : connecter une caméra de télévision à un ordinateur et faire en sorte que la machine décrive ce qu’elle voit . L’objectif était d’extraire la structure tridimensionnelle des images, permettant ainsi aux systèmes sensoriels robotiques d’imiter partiellement le système visuel humain. La recherche en vision par ordinateur au début des années 1970 a formé la base de nombreux algorithmes qui existent aujourd’hui, y compris l’extraction des bords des images, l’étiquetage des lignes et des cercles, et l’estimation du mouvement dans les vidéos .

Applications commerciales

Les avancées théoriques ci-dessus ont conduit à plusieurs applications, dont la plupart n’ont pas été utilisées dans la pratique à l’époque, mais ont préparé le terrain pour que leurs dérivés soient utilisés commercialement plus tard. Certaines de ces applications sont discutées ci-dessous.

Chatterbots ou robots conversationnels

Entre 1964 et 1966, Weizenbaum a créé le premier robot conversationnel, ELIZA, nommé d’après Eliza Doolittle à qui l’on a appris à parler correctement dans le roman de Bernard Shaw, Pygmalion (adapté plus tard dans le film, My Fair Lady). ELIZA pouvait tenir des conversations qui pouvaient parfois faire croire aux utilisateurs qu’ils communiquaient avec un être humain mais, en fait, ELIZA ne donnait que des réponses standard qui étaient souvent dénuées de sens . Plus tard, en 1972, le chercheur en médecine Colby a créé un chatbot « paranoïaque », PARRY, qui était également un programme sans queue ni tête. Pourtant, dans de courts jeux d’imitation, les psychiatres étaient incapables de distinguer les divagations de PARRY de celles d’un humain paranoïaque .

Robotique

En 1954, Devol a construit le premier robot programmable appelé, Unimate, qui était l’une des rares inventions de l’IA de son époque à être commercialisée ; il a été acheté par General Motors en 1961 pour être utilisé dans les chaînes de montage automobile . En 1972, des chercheurs de l’université de Waseda ont construit le premier robot humanoïde intelligent à grande échelle, le WABOT-1, en améliorant considérablement Unimate. Bien qu’il s’agisse presque d’un jouet, son système de membres lui permet de marcher, de saisir et de transporter des objets avec les mains ; son système de vision (composé d’yeux et d’oreilles artificiels) lui permet de mesurer les distances et les directions des objets ; et sa bouche artificielle lui permet de converser en japonais . Cela a progressivement conduit à des travaux innovants dans le domaine de la vision artificielle, notamment la création de robots capables d’empiler des blocs .

La phase d’effondrement et l’hiver de l’IA

Malgré quelques succès, en 1975, les programmes d’IA étaient largement limités à la résolution de problèmes rudimentaires. Avec le recul, les chercheurs se sont rendu compte de deux problèmes fondamentaux dans leur approche.

Puissance de calcul limitée et coûteuse

En 1976, le superordinateur le plus rapide du monde (qui aurait coûté plus de cinq millions de dollars US) n’était capable d’exécuter qu’environ 100 millions d’instructions par seconde . En revanche, l’étude de Moravec de 1976 indiquait que même les seules capacités de correspondance des bords et de détection des mouvements d’une rétine humaine nécessiteraient un ordinateur pour exécuter ces instructions dix fois plus rapidement . De même, un humain possède environ 86 milliards de neurones et un trillion de synapses ; des calculs de base utilisant les chiffres fournis dans indiquent que la création d’un réseau perceptron de cette taille aurait coûté plus de 1,6 trillion USD, consommant la totalité du PIB américain en 1974.

Le mystère derrière la pensée humaine

Les scientifiques ne comprenaient pas le fonctionnement du cerveau humain et restaient particulièrement ignorants des mécanismes neurologiques derrière la créativité, le raisonnement et l’humour. Le fait de ne pas comprendre ce que précisément les programmes d’apprentissage automatique devraient essayer d’imiter constituait un obstacle important pour faire avancer la théorie de l’intelligence artificielle. En fait, dans les années 1970, des scientifiques d’autres domaines ont même commencé à remettre en question la notion d' »imitation du cerveau humain » proposée par les chercheurs en IA. Par exemple, certains ont fait valoir que si les symboles n’ont pas de « signification » pour la machine, alors la machine ne peut pas être décrite comme « pensant ».

En fin de compte, il est devenu évident pour les pionniers qu’ils avaient largement sous-estimé la difficulté de créer un ordinateur IA capable de gagner le jeu de l’imitation. Par exemple, en 1969, Minsky et Papert ont publié le livre Perceptrons , dans lequel ils ont indiqué les graves limites du perceptron à une couche cachée de Rosenblatt. Coécrit par l’un des fondateurs de l’intelligence artificielle tout en attestant des lacunes des perceptrons, ce livre a servi de frein sérieux à la recherche sur les réseaux neuronaux pendant près d’une décennie .

Dans les années suivantes, d’autres chercheurs ont commencé à partager les doutes de Minsky sur l’avenir naissant de l’IA forte. Par exemple, dans une conférence de 1977, un John McCarthy désormais beaucoup plus circonspect a noté que la création d’une telle machine nécessiterait des  » percées conceptuelles « , car  » ce que vous voulez, c’est 1,7 Einstein et 0,3 du projet Manhattan, et vous voulez les Einstein d’abord. Je crois que cela prendra cinq à 500 ans’ .

Le battage médiatique des années 1950 avait porté les attentes à des hauteurs si audacieuses que, lorsque les résultats ne se sont pas matérialisés en 1973, les gouvernements américain et britannique ont retiré le financement de la recherche en IA . Bien que le gouvernement japonais ait temporairement fourni un financement supplémentaire en 1980, il a rapidement perdu ses illusions à la fin des années 1980 et a de nouveau retiré ses investissements. Cette phase d’effondrement (en particulier entre 1974 et 1982) est communément appelée « l’hiver de l’IA », car c’est à ce moment-là que la recherche en intelligence artificielle a presque complètement cessé. En effet, pendant cette période et les années suivantes,  » certains informaticiens et ingénieurs logiciels éviteront le terme d’intelligence artificielle de peur d’être considérés comme des rêveurs fous  » .

« …parce que ce que vous voulez, c’est 1,7 Einsteins et 0,3 du projet Manhattan, et vous voulez les Einsteins en premier. Je crois que cela prendra de 5 à 500 ans. » – John McCarthy, 1977

L’attitude dominante pendant la période 1974-1982 a été très malheureuse, car les quelques avancées substantielles qui ont eu lieu pendant cette période sont essentiellement passées inaperçues, et des efforts importants ont été entrepris pour les recréer. Deux de ces avancées sont les suivantes :

La première est la technique de rétropropagation, qui est couramment utilisée aujourd’hui pour entraîner efficacement les réseaux neuronaux à affecter des poids quasi-optimaux à leurs arêtes. Bien qu’elle ait été introduite par plusieurs chercheurs indépendamment (par exemple, Kelley, Bryson, Dreyfus et Ho) dans les années 1960 et mise en œuvre par Linnainmaa en 1970 , elle a été principalement ignorée. De même, la thèse de Werbos (1974), qui proposait d’utiliser efficacement cette technique pour former des réseaux de neurones, n’a été publiée qu’en 1982, alors que la phase d’essor touchait à sa fin. En 1986, cette technique a été redécouverte par Rumelhart, Hinton et Williams, qui l’ont popularisée en montrant son importance pratique .
La seconde est le réseau neuronal récurrent (RNN), qui est analogue au réseau perceptron de Rosenblatt qui n’est pas feed-forward car il permet aux connexions d’aller vers les couches d’entrée et de sortie. Ces réseaux ont été proposés par Little en 1974 comme un modèle du cerveau plus précis sur le plan biologique. Malheureusement, les RNN sont passés inaperçus jusqu’à ce que Hopfield les popularise en 1982 et les améliore encore .

Conclusion

Les caractéristiques déterminantes d’un cycle de hype sont une phase de boom, lorsque les chercheurs, les développeurs et les investisseurs deviennent excessivement optimistes et qu’une énorme croissance a lieu, et une phase de bust, lorsque les investissements sont retirés et que la croissance diminue considérablement. D’après l’histoire présentée dans cet article, nous pouvons voir que l’IA a traversé un tel cycle entre 1956 et 1982.

Née de la vision de Turing et de Minsky selon laquelle une machine pourrait imiter la vie intelligente, l’IA a reçu son nom, sa mission et son battage médiatique de la conférence organisée par McCarthy à l’université de Dartmouth en 1956. Cette conférence a marqué le début de la phase d’expansion du cycle de l’IA. Entre 1956 et 1973, de nombreuses avancées théoriques et pratiques pénétrantes ont été découvertes dans le domaine de l’IA, notamment les systèmes à base de règles, les réseaux neuronaux superficiels et profonds, le traitement du langage naturel, le traitement de la parole et la reconnaissance des images. Les réalisations qui ont eu lieu pendant cette période ont formé les archétypes initiaux des systèmes d’IA actuels.

Ce qui a également eu lieu pendant cette phase d’essor, c’est « l’exubérance irrationnelle » . Les pionniers de l’IA n’ont pas hésité à faire des prédictions exagérées sur l’avenir de machines artificiellement intelligentes et fortes. En 1974, ces prédictions ne se sont pas réalisées, et les chercheurs ont réalisé que leurs promesses avaient été gonflées. À ce stade, les investisseurs sont également devenus sceptiques et ont retiré leur financement. Il s’ensuit une phase d’effondrement, également appelée l’hiver de l’IA, au cours de laquelle la recherche sur l’IA est ralentie et le terme même d' »intelligence artificielle » est rejeté. La plupart des quelques inventions de cette période, comme la rétropropagation et les réseaux neuronaux récurrents, ont été largement oubliées, et des efforts substantiels ont été déployés pour les redécouvrir au cours des décennies suivantes.

En général, les cycles de hype sont des épées à double tranchant, et celui qu’a connu l’IA entre 1956 et 1982 n’était pas différent. Il faut veiller à en tirer les leçons : les succès de sa phase d’essor doivent être rappelés et appréciés, mais son excès d’enthousiasme doit être considéré avec au moins un certain scepticisme pour éviter de subir de plein fouet la phase d’effondrement. Cependant, comme la plupart des cycles de hype, les « pousses vertes » commencent à apparaître à nouveau au milieu des années 1980 et il y a eu une résurgence progressive de la recherche sur l’IA entre 1983 et 2010 ; nous discuterons de ces développements et des développements connexes dans notre prochain article, « Résurgence de l’intelligence artificielle pendant 1983-2010 » .

Les références de tous les articles de cette série se trouvent sur le site www.scryanalytics.com/bibliography

Des informations supplémentaires sur l’histoire de l’IA peuvent être trouvées dans :

McCorduck, Pamela (2004), Machines Who Think (2e éd.), Natick, MA : A. K. Peters, Ltd. ISBN 1-56881-205-1, OCLC 52197627.

Crevier Daniel (1993). AI : la recherche tumultueuse de l’intelligence artificielle. New York, NY : Basic Books. ISBN 0-465-02997-3.

Russell Stuart ; Norvig, Peter (2003). L’intelligence artificielle : A Modern Approach. Londres, Angleterre : Pearson Education. ISBN 0-137-90395-2.

Bio : Dr. Alok Aggarwal, est PDG et scientifique en chef des données chez Scry Analytics, Inc. Il était auparavant chez IBM Research Yorktown Heights, a fondé IBM India Research Lab, et a été fondateur et PDG d’Evalueserve qui employait plus de 3 000 personnes dans le monde. En 2014, il a lancé Scry Analytics.

Original. Reposé avec permission.

Relié

  • Deep Learning – Passé, présent et futur
  • Une brève histoire de l’intelligence artificielle
  • Prédictions de l’industrie : Principaux développements de l’IA, du big data, de la science des données en 2017 et tendances pour 2018

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.