Cada década parece tener sus palabras de moda tecnológicas: tuvimos ordenadores personales en los años 80; Internet y la web mundial en los 90; teléfonos inteligentes y medios sociales en los 2000; y la Inteligencia Artificial (IA) y el Aprendizaje Automático en esta década. Sin embargo, el campo de la IA tiene 67 años y este es el primero de una serie de cinco artículos en los que:
- Este artículo analiza la génesis de la IA y el primer ciclo de hype durante 1950 y 1982
- El segundo artículo analiza un resurgimiento de la IA y sus logros durante 1983-2010
- El tercer artículo analiza los ámbitos en los que los sistemas de IA ya rivalizan con los humanos
- El cuarto artículo analiza el actual ciclo de exageración de la Inteligencia Artificial
- El quinto artículo analiza lo que 2018-2035 puede presagiar para los cerebros, mentes y máquinas
Introducción
Aunque la inteligencia artificial (IA) se encuentra entre los temas más populares de la actualidad, un hecho comúnmente olvidado es que en realidad nació en 1950 y pasó por un ciclo de hype entre 1956 y 1982. El propósito de este artículo es destacar algunos de los logros que tuvieron lugar durante la fase de auge de este ciclo y explicar lo que condujo a su fase de caída. No hay que pasar por alto las lecciones que se desprenden de este ciclo: sus éxitos constituyeron los arquetipos de los algoritmos de aprendizaje automático que se utilizan hoy en día, y sus deficiencias indicaron los peligros del exceso de entusiasmo en campos prometedores de la investigación y el desarrollo.
La pregunta pionera
Aunque los primeros ordenadores se desarrollaron durante la Segunda Guerra Mundial, lo que pareció desencadenar realmente el campo de la IA fue una pregunta propuesta por Alan Turing en 1950: ¿puede una máquina imitar la inteligencia humana? En su artículo seminal, «Computing Machinery and Intelligence», formuló un juego, llamado juego de imitación, en el que un humano, un ordenador y un interrogador (humano) se encuentran en tres habitaciones diferentes. El objetivo del interrogador es distinguir al humano del ordenador haciéndole una serie de preguntas y leyendo sus respuestas mecanografiadas; el objetivo del ordenador es convencer al interrogador de que es el humano. En una entrevista con la BBC en 1952, Turing sugirió que, en el año 2000, el interrogador medio tendría menos de un 70% de posibilidades de identificar correctamente al humano tras una sesión de cinco minutos.
Turing no fue el único que se preguntó si una máquina podría modelar la vida inteligente. En 1951, Marvin Minsky, un estudiante de posgrado inspirado por investigaciones anteriores de neurociencia que indicaban que el cerebro estaba compuesto por una red eléctrica de neuronas que disparaban con pulsos de todo o nada, intentó modelar computacionalmente el comportamiento de una rata. En colaboración con el estudiante de física Dean Edmonds, construyó la primera máquina de red neuronal llamada Stochastic Neural Analogy Reinforcement Computer (SNARC) . Aunque era primitivo (consistía en unos 300 tubos de vacío y motores), logró modelar el comportamiento de una rata en un pequeño laberinto en busca de comida.
La idea de que podría ser posible crear una máquina inteligente era realmente atractiva, y condujo a varios desarrollos posteriores. Por ejemplo, Arthur Samuel construyó en 1952 un programa para jugar a las damas que fue el primer programa de autoaprendizaje del mundo. Más tarde, en 1955, Newell, Simon y Shaw construyeron Logic Theorist, que fue el primer programa que imitaba las habilidades de resolución de problemas de un ser humano y que acabaría demostrando 38 de los primeros 52 teoremas de los Principia Mathematica de Whitehead y Russell .
El comienzo de la fase de auge
Inspirado por estos éxitos, el joven profesor de Dartmouth John McCarthy organizó una conferencia en 1956 para reunir a veinte investigadores pioneros y, «explorar formas de hacer una máquina que pudiera razonar como un humano, que fuera capaz de pensar de forma abstracta, de resolver problemas y de superarse a sí misma» . Fue en su propuesta de 1955 para esta conferencia donde se acuñó el término «inteligencia artificial» y fue en esta conferencia donde la IA adquirió su visión, misión y bombo.
Los investigadores pronto empezaron a hacer afirmaciones audaces sobre la incipiencia de una poderosa inteligencia de máquina, y muchos anticiparon que una máquina tan inteligente como un humano existiría en no más de una generación . Por ejemplo:
- En 1958, Simon y Newell dijeron que «dentro de diez años un ordenador digital será el campeón mundial de ajedrez» y que «dentro de diez años un ordenador digital descubrirá y demostrará un nuevo e importante teorema matemático».
- En 1961, Minsky escribió, «dentro de nuestra vida las máquinas pueden superarnos en inteligencia general», y en 1967 reiteró, «dentro de una generación, estoy convencido, pocos compartimentos del intelecto quedarán fuera del ámbito de la máquina – el problema de crear «inteligencia artificial» estará sustancialmente resuelto» .
«…dentro de nuestra vida las máquinas pueden superarnos en inteligencia general…» – Marvin Minsky, 1961
La IA había llamado incluso la atención de Hollywood. En 1968, Arthur Clarke y Stanley Kubrick produjeron la película 2001: Una odisea del espacio, cuyo antagonista era un ordenador artificialmente inteligente, HAL 9000, que exhibía creatividad, sentido del humor y la capacidad de conspirar contra cualquiera que amenazara su supervivencia. Esto se basaba en la creencia de Turing, Minsky, McCarthy y muchos otros de que tal máquina existiría en el año 2000; de hecho, Minsky sirvió como asesor para esta película y uno de sus personajes, Victor Kaminski, fue nombrado en su honor.
Nacen los subcampos de la IA
Entre 1956 y 1982, el incesante entusiasmo en la IA condujo a trabajos seminales, que dieron origen a varios subcampos de la IA que se explican a continuación. Gran parte de este trabajo condujo a los primeros prototipos de la teoría moderna de la IA.
Sistemas basados en reglas
Los sistemas expertos basados en reglas tratan de resolver problemas complejos mediante la implementación de series de reglas «si-entonces-si». Una de las ventajas de estos sistemas es que sus instrucciones (lo que el programa debe hacer cuando ve «si» o «si no») son flexibles y pueden ser modificadas por el codificador, el usuario o el propio programa. Estos sistemas expertos fueron creados y utilizados en la década de 1970 por Feigenbaum y sus colegas, y muchos de ellos constituyen los cimientos de los sistemas de IA actuales.
Aprendizaje automático
El campo del aprendizaje automático fue acuñado por Arthur Samuel en 1959 como «el campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados explícitamente». El aprendizaje automático es un campo muy amplio y su explicación detallada queda fuera del alcance de este artículo. El segundo artículo de esta serie -véase el Prólogo en la primera página y- tratará brevemente sus subcampos y aplicaciones. Sin embargo, a continuación damos un ejemplo de un programa de aprendizaje automático, conocido como red perceptrón.
«El aprendizaje automático es el campo de estudio que da a los ordenadores la capacidad de aprender sin ser programados explícitamente» – Arthur Samuel, 1959
Redes de perceptrón de una y varias capas
Inspirado en el trabajo de McCulloch y Pitts en 1943 y de Hebb en 1949 , Rosenblatt en 1957 introdujo la red de perceptrón como un modelo artificial de neuronas comunicantes . Este modelo se muestra en la figura 5 y puede describirse brevemente como sigue. Una capa de vértices, en la que se introducen las variables de entrada, está conectada a una capa oculta de vértices (también llamados perceptrones), que a su vez está conectada a una capa de salida de perceptrones. Una señal que llega a través de una conexión desde un vértice de entrada a un perceptrón de la capa oculta se calibra mediante un «peso» asociado a esa conexión, y este peso se asigna durante un «proceso de aprendizaje». Las señales de los perceptrones de la capa oculta a los de la capa de salida se calibran de forma análoga. Al igual que una neurona humana, un perceptrón se «dispara» si el peso total de todas las señales entrantes supera un potencial determinado. Sin embargo, a diferencia de los humanos, en este modelo las señales sólo se transmiten hacia la capa de salida, por lo que estas redes suelen llamarse «feed-forward». Las redes de perceptrones con una sola capa oculta de perceptrones (es decir, con dos capas de conexiones de borde ponderadas) se conocieron posteriormente como redes neuronales artificiales «poco profundas». Aunque las redes poco profundas tenían una potencia limitada, Rosenblatt consiguió crear una red de perceptrones de una capa, a la que denominó Mark 1, que era capaz de reconocer imágenes básicas.
Hoy en día, el entusiasmo se centra en las redes neuronales «profundas» (de dos o más capas ocultas), que también se estudiaron en la década de 1960. De hecho, el primer algoritmo de aprendizaje general para redes profundas se remonta al trabajo de Ivakhnenko y Lapa en 1965 . Ivakhnenko estudió las redes profundas de hasta ocho capas en 1971, cuando también proporcionó una técnica para entrenarlas.
Procesamiento del Lenguaje Natural (PLN)
En 1957 Chomsky revolucionó la lingüística con la gramática universal, un sistema basado en reglas para entender la sintaxis . Esto constituyó el primer modelo que los investigadores pudieron utilizar para crear sistemas de PNL exitosos en la década de 1960, incluyendo SHRDLU, un programa que trabajaba con pequeños vocabularios y era parcialmente capaz de entender documentos textuales en dominios específicos . A principios de la década de 1970, los investigadores empezaron a escribir ontologías conceptuales, que son estructuras de datos que permiten a los ordenadores interpretar las relaciones entre palabras, frases y conceptos; estas ontologías siguen utilizándose ampliamente en la actualidad.
Reconocimiento de hablantes y procesamiento de voz a texto
La cuestión de si un ordenador podía reconocer el habla fue propuesta por primera vez por un grupo de tres investigadores de AT&T Bell Labs en 1952, cuando construyeron un sistema de reconocimiento de dígitos aislados para un solo hablante . Este sistema se mejoró enormemente a finales de la década de 1960, cuando Reddy creó el Hearsay I, un programa de baja precisión pero que fue uno de los primeros en convertir en texto el habla continua de gran vocabulario. En 1975, sus alumnos Baker y Baker crearon el sistema Dragon , que mejoró aún más el Hearsay I al utilizar el Modelo de Markov Oculto (HMM), un modelo probabilístico unificado que permitía combinar varias fuentes como la acústica, el lenguaje y la sintaxis. Hoy en día, el HMM sigue siendo un marco eficaz para el reconocimiento del habla .
Procesamiento de imágenes y visión por ordenador
En el verano de 1966, Minsky contrató a un estudiante de primer año del MIT y le pidió que resolviera el siguiente problema: conectar una cámara de televisión a un ordenador y conseguir que la máquina describiera lo que veía . El objetivo era extraer la estructura tridimensional de las imágenes, permitiendo así que los sistemas sensoriales robóticos imitaran parcialmente el sistema visual humano. La investigación en visión por ordenador a principios de la década de 1970 sentó las bases de muchos algoritmos que existen en la actualidad, como la extracción de bordes de las imágenes, el etiquetado de líneas y círculos y la estimación del movimiento en los vídeos.
Aplicaciones comerciales
Los avances teóricos mencionados dieron lugar a varias aplicaciones, la mayoría de las cuales no llegaron a utilizarse en la práctica en aquel momento, pero sentaron las bases para que sus derivados se utilizaran comercialmente más adelante. Algunas de estas aplicaciones se comentan a continuación.
Chatterbots o Chat-Bots
Entre 1964 y 1966, Weizenbaum creó el primer chat-bot, ELIZA, llamado así por Eliza Doolittle, a quien se le enseñó a hablar correctamente en la novela de Bernard Shaw, Pigmalión (adaptada posteriormente en la película, My Fair Lady). ELIZA podía mantener conversaciones que a veces engañaban a los usuarios haciéndoles creer que se estaban comunicando con un humano pero, en realidad, ELIZA sólo daba respuestas estándar que a menudo carecían de sentido. Más tarde, en 1972, el investigador médico Colby creó un chatbot «paranoico», PARRY, que también era un programa sin sentido. Sin embargo, en breves juegos de imitación, los psiquiatras fueron incapaces de distinguir las divagaciones de PARRY de las de un humano paranoico.
Robótica
En 1954, Devol construyó el primer robot programable llamado, Unimate, que fue uno de los pocos inventos de IA de su tiempo que se comercializó; fue comprado por General Motors en 1961 para su uso en las líneas de montaje de automóviles . Mejorando significativamente a Unimate, en 1972, los investigadores de la Universidad de Waseda construyeron el primer robot humanoide inteligente a gran escala del mundo, WABOT-1 . Aunque era casi un juguete, su sistema de extremidades le permitía caminar y agarrar, así como transportar objetos con las manos; su sistema de visión (formado por sus ojos y oídos artificiales) le permitía medir distancias y direcciones de los objetos; y su boca artificial le permitía conversar en japonés . Esto condujo gradualmente a un trabajo innovador en visión artificial, incluyendo la creación de robots que podían apilar bloques.
La fase de reventón y el invierno de la IA
A pesar de algunos éxitos, en 1975 los programas de IA se limitaban en gran medida a resolver problemas rudimentarios. En retrospectiva, los investigadores se dieron cuenta de dos problemas fundamentales de su enfoque.
Potencia de cálculo limitada y costosa
En 1976, el superordenador más rápido del mundo (que habría costado más de cinco millones de dólares) sólo era capaz de realizar unos 100 millones de instrucciones por segundo . Por el contrario, el estudio de Moravec de 1976 indicaba que incluso las capacidades de emparejamiento de bordes y detección de movimiento de una retina humana requerirían que un ordenador ejecutara dichas instrucciones diez veces más rápido . Asimismo, un ser humano tiene unos 86.000 millones de neuronas y un billón de sinapsis; los cálculos básicos realizados con las cifras proporcionadas en indican que la creación de una red de perceptrones de ese tamaño habría costado más de 1,6 billones de dólares, consumiendo todo el PIB de Estados Unidos en 1974.
El misterio del pensamiento humano
Los científicos no entendían cómo funciona el cerebro humano y seguían sin conocer especialmente los mecanismos neurológicos que subyacen a la creatividad, el razonamiento y el humor. La falta de comprensión de lo que precisamente los programas de aprendizaje automático debían tratar de imitar supuso un importante obstáculo para hacer avanzar la teoría de la inteligencia artificial. De hecho, en la década de 1970, científicos de otros campos empezaron incluso a cuestionar la noción de «imitar un cerebro humano» propuesta por los investigadores de la IA. Por ejemplo, algunos argumentaron que si los símbolos no tienen «significado» para la máquina, entonces ésta no puede describirse como «pensante».
Con el tiempo se hizo evidente para los pioneros que habían subestimado enormemente la dificultad de crear un ordenador de IA capaz de ganar el juego de la imitación. Por ejemplo, en 1969, Minsky y Papert publicaron el libro Perceptrones , en el que indicaban las graves limitaciones del perceptrón de una capa oculta de Rosenblatt. Este libro, del que era coautor uno de los fundadores de la inteligencia artificial a la vez que daba fe de las deficiencias de los perceptrones, sirvió de serio freno a la investigación en redes neuronales durante casi una década.
En los años siguientes, otros investigadores empezaron a compartir las dudas de Minsky sobre el incipiente futuro de la IA fuerte. Por ejemplo, en una conferencia de 1977, un ahora mucho más circunspecto John McCarthy señaló que crear una máquina de este tipo requeriría «avances conceptuales», porque «lo que se quiere es 1,7 Einsteins y 0,3 del Proyecto Manhattan, y se quiere primero a los Einsteins. Creo que se necesitarán de cinco a 500 años’.
El bombo de los años 50 había elevado las expectativas a cotas tan audaces que, cuando los resultados no se materializaron en 1973, los gobiernos estadounidense y británico retiraron la financiación de la investigación en IA . Aunque el gobierno japonés proporcionó temporalmente fondos adicionales en 1980, se desilusionó rápidamente a finales de los 80 y volvió a retirar sus inversiones. Esta fase de crisis (especialmente entre 1974 y 1982) se conoce como el «invierno de la IA», ya que fue cuando la investigación en inteligencia artificial se detuvo casi por completo. De hecho, durante esta época y los años posteriores, «algunos informáticos e ingenieros de software evitaban el término inteligencia artificial por miedo a ser vistos como soñadores con ojos salvajes».
«…porque lo que se quiere es 1,7 Einsteins y 0,3 del Proyecto Manhattan, y se quiere primero a los Einsteins. Creo que se necesitarán de 5 a 500 años». – John McCarthy, 1977
La actitud predominante durante el periodo 1974-1982 fue muy desafortunada, ya que los pocos avances sustanciales que se produjeron durante este periodo pasaron esencialmente desapercibidos, y se realizaron importantes esfuerzos para recrearlos. Dos de estos avances son los siguientes:
El primero es la técnica de retropropagación, que se utiliza comúnmente hoy en día para entrenar eficazmente las redes neuronales en la asignación de pesos casi óptimos a sus aristas. Aunque fue introducida por varios investigadores de forma independiente (por ejemplo, Kelley, Bryson, Dreyfus y Ho) en la década de 1960 e implementada por Linnainmaa en 1970, fue principalmente ignorada. Del mismo modo, la tesis de Werbos de 1974 que proponía que esta técnica podía utilizarse eficazmente para el entrenamiento de redes neuronales no se publicó hasta 1982, cuando la fase de reventón estaba llegando a su fin . En 1986, esta técnica fue redescubierta por Rumelhart, Hinton y Williams, que la popularizaron mostrando su importancia práctica.
La segunda es la red neuronal recurrente (RNN), que es análoga a la red perceptrón de Rosenblatt que no es feed-forward porque permite que las conexiones vayan hacia las capas de entrada y salida. Estas redes fueron propuestas por Little en 1974 como un modelo biológicamente más preciso del cerebro. Lamentablemente, las RNN pasaron desapercibidas hasta que Hopfield las popularizó en 1982 y las mejoró aún más.
Conclusión
Las características que definen un ciclo del hype son una fase de auge, en la que investigadores, desarrolladores e inversores se vuelven excesivamente optimistas y se produce un enorme crecimiento, y una fase de caída, en la que se retiran las inversiones y el crecimiento se reduce sustancialmente. A partir de la historia presentada en este artículo, podemos ver que la IA pasó por un ciclo de este tipo durante 1956 y 1982.
Nacida de la visión de Turing y Minsky de que una máquina podría imitar la vida inteligente, la IA recibió su nombre, su misión y su bombo de la conferencia organizada por McCarthy en la Universidad de Dartmouth en 1956. Esto marcó el inicio de la fase de auge del ciclo de la IA. Entre 1956 y 1973 se descubrieron muchos avances teóricos y prácticos en el campo de la IA, como los sistemas basados en reglas, las redes neuronales superficiales y profundas, el procesamiento del lenguaje natural, el procesamiento del habla y el reconocimiento de imágenes. Los logros que tuvieron lugar durante esta época formaron los arquetipos iniciales de los actuales sistemas de IA.
Lo que también tuvo lugar durante esta fase de auge fue la «exuberancia irracional» . Los pioneros de la IA se apresuraron a hacer predicciones exageradas sobre el futuro de las fuertes máquinas artificialmente inteligentes. En 1974, estas predicciones no se cumplieron y los investigadores se dieron cuenta de que sus promesas habían sido exageradas. Para entonces, los inversores también se habían vuelto escépticos y retiraron la financiación. Esto dio lugar a una fase de decadencia, también llamada el invierno de la IA, en la que la investigación en IA fue lenta e incluso el término «inteligencia artificial» fue despreciado. La mayoría de los pocos inventos de este periodo, como la retropropagación y las redes neuronales recurrentes, pasaron en gran medida desapercibidos, y se invirtió un esfuerzo considerable en redescubrirlos en las décadas posteriores.
En general, los ciclos de exageración son espadas de doble filo, y el que exhibió la IA entre 1956 y 1982 no fue diferente. Hay que tener cuidado de aprender de él: los éxitos de su fase de auge deben ser recordados y apreciados, pero su exceso de entusiasmo debe ser visto al menos con cierto escepticismo para evitar las penalidades de la fase de caída. Sin embargo, como en la mayoría de los ciclos del hype, los «brotes verdes» comienzan a aparecer de nuevo a mediados de la década de 1980 y hubo un resurgimiento gradual de la investigación en IA durante 1983 y 2010; hablaremos de estos y otros desarrollos relacionados en nuestro próximo artículo, «Resurgimiento de la Inteligencia Artificial durante 1983-2010» .
Las referencias de todos los artículos de esta serie pueden encontrarse en www.scryanalytics.com/bibliography
Puede encontrarse información adicional sobre la historia de la IA en:
McCorduck, Pamela (2004), Machines Who Think (2nd ed.), Natick, MA: A. K. Peters, Ltd. ISBN 1-56881-205-1, OCLC 52197627.
Crevier Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence. Nueva York, NY: Basic Books. ISBN 0-465-02997-3.
Russell Stuart; Norvig, Peter (2003). Artificial Intelligence: A Modern Approach. London, England: Pearson Education. ISBN 0-137-90395-2.
Bio: El Dr. Alok Aggarwal, es director general y científico jefe de datos en Scry Analytics, Inc. Anteriormente estuvo en IBM Research Yorktown Heights, fundó el IBM India Research Lab y fue fundador y CEO de Evalueserve, que empleó a más de 3000 personas en todo el mundo. En 2014 fundó Scry Analytics.
Original. Reposted with permission.
Related
- Deep Learning – Past, Present, and Future
- A Brief History of Artificial Intelligence
- Industry Predictions: Principales avances en IA, Big Data y Ciencia de Datos en 2017 y tendencias para 2018