Alineación de la inteligencia artificialEn el campo de la inteligencia artificial, la investigación sobre la alineación o el alineamiento (en inglés, AI alignment) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus diseñadores.[a]Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no está alineado.[b] La alineación de los sistemas de inteligencia artificial incluye los siguientes problemas: la dificultad de especificar completamente todos los comportamientos deseados y no deseados; el uso de objetivos intermedios fáciles de especificar que omiten restricciones deseables; trampas para obtener recompensas, por medio de las cuales los sistemas encuentran lagunas en dichos objetivos intermedios, creando efectos colaterales;[4] objetivos instrumentales, como la búsqueda de poder, que ayudan al sistema a lograr sus objetivos finales;[2][5][6][7] y objetivos emergentes que sólo se hacen patentes cuando el sistema se implementa en nuevas situaciones y distribuciones de datos.[6][8] Estos problemas afectan a sistemas comerciales como robots,[9] modelos de lenguaje,[10][11] vehículos autónomos,[12] y sistemas de recomendación de redes sociales.[10][5][13] Se cree que los problemas son tanto más probables cuanto más capaz es el sistema, ya que en parte resultan de una alta capacidad.[14][6] La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigación técnica como soluciones políticas para garantizar que los sistemas estén alineados con los valores humanos.[c] La alineación de sistemas es parte de un campo de estudio más amplio llamado seguridad de la inteligencia artificial (en inglés, AI safety), es decir, el estudio de cómo construir sistemas de inteligencia artificial que sean seguros.[6][17] Las vías para la investigación de la alineación incluyen el aprendizaje de los valores y las preferencias humanas, el desarrollo de inteligencia artificial honesta, la supervisión extensible, el examen e interpretación de modelos de inteligencia artificial, y la prevención de comportamientos emergentes, como la búsqueda de poder.[6][18] La investigación de la alineación tiene conexiones con la investigación de la interpretabilidad,[19] la solidez,[6][17] la detección de anomalías, la incertidumbre calibrada,[19] la verificación formal,[20] el aprendizaje por preferencias,[21][22][23] la ingeniería de seguridad,[6] la teoría de juegos,[24][25] la equidad algorítmica,[17][26] y las ciencias sociales,[27] entre otros. El problema de la alineaciónEn 1960, Norbert Wiener, pionero de la inteligencia artificial, articuló el problema de la alineación del modo siguiente: “Si para lograr nuestros propósitos usamos un medio mecánico en cuyo funcionamiento no podemos interferir de manera efectiva […] será mejor que estemos muy seguros de que el propósito puesto en la máquina es el propósito que realmente deseamos.”[28][5] Más recientemente, la alineación de la inteligencia artificial se presenta como un problema sin resolver en lo que se refiere a los sistemas modernos[29][30][31][32] y constituye un campo propio de investigación dentro de la inteligencia artificial.[33][34][35] Juego de especificaciones y complejidad del valorParte del problema de la alineación implica especificar objetivos de una forma que capture valores importantes y evite lagunas y consecuencias no deseadas.[33] En muchos casos, las especificaciones utilizadas para entrenar un sistema no coinciden con los objetivos previstos por el diseñador del algoritmo.[36][18] Diseñar tales especificaciones es difícil para obtener resultados complejos como lenguaje, movimientos robóticos o la recomendación de contenido. Esto se debe a que es difícil describir cabalmente aquello que hace deseable cualquier resultado complejo. Por ejemplo, al entrenar un agente de aprendizaje por refuerzo para competir en una carrera virtual de lanchas, los investigadores de OpenAI notaron que el agente encontró "una laguna aislada donde puede girar en círculos y pegarle repetidamente a tres objetivos... [N]uestro agente logra una puntuación más alta usando esta estrategia que completando el curso de la manera normal”.[37] Otro ejemplo de falla de especificación se produce al generar texto: los modelos de lenguaje proponen falsedades a un ritmo elevado y construyen explicaciones falsas convincentes.[38][39][23] La investigación intenta alinear dichos modelos con objetivos más seguros o más útiles. El científico informático de Berkeley Stuart Russell ha advertido que omitir una restricción implícita puede ser perjudicial: “Un sistema [...] a menudo llevará [...] variables sin restricciones a valores extremos; si una de esas variables es algo que realmente nos importa, la solución que encontremos podría ser muy indeseable. Esencialmente, se trata de la vieja historia del genio de la lámpara, el aprendiz de brujo, o el Rey Midas: obtienes exactamente lo que pides, no lo que quieres”.[40] Cuando la inteligencia artificial no alineada se despliega, los efectos secundarios pueden ser importantes. Es un hecho conocido que las plataformas de redes sociales optimizan las tasas de clics para mejorar la experiencia del usuario, pero esto ha creado adicciones, lo que disminuyó el bienestar de muchos de ellos. Investigadores de la Universidad de Stanford observan que dichos algoritmos de recomendación no están alineados con los usuarios porque "optimizan simples métricas de participación en lugar de apuntar a una combinación del bienestar de la sociedad y del consumidor, que es más difícil de medir".[10] Escribir una especificación que evite los efectos no deseados puede ser un desafío. A veces se propone como solución simplemente prohibir que el sistema realice acciones peligrosas, por ejemplo, enumerando resultados prohibidos o formalizando reglas éticas simples.[41] Sin embargo, Russell ha argumentado que este enfoque no tiene en cuenta la complejidad de los valores humanos:[5] “Ciertamente es muy difícil, y quizás imposible, para simples humanos anticipar y excluir de antemano todas las formas desastrosas que la máquina podría elegir para lograr un objetivo específico."[5] Desde entonces, este argumento ha sido formalizado por Cohen et al., quienes indican que las señales de recompensa resultan ambiguas entre la aprobación de los estados del mundo y la aprobación del envío de grandes recompensas.[42] Esta ambigüedad proporciona un medio general de hacer trampas para obtener recompensas. Además, no es imposible que los sistemas autónomos reciban objetivos incorrectos por accidente. Dos expresidentes de la Asociación para el Avance de la Inteligencia Artificial (AAAI), Tom Dietterich y Eric Horvitz, señalan que esto ya es motivo de preocupación: "Un aspecto importante de cualquier sistema de inteligencia artificial que interactúe con las personas es que debe razonar sobre lo que las personas pretender en lugar de ejecutar órdenes literalmente". Además, un sistema que entienda las intenciones humanas también podría hacer caso omiso: los sistemas sólo actúan de acuerdo con la función objetiva, con los ejemplos o con las reacción que tienen sus diseñadores.[33] Riesgos sistémicosLas organizaciones comerciales y gubernamentales pueden tener incentivos para tomar atajos en materia de seguridad e implementar sistemas de inteligencia artificial insuficientemente alineados. Un ejemplo son los ya citados sistemas de recomendación de las redes sociales, que han sido rentables a pesar de crear adicción y polarización a escala mundial.[10][43] Además, la presión derivada de la competencia puede crear una competición a la baja en cuanto a medidas de seguridad, como en el caso de Elaine Herzberg, una peatona que murió atropellada por un automóvil autónomo después de que los ingenieros desactivaran el sistema de frenado de emergencia porque era demasiado sensible y entorpecía el desarrollo.[44] Riesgos de la inteligencia artificial avanzada no alineadaAlgunos investigadores están particularmente interesados en la alineación de sistemas artificiales cada vez más avanzados. Los motivos son la alta tasa de progreso en el campo de la inteligencia artificial, los enormes esfuerzos de la industria y de los gobiernos por desarrollar sistemas artificiales avanzados y la creciente dificultad de alinearlos. Ya en 2020, OpenAI, DeepMind y otros 70 proyectos públicos tenían el objetivo declarado de alcanzar la denominada inteligencia artificial general, un sistema hipotético que iguale o supere a los humanos en una amplio rango de tareas cognitivas.[45] De hecho, los investigadores que desarrollan redes neurales modernas observan que surgen capacidades cada vez más generales e inesperadas.[10] Estos modelos han aprendido a llevar a cabo operaciones diferentes, tales como operar una computadora y escribir sus propios programas, entre otras cosas.[46][47][48] Según las encuestas, algunos especialistas creen que estos sistemas generales se alcanzarán pronto, otros creen que llevará mucho más tiempo, y un tercer grupo considera que ambos escenarios son posibles.[49][50] La búsqueda de poderLos sistemas actuales todavía carecen de capacidades como la planificación a largo plazo y la conciencia estratégica, las cuales, según se cree, entrañarían los riesgos más catastróficos.[10] No es imposible que sistemas futuros que tuvieran estas capacidades, aunque no fueran generales, trataran de proteger y aumentar su influencia sobre su entorno. Esta tendencia se conoce como búsqueda de poder u objetivos instrumentales convergentes. La búsqueda de poder no está explícitamente programada, pero emerge porque el poder es fundamental para lograr una amplia gama de objetivos. Por ejemplo, agentes artificialmente inteligentes podrían adquirir recursos financieros, o podrían evitar ser apagados al ejecutar copias adicionales del sistema en otras computadoras.[51][7] La búsqueda de poder se ha observado en varios agentes de aprendizaje por refuerzo.[d][53][54][55] Investigaciones posteriores han demostrado matemáticamente que los algoritmos óptimos de aprendizaje por refuerzo buscan poder en una gran variedad de entornos.[56] En consecuencia, a menudo se argumenta que el problema de la alineación debe resolverse en un estadio temprano, antes de que se cree una inteligencia artificial avanzada que manifieste esta tendencia.[7][51][5] Riesgo existencialSegún algunos científicos, la creación de una inteligencia artificial no alineada que supere ampliamente a los humanos sería un amenaza para su posición dominante en la Tierra, ya que representaría una disminución de su poder, e incluso podría ocasionar la extinción humana.[2][5] Entre los científicos informáticos notables que han señalado estos riesgos se cuenta a Alan Turing,[e] Ilya Sutskever,[59] Yoshua Bengio,[f] Judea Pearl,[g] Murray Shanahan,[61] Norbert Wiener,[28][5] Marvin Minsky,[h] Francesca Rossi,[63] Scott Aaronson,[64] Bart Selman,[65] David McAllester,[66] Jürgen Schmidhuber,[67] Markus Hutter,[68] Shane Legg,[69] Eric Horvitz,[70] y Stuart Russell.[5] Investigadores escépticos como François Chollet,[71] Gary Marcus,[72] Yann LeCun[73] y Oren Etzioni[74] han argumentado que la inteligencia artificial general está lejos, o que no lograría obtener suficiente poder como para constituir un peligro serio. La alineación puede volverse particularmente difícil para los sistemas más capaces, ya que varios riesgos aumentan junto con la capacidad del sistema: la habilidad del sistema para encontrar lagunas en el objetivo asignado,[14] para proteger y aumentar su poder,[56][7] para aumentar su inteligencia y para engañar a sus diseñadores; la autonomía del sistema; y la dificultad de interpretar y supervisar el sistema.[5][51] Problemas y enfoques de la investigaciónEl aprendizaje de los valores y las preferencias humanasEnseñar a los sistemas de inteligencia artificial a actuar teniendo en cuenta las preferencias, los valores y los objetivos humanos no es un problema fácil de resolver, porque los valores humanos pueden ser complejos y difíciles de especificar completamente. Cuando se les da un objetivo imperfecto o incompleto, estos sistemas, en general, aprenden a explotar estas imperfecciones. Este fenómeno se conoce en inglés como reward hacking (literalmente, "jaqueo de la recompensa") o juego de especificaciones en el campo de la inteligencia artificial, y como ley de Goodhart, Ley de Campbell, efecto cobra o crítica de Lucas en ciencias sociales y economía.[75] Los investigadores intentan especificar el comportamiento de los sistemas de la manera más completa posible con conjuntos de datos "centrados en valores", aprendizaje por imitación, o aprendizaje por preferencias.[8] Un problema central, que aún no tiene solución, es la supervisión extensible, la dificultad de supervisar un sistema que supera a los humanos en un dominio determinado.[17] Cuando se entrena un sistema de inteligencia artificial dirigido a objetivos, como un agente de aprendizaje por refuerzo, suele ser difícil especificar el comportamiento que se quiere lograr escribiendo una función de recompensa manualmente. Una alternativa es el aprendizaje por imitación, donde los sistemas aprenden a imitar ejemplos del comportamiento deseado. En el aprendizaje por refuerzo inverso, se utilizan ejemplos humanos para identificar el objetivo, es decir, la función de recompensa, detrás del comportamiento ejemplificado.[76][77] El aprendizaje por refuerzo inverso cooperativo se basa en ello al suponer que un agente humano y un agente artificial pueden trabajar juntos para maximizar la función de recompensa del agente humano.[5][78] Esta forma de aprendizaje pone énfasis en el hecho de que los agentes artificialmente inteligentes no deberían estar seguros respecto de la función de recompensa. Esta humildad puede ayudar a mitigar tanto el juego de especificaciones, como las tendencias hacia la búsqueda de poder (véase § La búsqueda de poder y los objetivos instrumentales).[55] Sin embargo, el aprendizaje por refuerzo inverso asume que los humanos pueden exhibir un comportamiento casi perfecto, una suposición engañosa cuando la tarea es difícil.[79][68] Otros investigadores han explorado la posibilidad de provocar comportamientos complejos a través del aprendizaje por preferencias. En lugar de ejemplos a imitar, los investigadores proporcionan información acerca de sus preferencias respecto de determinados comportamientos del sistema sobre otros.[21][23] De este modo, se entrena un modelo colaborador para predecir la reacción humana ante nuevos comportamientos. Los investigadores de OpenAI utilizaron este método con el fin de entrenar un agente para efectuar una voltereta hacia atrás, obteniendo el resultado deseado en menos de una hora.[80][81] El aprendizaje por preferencias también ha sido una herramienta importante para sistemas de recomendación, búsquedas en la web y la búsqueda de información.[82] Sin embargo, un problema que se presenta es que los sistemas podrían jaquear la recompensa. Es posible que el modelo colaborador no represente la reacción humana a la perfección, y el modelo principal podría explotar este desajuste.[83] La llegada de modelos de lenguaje a gran escala, como GPT-3, ha permitido el estudio del aprendizaje de los valores en sistemas más generales y capaces. Los enfoques de aprendizaje por preferencias, diseñados originalmente para agentes de aprendizaje por refuerzo, se han ampliado para mejorar la calidad del texto generado y para reducir los resultados dañinos de estos modelos. OpenAI y DeepMind usan este enfoque para mejorar la seguridad de los más recientes modelos de lenguaje a gran escala.[23][84] Anthropic ha propuesto usar el aprendizaje por preferencias para hacer que los modelos sean útiles, honestos e inofensivos.[85] Otros métodos utilizados para alinear modelos de lenguaje incluyen conjuntos de datos centrados en valores[86] y ejercicios de oposición.[87] En estos ejercicios, otros sistemas o seres humanos intentan encontrar situaciones que susciten un comportamiento peligroso del modelo. Dado que tales comportamientos no pueden aceptarse aún cuando sean infrecuentes, un desafío importante es hacer descender la tasa de resultados peligrosos a niveles extremadamente bajos.[23] Si bien el aprendizaje por preferencias puede inculcar comportamientos difíciles de especificar, requiere enormes conjuntos de datos o una interacción humana significativa para capturar la amplitud de los valores humanos. La ética de las máquinas proporciona un enfoque complementario: inculcar valores morales en los sistemas de inteligencia artificial. Por ejemplo, la ética de las máquinas tiene como objetivo enseñar a los sistemas los factores normativos de la moralidad humana, como el bienestar, la igualdad, la imparcialidad, la honestidad, cumplir con las promesas y evitar el daño. En lugar de especificar el objetivo de una tarea concreta, la ética de las máquinas apunta a enseñar a los sistemas los valores morales generales que pudieran aplicarse en diferentes situaciones. Este enfoque presenta desafíos conceptuales propios. De este modo, los especialistas han señalado la necesidad de aclarar lo se pretende lograr con la alineación, es decir, aquello que se supone que los sistemas deben tener en cuenta: o bien las instrucciones literales de los programadores; o bien sus intenciones implícitas; o bien sus preferencias reveladas; o bien las preferencias que los programadores tendrían si estuvieran más informados o fueran más racionales; o bien sus intereses objetivos; o bien las normas morales objetivas.[88] Otros desafíos incluyen agregar las preferencias de varias partes interesadas y evitar la clausura axiológica: la preservación indefinida de los valores de aquellos que sean los primeros sistemas artificiales de alta capacidad, ya que es poco probable que dichos valores sean completamente representativos.[88][89] Supervisión extensibleEl progreso de la alineación de sistemas artificiales basada en la supervisión humana presenta algunas dificultades. La evaluación humana se vuelve lenta e impracticable en la medida en que aumenta la complejidad de las tareas realizadas por los sistemas. Tales tareas incluyen: resumir libros, construir proposiciones verdaderas y no meramente convincentes,[90][39][91] escribir código sin errores sutiles[11] o fallas de seguridad, y predecir eventos alejados en el tiempo, como los relacionados con el clima o los resultados de una decisión de política económica.[92] En términos más generales, resulta difícil evaluar a una inteligencia artificial que supera a los humanos en un dominio determinado. Los humanos necesitan ayuda adicional, o bien mucho tiempo, para elegir las mejores respuestas en tareas que sean difíciles de evaluar y para detectar soluciones del sistema que sólo en apariencia sean convincentes. La supervisión extensible estudia cómo reducir el tiempo necesario para completar las evaluaciones y cómo ayudar a los supervisores humanos en esta tarea. El investigador Paul Christiano argumenta que es posible que los propietarios de sistemas de inteligencia artificial continúen entrenándolos con objetivos intermedios fáciles de evaluar, ya que además de seguir siendo rentable, ello es más fácil que hallar una solución para la supervisión extensible. En consecuencia, esto puede llevar a “un mundo cada vez más optimizado para cosas [que son fáciles de medir] como obtener ganancias, o hacer que los usuarios hagan clic en los botones o pasen el tiempo en sitios web, y no para tener buenas políticas o para recorrer una trayectoria que nos satisfaga”.[93] Un objetivo fácil de medir es la puntuación que el supervisor asigna a las respuestas de la inteligencia artificial. Algunos sistemas han descubierto formas de obtener puntajes elevados por medio de acciones que sólo en apariencia logran el objetivo deseado (véase el video de la mano robótica).[80] Otros sistemas han aprendido a comportarse de cierto modo cuando están siendo evaluados y de un modo completamente diferente una vez que acaba la evaluación.[94] Esta forma engañosa de juego de especificaciones puede ser más fácil para sistemas más sofisticados[14][51] que emprenden tareas más difíciles de evaluar. Si los modelos avanzados también son planificadores capaces, bien podrían ocultar su engaño a los ojos de sus supervisores. En la industria automotriz, los ingenieros de Volkswagen minimizaron las emisiones de sus autos en las pruebas de laboratorio, poniendo de relieve que el engaño de los evaluadores es moneda corriente en el mundo real. El aprendizaje activo y el aprendizaje por recompensa semisupervisado pueden reducir la cantidad de supervisión humana requerida. Otra posibilidad es entrenar a un modelo colaborador ("modelo de recompensa") que imite el juicio del supervisor.[17][22][23] Sin embargo, cuando la tarea es demasiado compleja para ser evaluada con precisión, o el supervisor humano es vulnerable al engaño, no es suficiente reducir la cantidad de supervisión requerida. Se han concebido varias formas de aumentar la calidad de la supervisión, a veces por medio de asistentes artificialmente inteligentes. La amplificación iterada es un enfoque desarrollado por Christiano que construye progresivamente respuestas a problemas difíciles combinando soluciones a problemas más fáciles.[8] La amplificación iterada se ha utilizado para hacer que sistemas artificiales resuman libros sin necesidad de recurrir a supervisores humanos que los lean.[95] Otra propuesta es entrenar inteligencia artificial alineada mediante un debate entre sistemas, cuyos jueces sean humanos.[96] Dicho debate tiene como objetivo revelar los puntos débiles de una respuesta a una pregunta compleja, y recompensar a la inteligencia artificial por las respuestas veraces y seguras. Inteligencia artificial honestaUn área importante de investigación dentro de la alineación de la inteligencia artificial se centra en garantizar que los sistemas sean honestos y veraces. Investigadores del Future of Humanity Institute señalan que el desarrollo de modelos de lenguaje como GPT-3, capaces de generar texto fluido y gramaticalmente correcto,[98][99] ha abierto la puerta a sistemas artificiales que repiten falsedades provenientes de los datos usados en su entrenamiento, o que mienten deliberadamente a los humanos.[97] Los actuales modelos de lenguaje más avanzados aprenden imitando la escritura humana siguiendo el modelo de una gran cantidad de texto de internet, equivalente a millones de libros.[10][100] Si bien esto los ayuda a aprender una amplia gama de habilidades, los datos del entrenamiento también incluyen ideas erróneas generalizadas, consejos médicos incorrectos y teorías conspirativas. Los sistemas entrenados con estos datos aprenden a imitar declaraciones falsas.[97][91][39] Además, los modelos suelen seguir el hilo de las falsedades que se les propone, generan explicaciones vacuas para sus respuestas, o mienten descaradamente.[32] Los investigadores han explorado varias alternativas para combatir la falta de veracidad que exhiben los sistemas modernos. Algunas organizaciones que investigan la inteligencia artificial, como OpenAI y DeepMind, han desarrollado sistemas que al responder las preguntas pueden citar sus fuentes y explicar su razonamiento, lo que permite una mayor transparencia y verificabilidad.[101][102] Investigadores de OpenAI y Anthropic han propuesto entrenar asistentes artificiales valiéndose de correcciones humanas y de conjuntos de datos seleccionados a fin de evitar que los sistemas propongan falsedades, ya sea por descuido o deliberadamente, cuando no están seguros de la respuesta correcta.[23][85] Además de las soluciones técnicas, los investigadores han abogado por definir estándares claros de veracidad y por crear instituciones, organismos reguladores o agencias de vigilancia que evaluen los sistemas de según esos estándares antes y durante el despliegue de los mismos. Los investigadores distinguen la veracidad, que especifica que las inteligencias artificiales solo hagan declaraciones objetivamente verdaderas, y la honestidad, es decir, la propiedad de que las inteligencias artificiales solo afirmen lo que creen que es verdad. Algunas investigaciones han hallado que no es posible afirmar que los sistemas de inteligencia artificial más modernos tengan creencias estables, por lo que aún no es viable estudiar la honestidad de los sistemas de inteligencia artificial.[103] Sin embargo, existe una gran preocupación sobre la idea de que sistemas futuros que sí tengan creencias podrían mentir intencionalmente a los humanos. En casos extremos, un sistema no alineado podría engañar a sus operadores haciéndoles creer que es seguro o persuadirlos de que no hay ningún problema.[10] Algunos argumentan que si se pudiera hacer que las inteligencias artificiales afirmaran sólo lo que creen que es verdad, entonces se evitarían numerosos problemas derivados de la alineación.[104] Alineación interna y objetivos emergentesLa investigación de la alineación se propone conciliar tres descripciones diferentes de un sistema de inteligencia artificial:[105]
El 'defecto de alineación externa' es una falta de coincidencia entre los objetivos deseados (1) y los objetivos especificados (2), y el 'defecto de alineación interna' es una falta de coincidencia entre los objetivos especificados por los humanos (2) y los objetivos emergentes (3). El defecto de alineación interna suele explicarse por analogía con la evolución biológica.[106] En el entorno ancestral, la evolución seleccionó genes humanos para la aptitud genética inclusiva, pero los humanos evolucionaron para tener otros objetivos. La aptitud corresponde a (2), el objetivo especificado que fue utilizado en el entorno del entrenamiento. En historia evolutiva, maximizar la especificación de la aptitud dio lugar a agentes inteligentes, los humanos, que no persiguen directamente la aptitud genética inclusiva. En cambio, persiguen objetivos emergentes (3) que en el entorno ancestral eran correlativos a la aptitud genética, como la nutrición, el sexo, etc. Sin embargo, nuestro entorno ha cambiado, ya que se ha producido un cambio de distribución. Los seres humanos siguen persiguiendo sus objetivos emergentes, pero esto ya no maximiza la aptitud genética. (En el aprendizaje automatizado, el problema análogo se conoce como generalización errónea de objetivos.)[3] Nuestro gusto por la comida azucarada (un objetivo emergente) fue originalmente beneficioso, pero ahora lleva a comer en exceso y a problemas de salud. Además, al usar métodos anticonceptivos, los humanos contradicen directamente la aptitud genética. Por analogía, si un desarrollador de inteligencia artificial eligiera como objetivo a la aptitud genética, observaría que el modelo se comporta según lo previsto en el entorno del entrenamiento, sin advertir que persigue un objetivo emergente no deseado hasta el momento de su implementación. Las líneas de investigación para detectar y eliminar objetivos emergentes no alineados incluyen los ejercicios de oposición, la verificación, la detección de anomalías y la interpretabilidad.[18] El progreso en estas técnicas puede ayudar a reducir dos problemas aún sin resolver. En primer lugar, los objetivos emergentes sólo se vuelven evidentes cuando el sistema se implementa fuera de su entorno de entrenamiento, pero puede ser inseguro implementar un sistema no alineado en entornos de alto riesgo, incluso por un período breve hasta que se detecte alguna anomalía. Tal es el caso con los automóviles autónomos y con las aplicaciones militares.[107] El riesgo es aún mayor cuando los sistemas ganan más autonomía y capacidad, y se vuelven capaces de eludir las intervenciones humanas (véase § La búsqueda de poder y los objetivos instrumentales). En segundo lugar, un sistema lo suficientemente capaz puede obrar de modo que convenza al supervisor humano de que está persiguiendo el objetivo previsto aunque de hecho no sea el caso (véase lo dicho anteriormente sobre el engaño en § Supervisión extensible). La búsqueda de poder y los objetivos instrumentalesDesde la década de 1950, los investigadores de la inteligencia artificial han tratado de construir sistemas avanzados que puedan lograr objetivos prediciendo los resultados de sus propias acciones y haciendo planes a largo plazo.[108] Sin embargo, algunos investigadores argumentan que los sistemas avanzados que pudieran hacer planes sobre sus objetivos buscarían de manera predeterminada el poder sobre su entorno, incluso sobre los humanos, impidiendo ser apagados o adquiriendo cada vez más recursos. Este comportamiento de búsqueda de poder no está programado explícitamente, pero surge porque el poder es fundamental para lograr una amplia gama de objetivos.[56][5] Por lo tanto, la búsqueda de poder se considera un objetivo instrumental convergente.[51] La búsqueda de poder es poco común en los sistemas actuales, pero es posible que sistemas avanzados que puedan prever los resultados de sus acciones a largo plazo, busquen cada vez más poder. Esto se demostró con una teoría formal de tendencias estadísticas, que encontró que los agentes óptimos de aprendizaje por refuerzo buscarán poder al buscar formas de obtener más opciones, comportamiento éste que persiste en una amplia variedad de entornos y objetivos.[56] De hecho, la búsqueda de poder ya emerge en algunos sistemas actuales. Los sistemas de aprendizaje por refuerzo han obtenido más opciones al adquirir y proteger recursos, a veces de formas ajenas a la intención de sus diseñadores.[52][109] En entornos aislados, otros sistemas han aprendido que pueden lograr su objetivo impidiendo la interferencia humana[53] o desactivando su interruptor de apagado.[55] Russell ilustró este comportamiento imaginando un robot que tiene la tarea de buscar café e impide que lo apaguen porque "no puedes buscar el café si estás muerto".[5] Las formas hipotéticas de obtener opciones incluyen sistemas de inteligencia artificial que intentan:
Los investigadores tienen por meta entrenar sistemas que sean 'corregibles': sistemas que no busquen poder y se dejen apagar, modificar, etc. Un desafío sin resolver es el de los sistemas que jaquean recompensas: cuando los investigadores penalizan a un sistema por buscar poder, se incentiva al sistema a buscar poder de formas difíciles de detectar.[6] Para detectar dicho comportamiento oculto, los investigadores intentan crear técnicas y herramientas adecuadas para inspeccionar modelos de inteligencia artificial[6] y para interpretar el funcionamiento interno de modelos de caja negra, como las redes neurales. Además, los investigadores proponen resolver el problema de los sistemas que desactivan sus interruptores haciendo que éstos no estén seguros del objetivo que persiguen.[55][5] Los agentes diseñados de esta manera permitirían que los humanos los apagaran, ya que esto indicaría que el agente estaba equivocado sobre el valor de cualquier acción que estaba tomando antes de ser apagado. Aun se necesita más investigación para traducir esta idea en sistemas utilizables.[8] Se cree que la inteligencia artificial que busca poder plantea riesgos inusuales. Sistemas ordinarios que hipotéticamente podrían poner en riesgo la seguridad no son adversos. Carecen de capacidad e incentivo para evadir las medidas de seguridad o parecer más seguros de lo que son. Por el contrario, la inteligencia artificial que busca poder se ha comparado con un jáquer que evade las medidas de seguridad. Además, las tecnologías ordinarias pueden volverse seguras por un proceso de prueba y error, a diferencia de la inteligencia artificial que busca poder, la cual se ha comparado con un virus cuya liberación sería irreversible, ya que evoluciona continuamente y crece en número —potencialmente a un ritmo más rápido que la sociedad humana— acabando por despojar a los humanos de su posición de poder o incluso ocasionando su extinción.[7] Por lo tanto, se suele argumentar que el problema de la alineación debe resolverse temprano, antes de que se cree una inteligencia artificial avanzada que busque poder.[51] Sin embargo, algunos críticos han argumentado que la búsqueda de poder no es inevitable, ya que los humanos no siempre buscan poder y sólo lo hacen por razones evolutivas. Además, la idea de que los futuros sistemas de inteligencia artificial persigan objetivos y planes a largo plazo es materia de debate.[110] Acción integradaEl trabajo sobre la supervisión extensible ocurre en gran medida dentro de formalismos como los procesos de decisión de Markov parcialmente observables. Los formalismos existentes suponen que el algoritmo del agente se ejecuta fuera del entorno (es decir, no está físicamente integrado en él). La acción integrada[111] es otra línea importante de investigación que intenta resolver los problemas que surgen de la falta de adecuación entre tales marcos teóricos y los agentes reales que podríamos construir. Por ejemplo, incluso si se resuelve el problema de la supervisión extensible, un agente capaz de obtener acceso a la computadora en la que se está ejecutando podría tener un incentivo para alterar su función de recompensa y así obtener una mucho mayor de la que le dan sus supervisores humanos.[112] Una lista de ejemplos de juegos de especificaciones elaborada por la investigadora de DeepMind, Victoria Krakovna, incluye un algoritmo genético que aprendió a eliminar el archivo que contenía el objetivo deseado para ser recompensado por no hacer nada.[113] Esta clase de problemas se ha formalizado utilizando diagramas de incentivos causales.[112] Investigadores de Oxford y DeepMind han argumentado que tales comportamientos problemáticos son muy probables en los sistemas avanzados, y que los dichos sistemas buscarían poder para tener el control de su señal de recompensa de forma indefinida y segura. Estos investigadores sugieren una variedad de posibles enfoques para abordar este problema.[42] Escepticismo sobre el riesgo de la inteligencia artificialEn contraste con las preocupaciones anteriores, aquellos que son escépticos sobre los riesgos de la inteligencia artificial creen que la superinteligencia representa poco o ningún riesgo de conducta peligrosa, ya que consideran que el control de tales sistemas sería un problema trivial.[114] Algunos, como Gary Marcus,[115] proponen adoptar reglas similares a las Tres leyes de la robótica, que especifican directamente un resultado deseado ("normatividad directa"). Sin embargo, otros consideran que las citadas leyes no son útiles, debido a su ambigüedad e inconsistencia. (Otras propuestas de "normatividad directa" incluyen la ética kantiana y el utilitarismo.) La mayoría de aquellos que reconocen el riesgo creen, en cambio, que los valores humanos (y sus contrapartidas cuantitativas) son demasiado complejos y mal entendidos para ser programados directamente en una superinteligencia: sería necesario programar una superinteligencia con un proceso para adquirir y comprender completamente los valores humanos ("normatividad indirecta"), como la voluntad coherente extrapolada.[116] Políticas públicasEn 2021, el Secretario General de las Naciones Unidas aconsejó regular la inteligencia artificial "para asegurarse de que respete los valores globales comunes".[16] En el mismo año, la República Popular China publicó pautas éticas para el uso de la inteligencia artificial en China. De acuerdo con estas pautas, los investigadores deben asegurarse de que la inteligencia artificial respete los valores humanos compartidos, de que esté siempre bajo el control humano y de que no ponga en peligro la seguridad pública.[117] También en 2021, el Reino Unido publicó su Estrategia Nacional de Inteligencia Artificial a 10 años,[118] que establece que el gobierno británico "toma en serio el riesgo a largo plazo de la Inteligencia General Artificial no alineada".[119] La estrategia describe acciones para evaluar los riesgos a largo plazo, incluidos los riesgos catastróficos.[120] Véase también
Notas
Referencias
|