Los judíos siempre han sido escritores prolíficos. ¿Ha acabado la IA con demasiadas de sus obras?

Los judíos están sobrerrepresentados entre autores cuya propiedad intelectual se utiliza con fines de formación en IA y, aunque representan un poco porcentaje, el futuro de la IA depende de ellos.

 Figuritas con ordenadores y teléfonos inteligentes se ven delante de las palabras "Inteligencia Artificial AI" en esta ilustración tomada, el 19 de febrero de 2024. (photo credit: DADO RUVIC/REUTERS)
Figuritas con ordenadores y teléfonos inteligentes se ven delante de las palabras "Inteligencia Artificial AI" en esta ilustración tomada, el 19 de febrero de 2024.
(photo credit: DADO RUVIC/REUTERS)

Creciendo como judía en la ciudad de Nueva York, Heila Precel absorbió la lección de que la educación puede encaminarte hacia el éxito personal y protegerte contra las fuerzas que han marginado a los judíos a lo largo de la historia.

"Mi familia y mi cultura me dijeron versiones de ‘No pueden quitarte tu educación.’ Invertir en educación ha sido una estrategia tremendamente exitosa para los judíos estadounidenses", comentó Precel.

Precel siguió la lección de su infancia y se abrió camino hasta la Universidad de Boston, donde actualmente está trabajando en un doctorado en informática y ciencias de datos. Pero un artículo de investigación que acaba de publicar, en colaboración con otros académicos, sugiere que la fórmula para el éxito en la que innumerables judíos estadounidenses como ella han confiado podría estar en peligro.

La amenaza proviene del aumento de los sistemas de inteligencia artificial que impulsan el tipo de chatbots que se comunican como humanos, como ChatGPT, por ejemplo. Esos sistemas son entrenados con libros, artículos y otros textos que han sido introducidos en la máquina en su mayoría sin el permiso de sus autores.

Eso significa que cualquiera que produzca propiedad intelectual puede terminar viendo su trabajo utilizado sin licencia. Esos creadores enfrentan posibles infracciones de copyright y, a largo plazo, posible desplazamiento laboral ya que las herramientas de IA podrían llegar a reemplazar a muchos trabajadores de cuello blanco.

 Un eslogan relacionado con la Inteligencia Artificial (IA) se muestra en una pantalla en el pabellón de Intel, durante la 54ª reunión anual del Foro Económico Mundial en Davos, Suiza, el 16 de enero de 2024. (credit: DENIS BALIBOUSE/REUTERS)
Un eslogan relacionado con la Inteligencia Artificial (IA) se muestra en una pantalla en el pabellón de Intel, durante la 54ª reunión anual del Foro Económico Mundial en Davos, Suiza, el 16 de enero de 2024. (credit: DENIS BALIBOUSE/REUTERS)

Propiedad intelectual judía utilizada para la IA

Precel descubrió a través de su investigación que los judíos están sobrerrepresentados entre los autores cuya propiedad intelectual está siendo utilizada con fines de entrenamiento de IA. En comparación con su número en la población general de EE. UU., los autores judíos están sobrerrepresentados por un factor de dos a seis y medio según un análisis de los datos disponibles. Entre esos autores se encuentran la comediante Sarah Silverman y el novelista Michael Chabon, ambos de los cuales han demandado a OpenAI, la empresa detrás de ChatGPT, por presunta infracción de derechos de autor.

Los desarrolladores de sistemas de inteligencia artificial probablemente están encantados de absorber todo el contenido que reciben sin tener en cuenta la identidad de sus autores, y nadie está alegando que el antisemitismo esté jugando un papel en la sobre representación de autores judíos. De hecho, Precel reconoce que la premisa de su investigación puede sonar un poco como presumida: los judíos forman una pequeña parte de la población pero han producido tanto conocimiento que, en cierta medida preocupante, el futuro de la investigación en inteligencia artificial depende de ellos.

Pero ella dijo que una interpretación estrecha como esa pasaría por alto el punto de su artículo.

Por un lado, el artículo enfatiza que investigaciones adicionales probablemente confirmarían que otros grupos, como los hindúes estadounidenses y los asiático-americanos, también probablemente están sobre representados. Precel también dice que exponer los prejuicios que perjudican a los judíos a menudo revela problemas más amplios. Esa idea se refleja en una analogía en el título del artículo, "Un Canario en la Mina de Carbón de la IA: los Judíos Americanos Podrían ser Disproporcionadamente Perjudicados por la Desposesión de Propiedad Intelectual en el Entrenamiento de Modelos de Lenguaje a Gran Escala".

" No estamos diciendo que todos los abogados sean judíos, y por lo tanto, reemplazar a los abogados va a ser malo para los judíos", dijo Precel. "Hay muchos abogados que no son judíos, y lo que estamos viendo va a ser malo para todos. Simplemente podría ser especialmente malo para los judíos, porque históricamente los judíos han puesto muchas de nuestras esperanzas en esta cesta de logros educativos. En otras palabras, estamos iluminando este problema general con la analogía del canario en la mina, asegurándonos de recordar que el propio canario no se desenvuelve muy bien en esta historia."

Precel creció en un hogar judío conservador y asistió a una escuela judía diaria cuando era niña. De adulta se ha vuelto más observante y asiste a la sinagoga semanalmente. La etiqueta que se da a sí misma es tradicional igualitaria. Todo esto para decir que Precel ha tenido muchas oportunidades de discutir su investigación con otros judíos cuyos textos pueden encontrarse en bases de datos utilizadas para el entrenamiento de IA sin permiso.

De hecho, su nuevo artículo se publica en una base de datos de este tipo. Ella dice que ha encontrado personas preocupadas, pero muchas otras no entienden de dónde provienen los datos de entrenamiento o cómo se utilizan.

"Recibo muchas reacciones sorprendidas y algunas ansiedades pero también optimismo", dijo Precel.

Su artículo pertenece a un género más amplio de investigación sobre los impactos e implicaciones de los avances tecnológicos en las áreas de inteligencia artificial y aprendizaje automático. Pero el coautor de Precel, Nicholas Vincent, dijo que el problema a menudo se examina "a través del prisma de la subrepresentación" en lugar de la sobrerepresentación.

"El ejemplo más famoso son los modelos que funcionaron muy mal en personas de piel oscura", dijo Vincent, profesor de informática en la Universidad Simon Fraser en Burnaby, Canadá, refiriéndose al problema del software de análisis de imágenes que etiqueta erróneamente a las personas negras como gorilas. En el ámbito de los sistemas basados en texto, dijo, "si no eres de la cultura predominante, es más probable que recibas resultados pobres con los modelos utilizados para contratación o puntajes de crédito".

Un nuevo artículo publicado este mes probó cómo la inteligencia artificial se relaciona con personas que hablan un dialecto afroamericano del inglés en lugar de utilizar lo que se conoce como inglés estándar americano. El estudio encontró que la inteligencia artificial hace suposiciones racistas basadas en la diferencia. Un chatbot, por ejemplo, tenía más probabilidades de recomendar la pena de muerte para los acusados cuando hablaban inglés afroamericano.

Una de las limitaciones de todos estos estudios es que muchos sistemas de inteligencia artificial operan como cajas negras. Con ChatGPT, por ejemplo, no es posible saber qué contenido utilizaron los desarrolladores para entrenar el sistema, porque su propietario, OpenAI, considera que esa información es de su propiedad.

Para el artículo sobre la autoría judía, lo que los investigadores intentaron hacer fue estudiar no los sistemas, sino los datos que se les introducen. Observaron qué datos utilizan los sistemas de código abierto y los repositorios digitales de conocimiento que probablemente están siendo utilizados por los sistemas propietarios. Estos repositorios contienen grandes cantidades de literatura científica, libros publicados, opiniones legales y otros tipos de textos.

Pero dado que la información sobre la autoría generalmente no indica si alguien es judío, los investigadores buscaron una forma de identificar y clasificar autores en masa. Para esa tarea, recurrieron al campo de los estudios demográficos judíos.

Existen muchas técnicas diferentes para identificar y contar a los judíos; cada una tiene sus propias fortalezas y debilidades. Por ejemplo, utilizar encuestas para estudiar a los judíos puede ayudar a responder preguntas detalladas pero es muy costoso debido a que los judíos son una minoría dispersa en una amplia geografía.

"Terminas gastando una gran cantidad de dinero contactando a personas que no son judías", dijo Precel. "Se han desarrollado muchos métodos en la literatura demográfica judía para intentar resolver este problema".

El equipo optó por un método que infiere la identidad judía basándose en un conjunto de apellidos judíos distintivos. Muchos judíos tienen apellidos indistinguibles, pero los demógrafos han encontrado repetidamente a lo largo de las últimas décadas en la historia judía estadounidense que los apellidos judíos distintivos pueden utilizarse como un proxy estadístico para la población judía en general. El método no es útil para investigar sobre la diversidad judía, pero puede utilizarse en ciertos escenarios, como estimar el número de judíos en una larga lista de autores de textos de entrenamiento de IA.

Gran parte del artículo se dedica a lo que podría hacerse para abordar las preocupaciones planteadas por los hallazgos. Los investigadores imaginan un futuro en el que la IA no esté permitida para reemplazar el trabajo humano sino para complementarlo, evitando al mismo tiempo una interrupción económica a gran escala.

Una posibilidad para lograr ese escenario es utilizar los hallazgos para ayudar a informar a los responsables políticos y desarrolladores de IA preocupados por la dimensión ética de la tecnología. Pero los investigadores también sugieren otra opción.

"Si las personas se organizan colectivamente en torno a su propiedad intelectual, puede haber un campo de juego más nivelado para negociar con los operadores de las tecnologías de inteligencia artificial", dijo Vincent. "Individualmente, tus datos tienen un valor muy bajo, pero cuando nos unimos suficientes personas, tenemos mucha influencia".

La comunidad judía podría estar lo suficientemente organizada como para hacer posible la defensa colectiva. Aunque no existe un sindicato de escritores judíos, por ejemplo, coaliciones informales de profesionales creativos han respondido al sentimiento anti-Israel en el mundo literario y en Hollywood.

En un escenario hipotético, un grupo que represente a los escritores judíos podría reunirse y acordar adoptar medidas en sus sitios web para bloquear a los bots de recopilar contenido.

"Así que, en el futuro, ese grupo es particularmente difícil de obtener datos, y de repente hay un gran vacío en los datos", dijo Vincent.