¿Se puede estudiar a las personas sin personas? Stanford prueba modelos de IA para reemplazar a los humanos

Las ciencias sociales enfrentan un dilema eterno: estudiar a las personas es caro, lento y a veces impracticable. Pero un nuevo aliado, inesperado y polémico, se asoma a escena. Investigadores están probando cómo los modelos de lenguaje pueden simular sujetos humanos. ¿Funcionan? ¿Sirven? ¿Asustan?

inteligencia artificial
Stanford testea respuestas de IA en vez de analizar a humanos

Imaginemos la escena: un investigador quiere saber cómo reaccionan distintos grupos sociales ante una campaña sobre vacunas. Diseña un experimento, redacta preguntas, organiza grupos de control y tratamiento. Pero antes de enviar la encuesta, hace algo insólito: le pregunta a una inteligencia artificial qué opinarían los humanos. Sí, así como suena.

Ese tipo de experimentos ya está ocurriendo. Investigadores de universidades como Stanford y Chicago están utilizando modelos de lenguaje -como GPT-4- para simular personas. No se trata de reemplazar a nadie (al menos, por ahora), sino de usar estas herramientas para probar hipótesis de manera rápida y económica.

En otras palabras: antes de meterse en la jungla de la realidad, testean el mapa con una IA.

La idea tiene sentido si se parte de un problema de base: estudiar a las personas es un lío. “No se trata de placas de Petri ni de plantas que permanecen inmóviles y nos permiten experimentar durante largos periodos”, resume con humor y realismo Jacy Anthis, investigadora visitante del Instituto Stanford de IA Centrada en el Ser Humano.

Las personas son complejas, contradictorias y, encima, se mueven. Hacer un estudio con sujetos reales puede llevar meses y una buena parte del presupuesto anual de cualquier centro de investigación.

Por eso, en los últimos años, algunos científicos sociales comenzaron a experimentar con grandes modelos de lenguaje (LLM, por sus siglas en inglés), sistemas entrenados con millones de textos que logran imitar el lenguaje y, en algunos casos, el razonamiento humano. ¿Qué pueden hacer? Simular encuestas, predecir respuestas, anticipar cómo podría reaccionar una población ante determinada intervención. ¿Y qué tan bien lo hacen? Acá empieza lo interesante.

IA vs humanos

Un equipo liderado por Luke Hewitt, del Centro de Filantropía y Sociedad Civil de Stanford, usó GPT-4 para replicar 476 ensayos controlados aleatorios realizados previamente con humanos. En estos experimentos típicos, se presenta un estímulo (un texto, un video, un juego) y se mide el cambio en las opiniones o comportamientos de las personas.

investigacion
Un modelo puede predecir con bastante éxito qué diría una persona sobre un tema político o moral, pero se le complica con las preferencias personales.

Lo que encontraron fue sorprendente: las respuestas simuladas por el modelo tuvieron una fuerte correlación con las reales, de hasta 0,85. Y lo más llamativo: el modelo también acertó en estudios que fueron publicados después de su entrenamiento, es decir, que no estaban en sus datos originales.

La investigación en ciencias sociales atraviesa disciplinas como la economía, la psicología, la sociología y la ciencia política, y se apoya en una amplia variedad de métodos: desde encuestas online y observación directa hasta experimentos controlados, grupos focales y trabajo de campo.

Pero aunque las IAs pueden imitar personas, no son personas. Nicole Meister, estudiante de posgrado en Stanford, probó cuánto se parecen las respuestas de un LLM a las de un grupo real. En un juego de “elegí un número”, los modelos tendían a elegir siempre dentro de un rango predecible. En otras palabras, son menos variados, menos contradictorios, menos... humanos.

Esto tiene consecuencias. Un modelo puede predecir con bastante éxito qué diría una persona sobre un tema político o moral, pero se le complica con las preferencias personales. Saber que alguien odia los autos autónomos no significa que odie la tecnología. Pero un LLM podría asumir que sí, porque su lógica estadística busca patrones, no sutilezas.

Además, los modelos enfrentan problemas serios: sesgos que reproducen estereotipos, respuestas aduladoras diseñadas para “quedar bien”, razonamientos extraños que parecen lógicos hasta que uno los mira de cerca. Por ejemplo, afirmar que 3,11 es mayor que 3,9. Cosa que, por ahora, ningún humano en su sano juicio haría.

La IA llegó para quedarse, pero con restricciones

Frente a esto, varios investigadores proponen un enfoque híbrido. David Broska, sociólogo en Stanford, sugiere usar primero un grupo reducido de humanos y un modelo de lenguaje para ver si los resultados coinciden. Si hay buena correlación, se puede avanzar con una muestra más grande combinando ambos tipos de datos. Esta técnica permite ahorrar recursos sin sacrificar calidad. “Ahora tenemos dos tipos de datos”, dice Broska. “Uno, humano y caro; otro, artificial y barato. La idea es usarlos juntos con cuidado”.

Por supuesto, todo esto está en sus primeras etapas. Falta validar, refinar, discutir. Pero el potencial está. Y en un mundo donde las políticas públicas, las estrategias sanitarias y hasta las campañas de marketing se basan en comprender cómo pensamos y actuamos, sumar herramientas nunca viene mal. Siempre y cuando no nos olvidemos de algo básico: si el objetivo es entender a las personas, nada reemplaza a las personas.

Referencia de la noticia:

Jacy Reese Anthis, Ryan Liu, Sean M. Richardson, et.al. “LLM Social Simulations Are a Promising Research Method”.