Zoom es lo peor, ¿verdad? Si has utilizado la aplicación (o cualquier otra de videoconferencia), te habrás dado cuenta. No importa lo buena que sea tu conexión a Internet, la conexión personal rara vez funciona. No sabes cuándo empezar a hablar. Interrumpes a tu interlocutor, que parece que no te está escuchando. Todo el mundo parece presente, pero nadie o está.
No eres el único. En un estudio realizado el año pasado, un grupo de personas respondían preguntas de sí y no cara a cara en 297 milisegundos de media, mientras que el grupo de Zoom tardó 976 milisegundos. En los turnos de conversación, en los que los interlocutores se pasaban el micrófono de uno a otro, los retrasos eran similares. La hipótesis del estudio es que el escaso retardo de 30 a 70 milisegundos del audio de Zoom altera los mecanismos neuronales que utilizamos para sincronizarnos, esa magia que crea el verdadero diálogo.
Parece algo que la ciencia podría solucionar, ¿no? Pero primero tendríamos que entender qué es lo verdaderamente malo (¿o quizá incluso bueno?) del videochat.
Esa es la idea que se le ocurrió a Andrew Reece, científico jefe de BetterUp Labs, la rama de investigación de la empresa de coaching online. Sabía por su trabajo que las videollamadas podían ser una buena herramienta. "Nos dedicamos a conectar a la gente por Zoom para que una persona ayude a otra a ser más feliz en el trabajo. Pero no grabamos esas llamadas. Lo único que sabemos es que cuando nuestros miembros salen nos dicen que ha sido genial y que quieren repetir. Es una especie de caja negra lo que pasa ahí dentro", explica Reece.
Así que Reece se preguntó si era posible abrir esa caja negra y saber por qué funcionaban esas conversaciones. ¿Era por lo que se decía o por cómo se decía? ¿Era la forma de hablar, el aspecto de sus caras? "Lo primero que queríamos hacer era ver la conversación en su conjunto", señala Reece.
El resultado de esa investigación es la mayor base de datos jamás creada de conversaciones individuales a través de Zoom. Se llama CANDOR, abreviatura de Conversation: A Naturalistic Dataset of Online Recordings (Conversación: conjunto de datos naturalistas de grabaciones online). Reece y sus compañeros examinaron más de 1.600 conversaciones, unas 850 horas y 7 millones de palabras en total.
Los investigadores emparejaron a voluntarios, personas que no se conocían, y les pidieron que hablaran por Zoom durante media hora sobre cualquier tema, con la grabación activada. A diferencia de la mayoría de bases de datos de conversaciones, CANDOR no solo codificó sus palabras, que fueron transcritas automáticamente por algoritmos digitales. También capturó automáticamente aspectos como el tono, el volumen y la intensidad de los intercambios conversacionales, registrando expresiones faciales, asentimientos con la cabeza y hasta las veces que el interlocutor vacilaba con un "ums" o asentía con un "yeah".
Antes y después de cada charla de Zoom, los investigadores entrevistaban a los participantes para medir sus reacciones ante las interacciones: lo que les gustaba y lo que no, sus momentos favoritos y lo que les molestaba. ¿Les gustaba, por ejemplo, que su compañero asintiera con la cabeza? ¿O no?
"Las variables del estudio miden desde el nivel más bajo de la conversación, es decir, los cambios de turno de palabra de milisegundo a milisegundo, hasta preguntas más generales como si al interlocutor le ha gustado la conversación y por qué. Está muy bien procesada, es fácil de analizar y ha sido muy, muy examinada", explica Gus Cooney, psicólogo social que ayudó a desarrollar CANDOR.
Esta nueva base de datos, que los científicos llaman corpus, podría hacer algo más que ayudarnos a entender mejor cómo nos perciben nuestros compañeros de trabajo en Zoom. Podría arrojar nueva luz sobre la conversación del futuro.
No me digas
Piensa en la complejidad de los diálogos, incluso de los más sencillos, y en cómo nos pasamos el testigo de la conversación. Tú hablas, yo emito algunos sonidos, luego hablo, tú me das un "OK" o 2, vuelves a hablar y yo asiento, cambias de tema con una pregunta, y yo te doy un sí o un no antes de retomar el nuevo hilo.
Esa interacción es un milagro de la comunicación humana. Cuando la gente habla, de alguna manera casi nunca coincidimos. Los intervalos entre el "tú" y el "yo" son de apenas un cuarto de segundo, literalmente un abrir y cerrar de ojos, tan rápido que nos toca predecir cuándo llegará nuestro turno.
Los lingüistas lo llaman backchannel y los utilizamos para alinearnos con los demás. Asentir con la cabeza mientras alguien habla es un estímulo; asentir con la cabeza al final es un desplante. Un "sí" llega en medio segundo; un "no" tarda más. Si digo que sí, pero lo retraso hasta la mitad final de ese segundo, tú piensas que estoy diciendo no. Y un largo etcétera.
El análisis de la conversación se remonta al menos a principios de los años 70, comenzando con un artículo clásico sobre los cambios del turno de palabra como motor principal del diálogo. Pero la complejidad de los datos siempre ha dificultado la investigación. "No solía abordar el habla real porque era un reto técnico. El material escrito era mucho más fácil. Pero esto ha cambiado gracias a la tecnología. Ahora, todo se graba, incluida el habla real, por lo que tenemos más material para analizar", explica Simon Garrod, psicólogo cognitivo de la Universidad de Glasgow y uno de los principales investigadores en este campo.
El fenómeno de las conversaciones por Zoom era algo totalmente nuevo. ¿Qué hacía feliz a la gente en Zoom? ¿Y qué hacía que fuera más divertido hablar con una persona que con otra?
Para averiguarlo, había que escuchar o ver las grabaciones y anotar todo lo que pudiera interesar a un investigador, un proceso conocido como codificación. "La transcripción fue una verdadera lucha. Llevaba horas y horas de trabajo, y había que hacerlo repetidamente", dice Garrod. Para ello era necesario un gran equipo y mucho presupuesto.
Así que en 2018, Reece se puso en contacto con Cooney, un compañero de posgrado que estudió conversación. Pensaron que una nueva tecnología podría resolver el problema de la codificación, e incluso tener en cuenta las complejidades de la superposición del habla en backchannel y la sincronización de los turnos. Se les ocurrió conseguir voluntarios para charlar durante media hora y preguntarles qué les había parecido.
Resultó ser mucho más difícil de lo que esperaban. Los vídeos tenían cierto retardo, lo que significaba que tenían que descartar cientos de horas por motivos de calidad. También tuvieron que averiguar cómo conseguir que el software uniera las 2 partes de la conversación con la precisión suficiente para poder analizar las interacciones al milisegundo. "Dedicaron cientos de horas a este problema", afirma Reece.
Cuando por fin reunieron todos los vídeos y crearon las redes neuronales para procesar los diálogos, muchos de sus hallazgos confirmaron investigaciones anteriores. Eso era bueno; indicaba que su base de datos era lo suficientemente grande como para ser fiable. Pero esto fue en 2020, el año en que apenas empezábamos a familiarizarnos con Zoom. Así que estaban estudiando algo relativamente nuevo. ¿Qué hacía feliz a la gente en una videollamada? ¿Y qué hacía que fuera más divertido hablar con una persona que con otra?
Los Tom Cruises de Zoom
El primer análisis de Cooney y Reece sugiere que los "buenos conversadores" en Zoom son los que hablan más rápido, más alto y con más intensidad. Son los "Tom Cruise", por así decirlo, de la interacción. Las personas calificadas por sus compañeros como mejores conversadores hablaban un 3% más rápido que los malos conversadores, pronunciando unas 6 palabras más por minuto.
Y aunque el volumen medio de los hablantes no varió entre las conversaciones buenas y malas, los "buenos" hablantes variaban sus niveles de decibelios más que los "malos". El equipo de Cooney y Reece especula con que los buenos sabían leer mejor la sala Zoom, calibrando su volumen a las curvas de la conversación.
Pero resulta que el volumen no es tan buena métrica como la intensidad, quizá porque la intensidad es más sutil. Se trata de una combinación de las frecuencias y la sibilancia del habla y la emoción transmitida por todo, desde el tono hasta el lenguaje corporal. Para ayudar al ordenador a evaluar algo tan inefable, el equipo de CANDOR lo alimentó con la base de datos audiovisuales de habla y canto emocional de Ryerson.
Esto permitió a los "candorbots" recurrir a más de 7.000 grabaciones de 24 actores que decían y cantaban cosas con diferentes matices emocionales, desde felices o tristes hasta asustados o disgustados. La máquina descubrió que las mujeres calificadas como mejores conversadoras de Zoom tendían a ser más intensas. Las diferencias entre los hombres, curiosamente, eran estadísticamente insignificantes. (Lo contrario ocurría con la felicidad. Los hablantes masculinos que parecían más felices fueron calificados como mejores conversadores, mientras que las estadísticas de las mujeres no variaron).
Luego está el asentimiento. Los mejores conversadores asintieron con un 4% más de frecuencia y movieron la cabeza con un 3% más de frecuencia. No eran "simples oyentes alegres que asienten como apoyo", señalan los investigadores, sino que hacían un "uso juicioso de las negaciones no verbales". En otras palabras, un no honesto y oportuno te dará más puntos que un sí poco sincero. Los buenos conversadores son los que parecen más comprometidos con lo que dicen sus interlocutores.
Otra cuestión que analizaron los investigadores fue cuántas cosas nuevas tienes que decir cuando te toca hablar para mantener una conversación fluida. Los resultados no fueron concluyentes. El sistema de codificación descubrió que lo ideal es cierto grado de "similitud semántica": los conversadores mejor valorados, en general, cambiaban de tema y aportaban nuevas ideas con más frecuencia que los peor valorados. Pero la máquina no pudo decidir si los conversadores peor valorados no tenían nada interesante que añadir o si simplemente tendían a repetirse más. Por lo visto, hay que seguir investigando. "Sigo pensando que es una de las cosas más interesantes", dice Reece.
Se partía de la base de que lo que cansa o entristece es el medio. Pero no parece que sea cierto.
En general, según el estudio, a la gente le gustaba hablar por Zoom, incluso durante el infernal primer año de la pandemia. En enero, según CANDOR, casi nadie mencionó el COVID-19; en diciembre, salía en casi todas las conversaciones. A principios de año, solo una cuarta parte de los conversadores hablaban de política; en Navidad, la política aparecía en casi la mitad de las charlas.
Sin embargo, cuando los investigadores pidieron a los participantes que calificaran sus sentimientos positivos (buenos, agradables, felices) en una escala del 1 al 10, la media pasó de poco más de un 6 antes de las videoconferencias a más de un 7 después. La felicidad aumentó en todos los grupos demográficos, especialmente entre las personas de 50 a 69 años.
Algunas de las mayores sorpresas fueron aquellas que los investigadores no encontraron. La buena noticia para BetterUp, que depende de la videollamada para su modelo de negocio, fue la falta de pruebas de que a la gente le disgustara el propio Zoom. "Se partía de la base de que lo que cansa o entristece es el medio. Pero no parece que eso sea cierto. Vemos muchos casos de gente que se siente mejor cuando habla con un extraño online", apunta Reece. Resulta que el mero hecho de chatear hace feliz a la gente, aunque sea a través de Zoom.
El estudio tampoco confirmó otras suposiciones. ¿Los viejos tópicos de que los hombres interrumpen más a las mujeres que viceversa, o que las mujeres son más complacientes a la hora de tomar su turno? No hay pruebas. ¿Las videollamadas dificultan las conversaciones fluidas? No. Así que puede que todas esas conclusiones sean erróneas. O tal vez los algoritmos de CANDOR no estaban lo suficientemente afinados. En cualquier caso, según Cooney, hay más cosas que investigar en el corpus.
Lo siguiente para el equipo de CANDOR es intentar analizar el ritmo óptimo de las sonrisas y la rapidez con la que se debe devolver la sonrisa cuando el interlocutor sonríe primero. "Solo hemos hecho el primer corte, que es ver cómo se relacionan estas cosas con el disfrute general", dice Cooney. "Lo que estamos a punto de entender es cómo se relacionan las sonrisas de hace 10 segundos con las sonrisas actuales y con las sonrisas futuras", añade.
Kung-fu empático
El corpus CANDOR es un buen comienzo, quizá. "Cosas como este estudio son emocionantes y van en la dirección correcta: grabar todo en tiempo real, personas reales hablando entre sí. Podemos transcribirlo en un abrir y cerrar de ojos, porque ahora disponemos de la potencia informática necesaria", opina Nick Enfield, lingüista de la Universidad de Sídney y autor de How we talk.
Pero, según Enfield, el conjunto de datos tiene serias limitaciones, por enorme que sea. Por un lado, solo está en inglés americano, lo que significa que los científicos no pueden utilizarlo para explorar e identificar puntos en común entre distintos idiomas. Y por otro, las conversaciones involucraban a personas emparejadas al azar, lo que podría ser lo suficientemente extraño como para sesgar los datos. "¿Cuánto tiempo de tu vida dedicas a conocer a un completo desconocido?", reflexiona Enfield.
BetterUp tiene un incentivo económico para optimizar los comportamientos de Zoom: quiere que la gente salga de las conversaciones sintiéndose bien, escuchada y comprendida. Y los resultados de CANDOR sugieren algunas formas de que un conversador pueda proyectar esas sensaciones.
Pero que esas sensaciones sean auténticas (en cualquiera de las partes de un diálogo) es otra historia. Al dividir estas cuantificaciones en calificaciones, en "bueno" y "malo", las conversaciones se convierten en una especie de kung-fu empático.
Este es el tipo de respuestas simuladas que los anfitriones, psicoterapeutas y reporteros de éxito ponen en práctica para conseguir sus fines. Como periodista profesional de televisión que fui, te prometo que puedo asentir atentamente a la cámara y presentar nuevos temas durante horas.
Quizá eso no importe si buscas un mentor de Zoom a través de un servicio como BetterUp. Pero algún día bases de datos como CANDOR podrían utilizarse para entrenar inteligencias artificiales que imiten la forma en que los humanos mantienen conversaciones.
Los chatbots que se utilizan para la atención al cliente o como de admisión en centros de urgencias podrían aprender a asentir y sonreír como los mejores conversadores del mundo, pero no van a sentir nada. No pueden sentir nada. Lo único que sabrán es hacernos sentir bien, con rostros profundamente fingidos que saben exactamente cuándo asentir y con qué amplitud sonreír, al milímetro, sin importar lo que estén diciendo en realidad.
Estudiar las llamadas de Zoom puede ayudarnos a tener mejores conversaciones en Zoom. Pero también podría hacer que un futuro ya de por sí extraño, lo sea todavía más.
Actualidad Laboral / Con información de Business Insider