top of page
  • CES UAI

¡¡¡Escucho voces!!! La Interacción Humano-Robot ¿Qué desafíos debe enfrentar nuestra generación?


Escrito por: Alexis Brantes

Con esto de la tercera ola de la tecnología devorándose “invisiblemente” el mundo y ver cómo logra influenciar a las masas con tendencia paranoica de las sociedades postmodernas, tardo-modernas y ultramodernas, impulsándolos a una constante búsqueda de satisfacción, poder y auto-complacencia, es bueno sentarse unos minutos, ir a por un café y reflexionar sobre lo que estamos viviendo.



El mundo cambia constantemente, a tal velocidad, que el futuro no pertenece a la idea de sí mismo, sino que habita con nosotros, en el ahora. Hoy ya existe, en algunos casos, se acaba de desarrollar y en otros, hace años que se ha logrado el desarrollo tecnológico que transformará al mundo en la siguiente década y de seguro, en las posteriores también. Cada iniciativa está ahí, buscando su momento para emerger masivamente y brillar, haciéndonos creer en el futuro y en el devenir de la humanidad, al tiempo en que plantea nuevos desafíos, esperanzas, temores y alegrías.

“Llevamos usando herramientas desde hace casi tres millones de años y le debemos nuestros números y nuestra calidad de vida a la tecnología.” José Cervera. Periodista, Biólogo y Profesor de la Universidad Rey Juan Carlos

Es evidente que esto ocurra, pues es parte de nuestra naturaleza. Marshall McLuhan lo vio venir hace décadas, donde ilustraba de forma muy acertada al uso de tecnología como una extensión de una habilidad humana. No es de extrañar que neurobiólogos de diferentes naciones, entre ellos, José Cervera, se refieran al “Mono Psyborg”, ya que fue capaz de potenciar sus terminales biológicas como armas, cubriendo las carencias que tenía frente al resto de los seres vivos del planeta. Entendiendo esto, la simple idea de una inteligencia artificial que nos supere parece simplemente el “siguiente paso”. Su reproducción y complejización autónoma solo lo podemos entender como una consecuencia inherente al primer acto; tomar una piedra y convertirla en una extensión de nuestras uñas para cazar, para desgarrar y moldear. Sin tecnología no somos capaces de sobrevivir en nuestro planeta natal.

Si reflexionamos en todo esto, podremos concluir que no existe un estado ‘natural’ de la Humanidad, al menos no hay registros anteriores al hallazgo de la tecnología. Lo hemos hecho posible desde que comenzamos a utilizar el entorno a nuestro favor. Esto nos llevó a que como humanos, hemos logrado construir, transformar, moldear el entorno natural a una naturaleza artificial. Simplemente una especie de primate fusionada con nuestras herramientas; un mono ciborg sobreviviendo en una roca enorme que está atrapada por la gravedad del sol.

Turismo Espacial, Revolución Solar, Vehículos Inteligentes, Neurofármacos, Inteligencia Artificial, Hiper-conectividad, Nano-materiales, Neuroimplantes, Exoesqueletos, Realidad Virtual Inmersiva, Transhumanismo, Computación Ubicua, Interfaces Invisibles, Super-Conductores, Computación Cuántica, Nueva Física, Robots Asistentes, Nuevos Materiales, etc…

¿Debemos detenernos?

Me resisto a la idea de simplemente temer al demonizado constructo social de la evolución simbiótica humano-computador, pues soy de ese grupo “odiado” que aboga por el desarrollo y potenciación de la tecnología, ya que, una vez que ésta se democratiza, inmediatamente cambia la cosmovisión y la subjetividad de la sociedad (Para bien y mal). Es precisamente aquí cuando nosotros, los “Freakis” o “Enfermitos” (He escuchado cada término para este grupo de amantes de la ciencia y sus implicaciones, que los más “tiernos” son estos dos), que estamos vinculados con los aspectos relacionados a la experiencia humana con el entorno, adquirimos un valor innegable para las sociedades fragmentadas y las venideras. Desde la fijación por la experiencia humana (aveces obsesiva, otras impuestas), encontramos la potencia de la vinculación afectiva entre humanos y tecnología, ya que estamos en el punto preciso donde obtenemos la responsabilidad de humanizar la tecnología y permitir que ésta asuma el rol de potenciar la humanidad, no de obstaculizar su desarrollo. ¿Acaso no es eso lo que hacemos día a día en User Research?

En realidad, todo lo que escrito hasta ahora no es algo nuevo.

¿Recuerdan el cariño y afecto a “ese” juguete de la infancia? ¿Recuerdan encontrarse a sí mismos con un “estado de ánimo” alterado tras interactuar con un objeto? ¿O ese momento de pequeños, cuando imprimían una cualidad humana a objetos inertes? Hoy seguimos realizando la misma acción, solo que a objetos interactivos y como retorno de tal interacción, somos recompensados con acciones pseudo-autónomas, lo que, de ser bien ejecutadas, refuerza nuestra relación entre lo humano y lo cósico con un impacto positivo.

Programación humana: justificación del “miedo”.

Es cierto, tenemos una programación biológica para responder con cautela frente a lo desconocido, dedicamos recursos biológicos y cognitivos a su identificación y discriminación. Ejemplo de esto es el Uncanny Valley (Valle del miedo), donde, básicamente nuestro sistema nos alerta de una “presencia engañosa” y nos pone en alerta, esperando lo peor. Dependiendo del estado de desarrollo del humano, el paso será mantener el modo agresivo, pasar a parálisis temporal, inhibición del sistema sensorial, acelerar cómputos cognitivos, proyectar escenarios, etc. Pero también es cierto que una vez que superamos el valle, pasamos a un modo de “conocer” el objeto en cuestión y lo clasificamos según nuestra experiencia previa, fomentando la empatía o la apatía por lo que milésimas de segundos antes nos llevó a un cuadro de estrés agudo. Esta forma de entender el entorno es ampliamente estudiada en la Neurociencia, Neuropsicología Cognitiva y Neuroeconomía, en lo que se conoce como Decision-Making Process o Information Processing model.



Ok, eso es pertubador.


Todo lo mencionado anteriormente entra en un único contexto: Computación Ubicua o Ubicomp

Desde el 2014, en los Local Meetings del Interaction Design Foundation en Chile, Argentina, España y Colombia, así como en conferencias de otras organizaciones como CES UAI (CL), NEO MEDIA LAB (AR), ESPIN MEDIALAB (CO), UDD (CL), USACH (CL), CXPA (CL), IXDA (CL/AR), PUCV (CL), entre otras, vengo hablando de esta temática y siempre obtengo resultados de retroalimentación post-charla similares; Gente incómoda con lo expuesto, con miedo por el devenir de la humanidad y apenas tomando consciencia del peso de la mochila que debemos llevar de forma digna como profesionales vinculados al HCI y Factores Humanos.

Por supuesto que Ubicomp no es algo que me haya inventado, es algo incluso más viejo que yo y levantado en un tiempo en que la fase 3, solo era un sueño reservado para el futuro lejano. Ubicomp le pertenece a Mark Weiser y es bueno recordarlo y difundir lo que visualizó y entregó al mundo.

“Las tecnologías más profundas son aquellas que desaparecen. Se entrelazan en el tejido de la vida cotidiana hasta que son indistinguibles de él”. Mark Weiser (1952–1999)Ph.D. Informática y Ciencias de la Comunicación. Director del Computer Science Laboratory en Xerox PARK

Weiser adquirió reconocimiento mundial en el ’91 con el trabajo “The Computer for the Twenty-First Century”. Tenía una visión única de la vida, de cómo la tecnología debía entenderse y visualizaba su futuro con tanta claridad, como lo hizo McLuhan en su tiempo. Mark introdujo el concepto de ubicuidad en las Tecnologías de la Información en 1988, mientras trabajaba como líder del Computer Science Laboratory en Xerox PARC. Escribió sobre los pilares de la Ubicomp: El sistema distribuido y la computación móvil. Ambos sistemas funcionaban sobre cuatro cimientos: 1) El uso inteligente y eficiente de los espacios; 2) Invisibilidad; 3) Escala local y 4) Ocultación de los desniveles de acondicionamiento. Para Weiser la computadora es un punto de conexión demasiado enredado, que exige mucho al usuario, mucha atención exclusiva para su correcto manejo, lo que, obviamente, disminuye la atención del usuario sobre la tarea que debe hacer.

“Estamos tratando de concebir una nueva forma de pensar las computadoras en el mundo, una que tenga en cuenta el entorno humano natural y que permita que las mismas computadoras desaparezcan en un segundo plano.” Mark Weiser en ‘The Computer for the 21st Century’; 09–91 SCI AME.

Para nosotros es fácil y evidentemente lógico el poder comprender su motivación, pues entonces la computación era una caja negra enorme para la gran mayoría, reservada para pocos privilegiados, lo que justificaría su visión de las dos primeras olas y nos ayuda a entender su percepción de la Realidad Virtual como un opuesto a la Computación Ubicua. Hoy, si bien es cierto, estamos en una fase social (Segunda ola), podemos entrever las líneas de lo que nos absorbe lentamente; La Computación “realmente Ubicua” u “Omnipresente”, centrada en lo humano y los múltiples factores que la condicionan. Hablo de una computación centrada en resolver problemas cotidianos, con gran capacidad para captar y procesar datos, que posee autonomía, inteligencia y libertad de acción… En otras palabras, una Computación de que para responder a las necesidades humanas, debe ser Afectiva, Inteligente e Interactiva… O como nos gusta referirnos a los que estudiamos el fenómeno de la emoción humana; Affective Computing & Intelligent Interactions (ACII). Es cierto, esta vista que tenemos hoy es diferente a la Weiser, pero… ¿En qué es diferente?

Repasemos lo de las 3 olas de Weiser.

  1. 1ª Ola: Un computador que sirve a muchas personas (o que se necesitan muchas personas para poder utilizarlo). Toma tiempo aprender a interactuar con él y sólo nos puede ayudar por pocos minutos en tareas puntuales, focalizado en cálculos y fórmulas matemáticas. Esta computación es la primera y generalmente la vemos en ciencia ficción representada por la gran maquina enorme que sirve para responder a preguntas trascendentes. ¿Recuerdan a “Pensamiento Profundo”, la segunda mejor computadora de todos los tiempos? Eso sería un equivalente de ésta ola en una futura nueva era en la computación, tal vez la era posterior a lo que vamos a visualizar aquí.

  2. 2ª Ola: Una computación presente, flexible, escalable, móvil, focalizada, que rodee al usuario, que sea útil para conocer el estado del entorno, que le permita comunicarse con otros dispositivos y facilitar interrelaciones remotas. Sí, nos referimos a la Computación Social. Aquí tenemos el boom de las redes sociales, de los movimientos colectivos, de la computación que se mueve con el humano, que permite ser vestida, facilita la interacción y trata de llegar a más gente. Es una etapa donde nos tocó conocernos, cruzar fronteras y aprender a relacionarnos a distancia, privilegiando la información por sobre los dispositivos. Tenemos muchos computadores para una sola persona, pero carecen de inteligencia (de la real), de la capacidad de relacionar información y de manejar grandes bases de datos.

  3. 3ª Ola: Aquí lo más fácil de visualizar es la existencia de muchos computadores para muchas personas, tantos, que no solo servirán para comunicarlas, sino que también para hacerlo entre sí mismas. A esta tercera ola la conocemos como la Computación Ubicua (o Ubicomp), la cual nos permite conocer, interactuar y manipular el entorno “análogo”. Es un evento notable, sin precedentes que pone a nuestros pies lo tangible. Cuando me refiero a “nuestros pies”, me enfoco en las personas, en el ser humano como tal. Ubicomp viene a entregarnos el control de todo a todos. Todos los objetos serán “conscientes” de su contexto en el que son dispuestos, incluso a sus cambios en el tiempo. Esta facultad les permitirá reaccionar acorde al contexto, lo que significa que no se necesitará de ninguna requerimiento especial del usuario para poder interactuar con el objeto y utilizar su poder de cómputo. En Ubicomp, es probable que el usuario ni siquiera esté al tanto de que interactúa con eso, porque la tecnología le permite enfocarse en su actividad principal. Esta gran cualidad permitirá a la tecnología adquirir un carácter de calma o pasivo.

Ubicomp dio pie para múltiples interpretaciones, entre ellas, la Pervasive Computing, Internet of Things (IoT), Ambient Intelligence, Everyware, Physical Computing, Haptic Computing, Things that Think, Tangible Media, Wearable Computing, Smart Objects, Human Computer Interface, Embedded Networking, Sentient Computing, Spime, Thing Links, etc. Todas estas especialidades son en realidad interpretaciones que pueden agruparse dentro de Ubicomp, ya que todas apuntan al control de lo tangible, del mundo “natural” de naturaleza análoga. Esta visión, en palabras de Weiser, se contrapone a la Realidad Virtual, la cual pone a nuestros pies lo intangible, lo virtualizado, lo artificial y “ficticio”.

¿Existe diferencia entre la 3ª ola con lo que podemos apreciar hoy?

Claramente la hay, está ahí, a la vista de todo amante de la tecnología. La podemos ver reflejada en una dualidad manifestada por el mismo Weiser; contrapuestos de control análogo v/s digital. En nuestra visión contemporánea, si lo pensamos en frío, ambas visiones aparentemente opuestas, tienen mucho más en común que en oposición. Ambas se centran en entregar facilidades, control y poder al humano que las utiliza; ambas buscan satisfacer las necesidades humanas sin importar que éstas sean formuladas por un niño o un ingeniero informático senior; ambas reflejan una aspiración a cubrir una necesidad biológica de supervivencia (por medio del control del entorno) y de auto-realización (por medio de la manipulación del mismo). En otras palabras, ambas son un lado diferente de la misma moneda.

Pero… ¿Qué los une?

Para nosotros es muy sencillo visualizar que el antagonismo que Weiser visualizaba no eran una realidad, sino que simplemente, un aspecto de la misma, a la cual, le faltaba un concepto unificador; un conciliador que pueda otorgarle un sentido a nuestro estándar. Es aquí donde el ACII hace de las suyas y nos lleva a pensar en lo siguiente, en la inteligencia centrada en lo humano. Es aquí donde la ciencia ficción nos toca el hombro y nos muestra lo que estamos a punto de ver. ¿Recuerdan a Asimov y sus maravillosa Multivac, los contacto AC personal y planetarios? Bueno, La tercera ola, potenciada con ACII y todo lo demás (biotecnología, farmacología, robótica, etc) nos llevará inevitablemente a esto, así como a nuevos cuestionamientos interesantes como la legitimación del transhumanismo, inmortalidad, colonización espacial, entre otros. ¡Fascinante!



Es tan fascinante que me dan ganas de bailar


¿Qué “monos pintan” los asistentes virtuales?

Debo aceptarlo, esta fue la introducción más larga para hablar de los asistentes virtuales y el porqué la mayoría tiene voz femenina.

Estamos entrando en una 3ª ola alterada, diferente a la pensada por Weiser y que a la vez, se acerca más a la de soñadores como Arthur C. Clark, Asimov y Douglas Adams. Una especie de “Realidad alternativa” a la de Weiser ¿Será que John Titor realmente cambió la historia? Nunca lo sabremos.

En esta realidad, un aspecto de la Ubicomp sigue siendo innegable; la interacción por comandos vocales, el primer paso para hacer que la tecnología se sienta invisible y al mismo tiempo, adquiera un rol pasivo en la interacción cotidiana. Esta es la antesala de los Asistentes Virtuales y lo mucho que nos facilitan la vida que nos tocó vivir.

Deténganme si ya lo han escuchado, al pensar en asistentes virtuales, el primer nombre que nos viene a la mente es Siri, y ¿cómo no?, éste personaje nos robó el corazón tras su lanzamiento en iOS 6 para usuarios iPhone en 2012. Siri emergió como un “sistema” que ayudaba a sus usuarios a encontrar restaurantes, “pronosticaba” el clima y llevaba la agenda personal. Y es que ella, (sí, ella, plenamente identificada con voz de mujer), tiene la capacidad de contestar las consultas de sus usuarios, con una voz humana y eficiente que hace notar medianos toques cibernéticos, que recuerdan que se trata de un “robot” o al menos, una representación del concepto androide. No me hagan hablar de Evi y otros pseudo-asistentes que no ayudaban más que lo hicieron el clip, el perrito y el mago de MS Word ’95. Luego de Siri, vimos llegar a Cortana (Microsoft) y Google Now, los que surgieron para representar su competencia directa, también identificadas dentro del género femenino. Pero no fue algo nuevo para la época, de hecho, para la fecha, hasta los sistemas informáticos GPS o contestadores también cuentan con voz de mujer.

La voz femenina fue motivo de largos debates en foros y blogs de internet, en los cuáles la duda principal rondaba en el por qué todos los sistemas comparten esta misma característica.



No debo ser el único que se relaja con esta animación cuando interactúo con Siri


“Es más fácil encontrar una voz femenina que guste a todos que una masculina”, Clifford Nass, profesor de la Universidad de Stanford y autor del libro “The Man Who Lied to His Laptop: What Machines Teach Us About Human Relationships”, CNN (2011).

Como lo pueden intuír del presente artículo, no me gustan las respuestas simples, es por eso que una de las respuestas que he encontrado desde que conocí a Siri en 2012, reside netamente en la biología, ya que está científicamente comprobado que la mayoría de las personas encuentra más agradable la voz femenina que la masculina. En los estudios desarrollados, se concluye que esta preferencia comienza en el vientre materno, ya que los fetos reaccionan positiva y enérgicamente a la voz de su madre. Los invito a leer este estudio que por cierto, es muy curioso desde su planteamiento (link)

Ahora, si revisamos la parte histórica, la explicación podría remontarse a la segunda Guerra Mundial, cuando se utilizaban voces de mujer en las cabinas de los aviones porque destacaban más entre los pilotos hombres. Y tradicionalmente las operadoras de teléfonos han sido mujeres, por lo que la gente simplemente se acostumbró a recibir ayuda de voces femeninas. Desde la psicología, y el imaginario de diferentes cosmovisiones, la mujer ha estado relacionada con el cuidado, con el consejo, con lo suave y la asistencia, en gran parte, porque establecemos un fuerte vínculo afectivo con las madres y éstas nos protegen hasta que alcanzamos el desarrollo.

Estos factores pueden dar respuesta de porqué gran parte de los sistemas de navegación GPS tienen por defecto voz femenina. A excepción de Alemania, donde BMW dejó de implementar la voz femenina en sus sistemas tras recibir quejas de conductores que se negaban a recibir instrucciones de una mujer.

SmartHome: La batalla de los asistentes virtuales

Alexa Echo (Amazon), Apple HomePod, Google Home y Cortana (de alguna manera), han comenzado a tomar el mundo físico, saliendo del hardware smartphone, pasando a TV, administración de luces, temperatura, etc. En estas interfaces, la voz femenina sigue siendo importante, pero también la comodidad del usuario, es por eso que, si el humano lo prefiere, la voz se puede cambiar a masculina o de diferentes acentos.

Los asistentes virtuales se han ganado a pulso un lugar en nuestras vidas, siendo la manifestación de la 3ra ola a la que nos referimos en un inicio, donde la interacción se torna más natural, rápida, sencilla y efectiva, al tiempo en que permite una mayor vinculación entre humanos y tecnología por medio de la humanización de la misma.

Para cerrar el tema de los asistentes virtuales… ¿Cómo se escogen las voces?

Para hacer la selección de voces que serán implementadas en los sistemas, las empresas acuden a la dinámica de Focus Group, donde presentan al grupo voces de autores que han sido grabadas para evaluar cómo es la reacción de los posibles usuarios antes aspectos como calidez, amigabilidad, competencia entre otras.

Las voces de inteligencia artificial de género masculino, suelen ser más usadas en películas y programas de televisión de ciencia-ficción, en contextos amenazantes o autoritarios.








Gerty, el asistente que pese a tener voz de hombre y generar desconfianza, se gana la confianza en base a emojis. (MOON 2009)





¡Espera!… ¡¿Qué?!

¿Lo femenino es asistencia y lo masculino es amenaza? ¿Les suena esto? Es en otras palabras, la aplicación del efecto Kiki/Bouba, el cual fue descubierto por el psicólogo Wolfgang Köhler en 1929, en isla de Tenerife, donde el español es la lengua primaria, Köhler mostró formas abstractas a una serie de sujetos, y encontró una fuerte preferencia a asociar la forma puntiaguda con el nombre «takete» y redondeada con el nombre «baluba».

En el 2001, Vilayanur S. Ramachandran y Edward Hubbard repitieron el experimento usando las palabras «kiki» y «bouba», donde preguntaron a una gran cantidad de sujetos «¿cuál de estas formas es bouba y cuál es kiki?». En estos experimentos conducidos tanto con hablantes de inglés como de tamil, se descubrió que entre un 95% a 98% eligieron la forma redondeada como bouba y la puntiaguda como kiki, sugiriendo que el cerebro humano de alguna manera extrae propiedades abstractas de las formas y sonidos.

Recientemente, Daphne Maurer ha mostrado que incluso niños de 2 años y medio (demasiado pequeños para leer) muestran este efecto.

Para Ramachandran y Hubbard, el efecto kiki/bouba tiene implicaciones para la evolución del lenguaje. Los sonidos de la K son más duros y fuertes que los de la B. La presencia de estos «mapeos sinestésicos» sugiere que este efecto puede ser la base neurológica para el simbolismo auditivo, en el que los sonidos son mapeados a objetos y eventos de una manera no arbitraria. Esto sugiere que el nombramiento de los objetos no es completamente arbitrario. Quizás se llame «bouba» a la forma redondeada porque la boca hace un movimiento más redondeado para producir el sonido, mientras que necesita un movimiento más tenso y angular para producir el sonido de «kiki».



¿Cuál es Kiki?


Para cerrar el artículo, quiero invitarlos a responder una de esas preguntas que quita el sueño. De esas tan complejas, incómodas y perturbadoras, que simplemente no es sano formularla (en su caso, leerla) entre las 2 y 7am, por respeto a su integridad fisiológica y cognitiva.

..

.

¿Qué heredaremos a la humanidad?

Tengo un par de ideas, pero mejor las guardo para un futuro artículo.

Comments


bottom of page