Reflexiones sobre la escucha y el aprendizaje automático

Aarón Escobar Castañeda

Facultad de música, UNAM 

Hoy en día estamos en un momento en el que cualquier persona con una computadora e internet puede tener acceso a un poder de cómputo lo suficientemente alto para interpretar muchísima información. Asimismo, es posible acceder al estado actual del aprendizaje de máquinas e implementaciones tecnológicas (o productos culturales), desde bases de datos, código, artículos, publicaciones académicas, blogs, videos y libros.

Esto habla, por un lado, de una democratización del conocimiento enfocado en el aprendizaje de máquinas y la inteligencia artificial, una forma de construcción del conocimiento que funciona de manera colectiva y descentralizada (aunque también institucionalizada, véase ISMIR1) que interesa a las grandes corporaciones desarrollar lo más rápido y eficientemente posible.

Por otro lado, esto habla también de una estrategia para la inmediata cooptación del conocimiento nuevo por las empresas y su abierta cartera de trabajo para futuras contrataciones en los grandes consorcios corporativos (Facebook, Amazon, Google, Apple, Microsoft, etc): una vieja y nueva forma de control en la que el mismo capital va creciendo económica y tecnológicamente, cada vez más rápido. Por esa razón, actualmente muchas empresas abren cada vez más su código, organizando concursos a lo largo del año2 para el desarrollo de herramientas específicas, así como congresos anuales donde es posible encontrar todo tipo de proyectos relacionados con la vigilancia, la asistencia médica, etc.3

La anterior es una estrategia bastante acertada, ya que implica una diversificación económica y educativa que va hacia todos lados y en todas direcciones. Entre más rápido avance el conocimiento en el desarrollo del aprendizaje de máquinas, más ingresos pueden percibir las empresas, más subjetividades pueden moldear y más inteligente se va haciendo el sistema. Si las corporaciones, agencias gubernamentales y privadas son capaces de desarrollar mayor poder de pensamiento y análisis de datos, pueden actuar con mayor eficacia frente a posibles cambios dentro del propio sistema, pudiendo así impulsar nuevas estrategias para llegar a más nichos de consumo y/o mantener a la población en un estado de ensoñación eterno.

¿Qué aproximaciones a la escucha ha desatado esta nueva forma de acceder a la información? ¿De qué manera se aproxima la inteligencia artificial al mundo del sonido, en el que es posible captar, encapsular, analizar y clasificar datos, posibilitando relaciones casi inmediatas entre la producción-emisión y la transmisión en red de los mismos?

Jonathan Crary señala que las formas en las que escuchamos, miramos o nos concentramos en un objeto cualquiera tienen un profundo carácter histórico. Las formas en las cuales nos acercamos a dicho objeto y lo que miramos de ese objeto, van cambiando a través de los siglos, de manera que también modelan nuestra subjetividad.4 Con las nuevas inserciones de dispositivos tecnológicos en nuestra vida, surgen nuevas formas de mirar, escuchar e interactuar, además de otros mecanismos para concentrar o disipar nuestra atención (Crary llama a esto “recepción en estado de distracción”).

En este sentido, las diferentes formas de escucha no necesariamente involucran la presencia sonora sino también otras formas de presencia que nos obligan a atender y entender la información que circula a través de los medios. Por ejemplo, Crawford señala que actualmente podemos pensar en una forma de escucha en línea, en la que podemos dar cuenta del proceso imparable de la transmisión de información en red, de manera similar a como funciona nuestro oído (es imposible cerrar la audición completamente, al igual que es imposible cerrar la transmisión en red debido a su carácter descentralizado).

Escuchar en línea puede ser entendido en cualquier número de contextos: sean wikis, MUD’s, blogs, listas de correo e incluso alimentadores RSS. [. . . ] Escuchar no es una metáfora común para la actividad en línea. De hecho, la participación en línea ha tendido a confundirse con aportar una “voz”. “Hablar”se ha convertido en la metáfora dominante para la participación en espacios en línea tales como blogs, wikis, sitios de noticias y listas de discusión.5

Poner atención online es también entendido como una práctica de escucha o la forma de atender a algo o de entender algo. Pero ¿quiénes son los que atienden y filtran esta información?, ¿para qué fines es empleada la información extraída?, ¿de qué forma se entiende esta información? En respuesta, Kate Crawford destaca diferentes tipos de escucha que pueden actuar en la red: una persona, una compañía y un partido político. Estas dos últimas con la posibilidad de desarrollar una capacidad mayor para poder escuchar a más personas al mismo tiempo.

Es cierto que actualmente mucha de la información, sonora, “vocal” y sensible que las compañías guardan es vendida/traficada/comercializada a los grandes consorcios corporativos, para ofrecer más productos y servicios que son completamente dinámicos y adaptables a necesidades y situaciones diversas de los consumidores. Cada vez es más común escuchar decir a alguien que ha dicho algo por la mañana y después de unas horas ha encontrado anuncios o información relacionada con aquello que había sido expresado en sus cuentas de correo, teléfono o redes sociales. Esto hace evidente que el “sistema” nos vigila, y que puede predecir cada uno de los pasos que damos. Estos procesos son mejor conocidos como minería de datos, bigdata o machine learning.

Hay mucha información que fluye y prácticamente es asequible por cualquiera que esté interesado en tomarla y aprender de ella. Evidentemente, también hay mucha información que es inasequible o está encriptada. Además, es posible generar una base de datos propia, comprarla u obtener alguna base de datos pública que esté disponible en línea. Prueba de ello son diversas plataformas que cuentan con una amplia diversidad de temas de interés para realizar análisis de datos con diversos fines.6

Cabe agregar que la extracción de información online es posible básicamente sobre cualquier página de internet; sabiendo utilizar esta tecnología es factible construir bases de datos, ya sean basadas en videos, imágenes, correos, tweets, mensajes de Facebook, etc. Un buen ejemplo de ello es la librería Beautiful Soup, de Python,7 e incluso Youtube y Google han generado grandes bases de datos basadas en los contenidos que todos subimos a sus servidores. Un dato importante es que muchos de estos contenidos pueden ser descargados bajo licencias Creative Commons para su análisis, observación o implementación en proyectos y aplicaciones.8

Un ejemplo interesante a propósito de lo anterior es el proyecto de Daniel Jones y Peter Gregson, The Listening Machine (la máquina que escucha), que es definido por sus propios creadores como un

sistema automatizado que genera una pieza de música continua basada en la actividad de 500 usuarios de Twitter alrededor del Reino Unido. Sus conversaciones, pensamientos y sentimientos son transferidos en patrones musicales en tiempo real, a los cuales te puedes sintonizar en cualquier momento a través de cualquier dispositivo conectado a la red.9

Este sistema, basado en la observación de patrones de comportamiento para su transducción a piezas musicales, es un claro ejemplo de la escucha online que menciona Crawford. Si bien el hecho de usar este tipo de información para vaciarla en un objeto artístico sería lo más ingenuo que podemos hacer con estos datos, cabría preguntarnos: ¿qué nos dice esta “sonificación musicalizada” de nuestros hábitos más entrañables (como mirar, por ejemplo, cien o más veces al día la pantalla de nuestro teléfono celular)? Y para los centros de poder, ¿qué representan todas estas herramientas y nuevas posibilidades de vigilancia para observar y desentrañar nuestros patrones de comportamiento, así como para localizarnos físicamente en cualquier momento con un detalle y certeza brutales?

Citando a la autora Wendy Hui Kyong Chun, quien habla acerca de los hábitos que hemos creado a partir del uso de las tecnologías actuales, y específicamente de internet, hay que tener en cuenta lo siguiente:

El hábito es información: éste forma y conecta. Los hábitos son anticipaciones creativas basadas en repeticiones pasadas que hacen mapas de la red sobre el futuro histórico. A través de los hábitos, las redes son escaladas, porque cada tic [gesto] individual se convierte en un indicador de inclinaciones colectivas.10

La idea del hábito la encuentro especialmente importante porque determina nuestra subjetividad: “a través del análisis de los hábitos de las acciones individuales se aglutinan los cuerpos en una quimera monstruosamente conectada”.11 Considero que una forma de salir de este determinismo y esos hábitos tan fuertemente arraigados en la sociedad es, primeramente, hacernos dueños de nuestra información. En vez de regalársela a las compañías, habría que vendérselas, si es que de verdad la quieren. Si se las vendemos, inevitablemente nos cobrarían por usar los servicios de internet que estamos acostumbrados a usar de manera aparentemente gratuita. ¿Qué pasaría entonces? Tal vez usaríamos otras redes, otras formas de comunicación diseñadas para y por nosotros, redes sociales descentralizadas, abiertas, ajenas a las corporaciones, más bien generadas por comunidades interesadas en la privacidad, el valor de los datos, el anonimato. Ejemplo de ello puede ser la plataforma multimedia Archive, el colectivo Riseup, la red social Diaspora o el uso de cryptomonedas y la tecnología de Blockchain.12

Por otro lado, las recientes aproximaciones al reconocimiento de señales de audio (Music Information Retrival, MIR) están mayoritariamente centradas en desarrollar algoritmos para el control automático de dispositivos para la guerra, robots de rescate, herramientas de vigilancia, análisis clínico y reconocimiento de géneros musicales. Estos algoritmos identifican información relevante de audio, la cual extraen en grandes cantidades para almacenarla en listas de valores separados por comas (csv por sus siglas en inglés). Esta información tiene que ser analizada y organizada en clases o clusters —proceso conocido como entrenamiento o training— con programas enfocados en el aprendizaje de máquinas o machine learning. Entre los programas utilizados para estos objetivos están WEKA, R, CAFFE, la librería Scikit-learn, Tensorflow, entre otros. Los asistentes personales “inteligentes” se han convertido en una parte fundamental para “comunicarnos” con la tecnología, enviando información en `tiempo real” a las empresas que ofrecen estos servicios.

Además, los sistemas de vigilancia que utilizan máquinas que escuchan han sido importantes para revelar información clave sobre el comportamiento de una persona a través de los micrófonos insertos en casi todos los dispositivos móviles o fijos que utilizamos actualmente, sin mencionar lo referente a la vigilancia satelital. Actualmente se ha desplegado una oleada de diferentes dispositivos con el objetivo de vigilar y tener todo bajo control a través del análisis de datos. Esto puede ocurrir a través de dispositivos electrónicos que mandan información directamente a los centros especializados sobre los usos individuales de la electricidad, el internet, el tráfico, los datos personales, etc., pero puede también suceder a través de dispositivos tan variados como muñecos (jugetes)13 y cápsulas inteligentes.14

Ante el riesgo que esto implica, algunos países, como Alemania,15 han tomado medidas contra el esparcimiento de dispositivos de vigilancia disfrazados de electrodomésticos o juguetes, pero debido a la enorme cantidad de población y la desenfrenada velocidad de producción de consumibles, no se ha podido regular plenamente este tipo de situaciones. Esto me lleva a decir que actualmente estamos en una época que se caracteriza por la falta de regulaciones y políticas públicas que frenen el libre esparcimiento de la información y los desarrollos tecnológicos que sirvan a fines como los antes señalados. Esta falta de regulación hace posible que tanto agencias gubernamentales como privadas usen todos estos datos para llevar a cabo los desarrollos más sofisticados relacionados con asistencia policial y militar.16

La creación de armas autónomas es inevitable, así como el surgimiento de nuevas formas orden y control. El gobierno de EEUU ha mostrado abiertamente en un documento titulado Human Systems Roadmap Review17 el uso de sistemas de aprendizaje automático para delegar decisiones a las máquinas cuando así se requiera, además de la colaboración humano/máquina y el empleo de armas autónomas que simulan las capacidades cognitivas, psicomotoras y perceptivas del humano, llegando a ser capaces de detectar enemigos y tomar la decisión de disparar cuando la máquina considere conveniente. Todas estas estrategias están siendo destinadas las llamadas “guerra cyber-electrónicas”.18

Ahora bien, para que decisiones de este tipo sean tomadas por un robot, es necesario que las máquinas puedan explicarse por sí mismas, es decir, justificar las razones por las cuales han decidido llevar a cabo cierta acción, lo que implica un mecanismo de aprendizaje profundo que involucra procesos increíblemente complejos:

“El aprendizaje profundo es especialmente críptico debido a su increíble complejidad. Está más o menos inspirado en el proceso por el cual las neuronas en el cerebro aprenden en respuesta a una entrada. Muchas capas simuladas de neuronas y sinapsis son datos etiquetados y su comportamiento se ajusta hasta que aprenden a reconocer, por ejemplo, un gato en una fotografía. Pero el modelo aprendido por el sistema está codificado en el peso de muchos millones de neuronas y, por lo tanto, es muy difícil de examinar. Cuando una red de aprendizaje profundo reconoce a un gato, por ejemplo, no está claro si el sistema se enfoca en los bigotes, las orejas o incluso la [silueta] del gato en una imagen”.19

Se ha vuelto común pensar en este tipo de sistemas como “cajas negras”, donde no se sabe por qué ni cómo es que un determinado problema es resuelto por el algoritmo. Ante la complejidad que esto conlleva, agencias como DARPA (Defense Advanced Research Projects Agency) actualmente financian proyectos destinados a la autoexplicación de sistemas basados en el aprendizaje de máquinas. Algunos avances en los proyectos de empresas como Charles River Analytics han logrado que el sistema de aprendizaje automático señale áreas de imágenes que son relevantes para la clasificación, así como explicaciones basadas en datos que devuelve el sistema y que posteriormente pueden ser convertidas a lenguaje natural.20

Ideas finales

Después de exponer lo anterior, quisiera llevar mis reflexiones hacia la pregunta de qué injerencia puede tener el arte dentro de la ciencia o el desarrollo tecnológico, al aplicar tecnologías de aprendizaje de máquinas para el terreno de la creación de obras o proyectos artísticos.

Como hemos visto, el aprendizaje de máquinas se hace cada vez más cotidiano y más necesario para acceder a la enorme red de información actualmente disponible. La pregunta es si el uso de machine learning en el arte puede aportar algo a este debate, o si se limita a legitimar las prácticas de vigilancia y guerra de las que hablamos antes, sin siquiera cuestionar qué es lo que soporta, a una escala más amplia, este tipo de desarrollos tecnológicos.

Pese a que cada vez se hace más común la utilización del aprendizaje de máquinas en las artes, aún faltan más iniciativas artísticas que cuestionen las implicaciones socio-políticas, lejos de las implementaciones tecnocráticas, para generar un conocimiento que trascienda las “clásicas” aproximaciones científicas, mismas que se suelen basar en la dominación humana, al punto de atentar contra la propia vida sensible y la ecología de nuestro planeta.

Atendiendo a una perspectiva que cuestione el trasfondo socio-cultural de las prácticas de machine learning, está la posibilidad de apropiarse de la tecnología para conocer su funcionamiento, límites y posibilidades, además de anticipar futuras formas de desarrollo y tomar las medidas necesarias para su transformación en favor de una ética adecuada para las futuras integraciones tecnológicas dentro de las sociedades, así como dentro del medio ambiente. Al respecto Fritjof Capra señala la necesidad urgente de una ética ecológica en relación al uso de la tecnociencia, que contemple plenamente la vida y las interrelaciones de todos los organismos.

Dicha ética se necesita urgentemente, puesto que mucho de lo que los científicos están haciendo no es constructivo y respetuoso con la vida […]. Con físicos diseñando sistemas de armas capaces de borrar la vida de la faz de la tierra, con químicos contaminando el planeta, con biólogos soltando nuevos y desconocidos microorganismos sin conocer sus consecuencias, con psicólogos y otros científicos torturando animales en nombre del progreso científico… con todo ello en marcha, la introducción de estándares “ecoéticos” en el mundo científico [y tecnológico] resulta de la máxima urgencia.21

Como artistas y ciudadanos, considero de suma importancia tomar el control sobre las tecnologías relacionadas con el aprendizaje automático de máquinas. No vivir solamente siendo usuarios de la tecnología, sino apropiarnos de ella y de las legislaciones que existen al respecto.

Si algún día construimos cerebros de máquinas que superen los cerebros humanos en inteligencia general, entonces esta nueva superinteligencia podría volverse muy poderosa. Y, como el destino de los gorilas ahora depende más de nosotros los humanos que de los gorilas mismos, entonces el destino de nuestra especie dependería de las acciones de la superinteligencia de la máquina.22 Pareciera absurdo, pero por momentos me imagino que en unos años será posible vivir en un estado (pólitico y territorial) dominado las máquinas “inteligentes”. Si llegásemos a presenciar la llegada de la singularidad tecnológica, —es decir, el momento en el que las máquinas se vuelvan capaces de desarrollar su propio software, generando una autopoiesis recursiva y por tanto un auto-mejoramiento constante y exponencial, ¿qué o quien podría detenerlas de su propia autoevolución desenfrenada?

Ni siquiera el conocimiento de toda la humanidad podría competir contra estas nuevas tecnologías, ya que la capacidad de entendimiento humano se vería sobrepasada por millones de redes inteligentes interconectadas; cambios sociales inimaginables que superan por mucho los actuales conceptos de dominación y control, imposibles de prever o comprender por cualquier ser humano.

Sin embargo, como señala Nick Bostrom:

“Tenemos una ventaja: podemos construir las cosas. En principio, podríamos construir una especie de superinteligencia que protegería los valores humanos. Ciertamente tendremos una razón fuerte para hacerlo. En la práctica, el problema del control -el problema de cómo controlar lo que haría la superinteligencia- parece bastante difícil. También parece que sólo tendremos una oportunidad. Una vez que exista una superinteligencia antipática, nos impediría reemplazarla o cambiar sus preferencias. Nuestro destino estaría sellado. […] Este es posiblemente el desafío más importante y desalentador que la humanidad haya enfrentado. Y, —ya sea que tengamos éxito o fracasamos— probablemente sea el último desafío al que nos enfrentaremos”.23

Para concluir, me quedo con la reflexión del papel que juegan la fantasía y la imaginación en la construcción de los imaginarios colectivos del futuro, ya que de cierta forma son capaces de construir todo un arsenal de posibles realidades. El género de la ciencia ficción, por ejemplo, podría ser considerado una herramienta para prepararnos, una herramienta que contribuya a la generación de subjetividades que de múltiples formas se encuentren preparadas para los escenarios que en unos cuantos años podríamos enfrentar.

Tal vez nuestra tarea sea imaginar cómo y dónde queremos estar en el futuro. Ahora nos toca soñar y hacer que nuestros sueños se hagan realidad en favor del bien común y de todo(s) lo(s) que tiene(n) que estar presente(s) para que eso suceda.


Referencias

Jonathan Crary. Suspensions of Perception: Attention, Spectacle, and Modern Culture. October books. MIT Press, 2001.

Kate Crawford. Following You: Disciplines of Listening in Social Media. The Sound Studies Reader. Taylor & Francis, 2012.

Wendy Hui Kyong Chun. Updating to Remain the Same: Habitual New Media. The MIT Press, 2016.

Fritjof Capra. La trama de la vida: Una nueva perspectiva de los sistemas vivos. Colección compactos. Editorial Anagrama S.A., 2009.

Nick Bostrom. Superintelligence: Paths, Dangers, Strategies. Oxford University Press, 2014.


4 Jonathan Crary. Suspensions of Perception: Attention, Spectacle, and Modern Culture. October books. MIT Press, 2001, p.1

5 Kate Crawford. Following You: Disciplines of Listening in Social Media. The Sound Studies Reader. Taylor & Francis, 2012, p.79.

7 https://www.digitalocean.com/community/tutorials/ how-to-scrape-web-pages-with-beautiful-soup-and-python-3

10 Wendy Hui Kyong Chun. Updating to Remain the Same: Habitual New Media. The MIT Press, 2016, p.3.

11 Idem, p.3.

15 Idem.

16 https://www.army.mil/article/176368/using_long_distance_control_ army_tests_robotic_vehicle_along_challenging_australian_terrain, https: //insights.sei.cmu.edu/sei_blog/2017/06/army-robotics-in-the-military.html, https://gcn.com/articles/2017/05/22/dod-ai-machine-learning.aspx

17 http://www.defenseinnovationmarketplace.mil/resources/NDIA_Human_ Systems_Conference_2016_HSCOI_DistroA_FINAL.pdf

20Idem.

21Fritjof Capra. La trama de la vida: Una nueva perspectiva de los sistemas vivos. Colección compactos. Editorial Anagrama S.A., 2009, p.32.

22Nick Bostrom. Superintelligence: Paths, Dangers, Strategies. Oxford University Press, 2014, p. 2.

23Nick Bostrom. Superintelligence: Paths, Dangers, Strategies. Oxford University Press, 2014, p.2.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s