Puse un micrófono grabándome 24x7 y utilicé una AI para procesar la información. ¿Este es el futuro?
¿Que pasara cuando nuestros teléfonos graben 24x7 todo lo que decimos y usen AI para procesar esa información? Probé hacerlo yo, y este es el resultado.
Antes que nada algunas aclaraciones.
-
No es realmente 24x7 porque no encontré utilidad en dejarlo prendido a la noche (tal vez si hablaba dormido o más adelante quisiera grabar mis sueños si sería útil), pero por ahora lo dejo prendido desde que me despierto hasta que voy a dormir, y lo apago si estoy en una situación en la que no me parece apropiado tenerlo prendido.
-
Esto es una “prueba de concepto” y no apto aun para producción, que quiere decir?, que todo lo aquí descripto funciona, pero probablemente “atado con alambre”, varios de los procesos probablemente no estén automatizados ni pulidos.
MOTIVACION.
Hace unos años haciendo un análisis surgió que la tendencia del aumento de almacenamiento y abaratamiento de costos resultaría en smartphones con 1tb de espacio (al día de hoy ya hay 38 modelos con esa capacidad) , teniendo en cuenta esto la pregunta fue: ¿Cuáles serían las aplicaciones que podrían surgir partiendo de esa premisa?, una de ellas era justamente la capacidad de los smartphones de poder grabar 24x7 audio.
Con la liberación hace semanas de Whisper de OpenAi se van alineando los astros para encontrar la aplicación de lo que potencialmente podría ser el futuro, y como dice la frase “la mejor forma de predecir el futuro es crearlo”, este prototipo justamente es un experimento para adelantarnos al futuro y tener una ventana a lo que es posible.
COMO FUNCIONA.
Compre un par de micrófonos chinos, los llevo puestos y prendidos durante todo el día grabando todo lo que hablo, al final del día los archivos se procesan con Whisper de OpenAi y se transforman en archivos de texto de los cuales se extrae la información.
En ese contexto me di cuenta que se podía crear un “Asistente Digital” al estilo “Ok Google” rudimentario para aprovechar de forma activa el hecho de que de todas formas estaba registrando todo lo que decía.
Así tendría dos tipos de información que puedo generar y extraer en el día a día:
- Activa: conscientemente indico al “Asistente” lo que tiene que hacer
- Pasiva: es todo el resto de la información que se extrae sin que requiera ninguna acción de mi parte.
Funciones activas:
Son las que por medio de un keyword voy a indicar que se procesen de forma asincrónica (al final del día).
Por ejemplo, si yo decido que el keyword sea
"Robert"
Cada vez que hablo esa palabra estoy indicando que todo lo que diga después será tomado como un comando para mi asistente hasta que diga nuevamente
"Fin Robert"
Una vez que procese el audio del día y lo transforme a texto, un programa se encarga de buscar en el texto el comando y extrae todo lo que está entre "Robert"
y "fin Robert"
Por ejemplo, para registrar mi peso del día simplemente digo en voz alta
"Robert PESO 60.1 fin Robert"
El formato que defino entonces es
"KEYWORD COMANDO datos FIN KEYWORD"
De esta forma genero comandos para mi asistente de forma asincrónica.
Al final del día tomo los archivos de audio grabados y los paso por Whisper para transcribirlos, dejo un archivo de texto sobre el cual voy a correr un programa que va a buscar los keywords y extraer los comandos.
La pregunta inmediata que surge es:
Porque no simplemente utilizar “OK GOOGLE”?
Aquí van mis razones principales
-
Comandos limitados: mi mayor problema con “OK Google” es que no sé de memoria que es lo que puede hacer de forma interactiva y que simplemente va a retornar como una búsqueda en google.
-
Privacidad: Los comandos de “OK Google” se guardan en google con el archivo de audio completo, prueba ingresar al historial de pedidos de google y podrás escuchar tu voz, y muchas veces la música y las conversaciones de fondo cuando envías comandos a google.
-
Sincrónico: Cuando envías un comando a Google, existe un retraso, a veces de varios segundos para recibir el comando , y otro para ver si entendió correctamente lo le dijiste, esto en mi experiencia corta y distrae de la actividad que estás haciendo y lo hace más lento que simplemente usar el teclado.
En este experimento todos estos puntos se solucionan:
-
Comandos limitados: Los comandos los defino yo, así que yo sé lo que tengo que decir.
-
Privacidad: Yo soy dueño de todo el proceso, privacidad 100%
-
Sincrónico: Es asincrónico, no tengo que esperar respuesta ninguna, simplemente digo el comando mientras estoy haciendo otra cosa y confío que será ejecutado al final del día.
DESVENTAJAS
Este enfoque tiene también sus desventajas :
-
Los comandos que envío no se ejecutaran si no al final del día, por lo que no me servirá para recordarme algo que tengo que hacer ese mismo día.
-
Al ser asincrónico tampoco me voy a enterar si se pudo procesar lo que pedí exitosamente hasta el final del día.
MUESTRAME YA EL RESULTADO.
EL EQUIPO
Este es el equipo que utilice para grabar, un box chino con 5.000Mah que tiene función de grabación continua y 32Gb de espacio para grabar, configurado para crear archivos de 30 min de audio que a la calidad definida toman aproximadamente 28mb de disco en formato MP3, unas 16hs de grabación diaria tomarían 900mb en disco.
La distancia a la que se coloca el grabador de la boca hace mucha diferencia en la calidad de la grabación, probé inicialmente colocarla en el bolsillo de la camisa, pero los resultados de la transcripción eran bastante mediocres, arme un setup nuevo que, aunque incomodo mejoro bastante la calidad de la transcripción.
COMO FUNCIONA EN UN DIA.
API ANALOGICO: Varios artículos electrónicos tienen conectividad solamente con mi celular y no tienen forma de exportar esa información, ahora utilizo a mi asistente como un “Api Analógico” para comunicar y centralizar información entre dispositivos dispersos.
CONTEO DE CALORIAS Y COMIDAS: Indico en voz alta todas las comidas del día, al final del día puedo tener la lista de comidas consumidas y utilizar un API externo para calcular las calorías consumidas en cada comida y el total.
O simplemente puedo hacer una rutina para que el asistente registre las calorías del alimento leyéndola del empaque.
NOTAS: Tomo notas que van a ser centralizadas o puedo hacer resumenes de ideas sin sacar las manos del volante.
GASTOS: Cada gasto que hago en el día lo repito en voz alta para registrarlo.
Las ideas van surgiendo con la cantidad de información que puedo registrar y convertir en accionable con solo hablarla en voz alta.
No puedo negar que se siente un poco extraño estar “hablando solo” pero también me libera de la pantalla del celular o de tener que esperar ningún retorno y simplemente hablar confiando que será ejecutado lo que estas pidiendo más adelante.
EL PANEL DE CONTROL.
El resultado de toda la información que explícitamente le indico a mi asistente se puede centralizar en un panel de control diario:
El panel de control es un ejemplo básico de lo que podemos hacer con la info con la que vamos alimentando a nuestro asistente de forma natural.
¿Nuestros días pasan todos iguales?, ¿No sabemos en qué se fueron las horas?, podemos también crear “Mi Diario” para que nos genere un resumen de lo que hicimos en el día.
Inicialmente de forma implícita voy diciendo en voz alta lo que estoy haciendo, pero lo ideal sería que teniendo en cuenta los horarios se pueda intuir de forma automática de acuerdo al contexto de lo hablado, al final del día me genera un “Diario” de todo lo que hice en el día.
Todas las funciones Activas requieren una acción consciente de nuestra parte que se traducirán en resultados que esperamos de nuestro asistente.
Pero el resultado interesante estará en la información Pasiva que obtenemos por el simple hecho de registrar nuestra conversación diaria, algunas de las ideas son:
INFORMACION PASIVA EXTRAIBLE - EN CURSO!
TERMOMETRO DE RELACIONES
De acuerdo a estudios sobre relaciones de parejas, se puede predecir con una exactitud de hasta un 90% si la pareja se va a divorciar estudiando las interacciones, específicamente la relación entre interacciones positivas y negativas entre la pareja:
https://www.gottman.com/blog/the-magic-relationship-ratio-according-science/
El ratio mágico es 5 a 1 según este estudio, por cada interacción negativa durante el conflicto una pareja estable y feliz tiene 5 interacciones positivas.
Se podría sacar a mediano plazo el estudio analizando las interacciones verbales.
ANALISIS DE SENTIMIENTO.
Se puede intentar hacer un análisis de sentimientos por hora y situación para poder identificar bajo que situaciones se percibe mayor estrés, relajación, alegría y tristeza durante el día.
¿Utilizo adjetivos positivos o negativos al referirme a algún tema o persona?
TOTAL RECALL.
Implementar un buscador para mostrar por ejemplo todas las instancias en donde hable de X tema, o cual era mi opinión en algún momento sobre X tema.
CONCLUSIONES PRELIMINARES.
-
Soy un poco menos paranoico por que graben todo lo que digo:
En mis pruebas, utilizando el celular y dejándolo grabar audio a la distancia en la que normalmente estaría, la precisión con la que se transcribe es bastante mediocre, de acuerdo a la distancia diría que ronda el 50% o menos de exactitud, que aun permitiría captar eventualmente si estoy hablando sobre alguna marca para ponerme publicidad, pero no lo suficiente para hacer algo preciso o complejo, no dejo de lado que los que pueden tener acceso al audio de los teléfonos tengan ya modelos de AI que mejoren la calidad de audio , pero mis pruebas me dan un poco más de tranquilidad en ese sentido, no es tan fácil como parecía grabar 24x7 y sacar algo con la suficiente precisión para hacer algo importante. -
Se necesita además del audio, el contexto:
Leer el resultado de las transcripciones, sin el contexto adecuado (hora, ubicación, con quien estoy hablando, el contexto anterior de lo dicho) es muy limitante -
El potencial de hacer esto bien es inmenso, tanto positivo como negativo:
POSITIVO
Memoria Perfecta : Algo mágico es básicamente poder “revivir” a la perfección todo lo que hice en el día, a partir de las conversaciones triviales y sabiendo el contexto de las mismas, algo que hoy se pierde en el éter puede quedar disponible desde ahora.Psicólogo/Coach personal : Registrar todo lo que salió de nuestra boca, cada interacción que tuvimos, y analizar eso nos puede dar una visión tal vez imposible hasta ahora de tener, un psicólogo/coach en tiempo real que nos acompaña a todos lados.
Un clon virtual : Imagínate entrenar a un GPT3 con todo lo que dijiste en el ultimo año?, y hacer que bajo ciertos parámetros conteste tus mensajes, o maneje tu agenda.
NEGATIVOS
Exactamente los mismos puntos, pero en manos de alguien más que nosotros.
La diferencia entre utopía o distopia es quien tiene acceso a esa información
* Imagen de la cabecera generada con Stabledifussion