Emagister entrevista a la figura del Data Science y el Análisis de Datos, Ricardo Baeza-Yates

Con el afán de seguir brindando contenido que te sirva en tu futuro profesional, desde Emagister hemos entrevistado a una figura relevante en el sector de Data Science e Inteligencia Artificial; Ricardo Baeza-Yates, ex Vicepresidente de Investigación en Yahoo Labs, Director de Investigación del Instituto de IA Experiencial en Northeastern University (EE.UU.), fundador y Director de Investigación de OptIA, Observatorio Público para la transparencia e inclusión algorítmica (Chile) y actual profesor de medio tiempo en la Universitat Pompeu Fabra.

En este artículo conocerás el punto de vista de Ricardo acerca de la importancia del manejo de datos, el consentimiento de los usuarios para el uso de los mismos, cómo estos influyen en la productividad de una empresa y qué consejos le podría dar a los estudiantes o interesados en formar una carrera dentro del sector del Big Data.

Te mostramos lo que nos comparte Ricardo Baeza sobre el futuro del Big Data:

EM: ¿Cómo se ve el futuro dentro del análisis de datos?

RB: En el futuro habrá mucha automatización, vamos a tener sistemas que hacen análisis de datos por sí solos, y que podrán encontrar patrones y anomalías de manera más automática. Y cuando no sean automáticos, necesitarán poca supervisión humana.

EM: La revolución en la aplicación de tecnologías de aprendizaje automático, un área de la IA sobre datos de usuarios supuso un antes y un después respecto a cómo se usaba en los modelos habituales de recuperación de información (Information Retrieval). De tu época en Yahoo, ¿cómo se utilizaban antes los datos de usuario para mejorar los resultados de búsqueda, y cómo crees que ha evolucionado al día de hoy?

RB: Al comienzo de los años 2000 se empezaron a utilizar los datos de uso de los buscadores para realizar los ránkings de las respuestas. Alrededor del 2004 – 2005, se empezaron a utilizar los clics como la primera señal de lo que es más relevante dentro de los buscadores pero un problema de los mismos es que se encuentran sesgados según su posición en el ranking y la información que se muestra con lo que la gente piensa que la información es mejor porque algo está en las primeras posiciones.

Lo que ha cambiado es que ahora se pueden analizar mucha más cantidad de datos y de mejor manera realizando un análisis profundo, con procesadores gráficos (GPU) y gracias a esto se pueden determinar factores relevantes de manera automática. Por ejemplo, se puede analizar mejor cuál clic es más importante, cuánto tiempo una persona tarda en quedarse en el enlace, entre otros, y así eliminar el sesgo de la posición de los clics.

EM: Los algoritmos basados en transformadores bidireccionales como BERT o modelos de lenguaje como GPT-3 son impresionantes, ¿hacia dónde vamos con esta tecnología y que podemos esperar a futuro?

RB: Actualmente hay una controversia respecto a esto, porque son muy impresionantes cuando funcionan y muy decepcionantes cuando no funcionan. Para mí, más importante que ese 99% cuando funcionan, sería identificar ¿qué pasa ese 1% cuando no funcionan? Porque si fallan en situaciones inocuas, no hay problema pero ¿qué pasa si fallan generando sesgos de racismo, xenofobia, homofobia, etc.? En estos casos no se justifica usar este modelo del lenguaje. Estos sistemas traducen la información que encuentran pero no la entienden, lo mismo que pasa en reconocimiento de imágenes: traducen la imagen de un gato a la palabra gato pero todavía no saben lo qué significa un gato.

EM: ¿Qué opinas sobre FLOC y la tecnología basada en cohortes para dar privacidad al usuario en el sector publicitario?¿Deberían las empresas de publicidad digital dejar de predecir las preferencias de sus usuarios?

RB: Esto está ocurriendo debido al cambio del sistema operativo de los iPhone de Apple, donde el usuario puede escoger si sus datos son trazados o no. FLOC es muy parecido a lo que se llama “anonimidad de grupo”, que quiere decir que en términos de datos, te encuentras protegido por ser una persona más dentro de un grupo. Así por ejemplo, se puede crear un cohorte con un grupo de españoles de 30 años de salario medio. Sin embargo, para que las cohortes funcionen tienen que ser de grupos más pequeños.

Considero que esto no es la mejor manera, actualmente soy miembro de una asociación nueva que se llama DPPA, donde la idea es tener un protocolo probado para todo lo referente a publicidad y que parte del tema de preguntarle a las personas si están de acuerdo con que se usen sus datos. Y la ventaja es que si se obtienen estos datos, no sólo son con consentimiento si no que además son verdaderos.

Se pueden usar también pruebas de conocimiento nulo (zero knowledge proofs) en las cuales yo puedo afirmar cosas y demostrar que son ciertas sin tener que compartir mis datos, como la información de mi dinero en el banco sin tener que demostrar cuánto dinero tengo en el banco.

EM: ¿Cómo consideras que influyen los datos en la productividad de las empresas?

RB: Los datos dentro de una empresa son vitales, considero que es lo más importante que tiene una empresa para mejorar la productividad de sus empleados y la productividad económica, lo clave es identificar cuáles son importantes, analizarlos, interpretarlos bien.

EM: ¿Crees que la creación de los ‘filtro burbuja’, utilizados diariamente en la interacción con la web, pueden perjudicar a largo plazo la experiencia del usuario?

RB: El filtro burbuja es básicamente lo que se sabe de la persona, pero una persona es mucho más que eso. Al encasillar a una persona en una burbuja, es como ponerla en un túnel, se queda ahí para siempre. Un sistema de software completo también está en una burbuja, que es la suma de las diferentes burbujas de los usuarios y las personas no se dan cuenta de esto.

Podemos poner como ejemplo el comercio electrónico que no es justo, empresas como Amazon y Aliexpress no conocen todos sus productos ni todos sus usuarios y eso perjudica a los más pequeños que venden menos, perjudica la diversidad, hay menos oportunidades, entre otros problemas.

EM: Debido a tu carrera, se entiende que debes seguir de cerca los distintos medios digitales y la información que se publica, ¿cuál consideras que sea el balance ideal para aprovechar estas herramientas sin quedar atrapado dentro de la ‘burbuja digital’?

RB: Actualmente creo que ahora no hay una buena respuesta a esto, ya que hay muchas cosas que se podrían hacer pero actualmente no se hacen.

El problema es ¿cómo salir de la burbuja? Es un dilema, y para esto me gustaría yo poder controlar más la experiencia del usuario, dejando de pensar que el usuario es estúpido y se le podrían brindar las herramientas para que cambien los filtros según lo que estén buscando en ese momento. Por ejemplo, que puedan personalizar las noticias que ven diariamente y que puedan escoger escuchar noticias totalmente distintas a su elección habitual, mostrándoles algo totalmente opuesto a lo que sería su estándar, para que puedan conocer que hay más allá de su burbuja.

Por esto también es necesario realizar una eliminación de los sesgos según las posiciones, darle más importancia a un clic en la posición 8 que a un enlace en la posición uno, eliminando el impacto de estos filtros de a poco.

EM: Durante la pandemia se cuestionó mucho la veracidad y el manejo de la información que era publicada por los distintos gobiernos, ¿Qué medidas deberían tomar los gobiernos para garantizar un correcto uso de la información privada del usuario?

RB: Esto es parte de los problemas que hay que resolver hoy en día, creo que la solución parte de cierto control correlativo. Las personas deben entender más lo que están consumiendo, verificar la fuente, habría que tener regulaciones más estrictas para castigar a los que “mienten”. Ahora también habría que clasificar el tipo de las mentiras, por ejemplo, Claire Wardle tiene una taxonomía para clasificar si la información es verídica y con qué intención se la está compartiendo. Este es un tema que el gobierno por sí sólo, las empresas por sí solas y los usuarios por si solos no lo pueden resolver, debemos colaborar.

EM: ¿Cómo fué tu acercamiento a la investigación de software y data science, cuándo decidiste formarte y dedicar tu vida profesional a ella?

RB: Bueno, cuando empecé hace más de 30 años no existía esto de Data Science. Siempre tuve interés por los algoritmos y ver cual era la forma más eficiente de resolver problemas, entender la intención de la gente con análisis profundos. Ahora se utiliza el término de ciencia de datos para un conjunto de cosas que antes ya existían, incluyendo ahora el uso ético de los datos, la inteligencia artificial, perolos problemas también se hacen más evidentes y hay más temas que resolver.

EM: ¿Cuál es la lección más valiosa que te sirvió para llegar a la posición que tienes hoy?

RB: Puedo mencionar tres cosas muy importantes que muchas veces a la gente le cuesta aplicarlas:

-Lo primero sería: hacer las cosas sin pensar mucho, para hacer mucho no hay que darle vuelta a las cosas. Muchas veces la decisión que se toma es la que se pensó primero.

-No hacer planes, los planes limitan a las personas y los cambios son oportunidades para el futuro. Hay que abrazar y manejar la incertidumbre.

-Y por último, no hay que arrepentirse nunca de nada, porque si se volviera a estar en la misma situación se hubiera tomado la misma decisión. Es fácil arrepentirse con mayor información, lo importante es aprender de la experiencia.

EM: ¿Algún consejo para las personas que quieran realizar una carrera dentro del sector de data science?

RB: Actualmente hay tantos recursos en la Web, que se podría estar estudiando toda la vida. Por primera vez se podría ser autodidacta, solo se necesita habilidad para la lógica, los números y para pensar de forma más causal, porque hay un problema hoy en día de asumir cosas que no son: como inferir las

preferencias de una persona en base a su apariencia física. Hay personas que piensan que el 70% de la predicción ya es suficiente y este 70% podría ser aleatorio.

Y otro consejo sería preguntarse dos cosas antes de hacer algo, ¿hay alguna razón científica que valida esto?, y segundo ¿le voy a hacer daño a alguien?.

EM: ¿Qué trabajos relacionados con la tecnología crees que serán más fácilmente sustituidos por inteligencias artificiales y cuales crees que será más complicado que lo sean?

RB: Yo creo que todos los trabajos que son repetitivos, manuales o más sencillos, pueden ser sustituidos y deberíamos estar felices de que así sea. Van a aparecer muchos más trabajos porque vamos a tener que entrenar a las personas responsables de crear estos sistemas. Basándonos en estos cambios, tal vez se necesitarán más profesores, pero no profesores de personas, si no profesores de máquinas.

Yo creo que aquí se debería analizar que si las personas están haciendo algo que les gusta, esto ya no debería llamarse ‘trabajo’ y podríamos poner a las máquinas a hacer todo el trabajo que no nos gusta y ese es el mundo que me gustaría que existiera.

¿Qué te ha parecido esta entrevista? ¿Te ha hecho reflexionar más acerca de nuestra realidad y los análisis de datos? Si es así, ¡nos encantaría leer tu opinión!

Si te hemos animado a realizar una carrera en este sector, te recordamos que en Emagister tienes disponible un extenso catálogo de Cursos en Data Science y Análisis de Datos, disponibles para ti.

Encuentra tu curso ideal

¿Qué quieres estudiar?