MLOps, optimizando la ciencia de datos hacia el futuro

Edgardo Panza, ingeniero de sistemas y máster en Ciencia de Datos, participó del ciclo de conferencias '¿De qué se está hablando en Ciencia de Datos?', para explicar el concepto de MLOps, sus ventajas y cómo este se relaciona con la ciencia de datos.

12. CIENCIA DE DATOS 625X360.jpg

Por:

01 mar 2022

Los seres humanos desde hace mucho tiempo estamos recolectando datos e información. Para el 2001, a nivel mundial, ya habíamos recolectado un exabyte de información, es decir, un billón de gigabytes. Y a medida que fueron evolucionando los softwares, las plataformas y los sitios web, fuimos guardando muchos más datos. Para 2005 ya teníamos unos 130 exabytes, pero seguimos evolucionando, y ya para el 2020 teníamos 44 zettabytes, el equivalente a 44 000 exabytes. ¿Pueden imaginar tal cantidad de información? 

El pronóstico indica que para 2025 tendríamos 163 zettabytes de información, pero desde el 2001 los científicos se empezaron a preguntar: “¿que hacemos con esta data además de almacenarla?”. Entonces empezaron a surgir ideas como las bodegas de datos y más adelante surgió el Business Intelligence, pero todos estos conceptos iban relacionados a analizar el pasado y el presente. Los científicos entonces viendo tal cantidad de información, se preguntaron ¿Si tenemos tanta (información), por qué no predecir el futuro? Allí es donde entra y nace la ciencia de datos.

Es ahí donde Edgardo Panza, egresado de Ingeniería de Sistemas de la Universidad del Norte, con maestría en Ciencia de Datos, analiza la historia y el panorama actual de la data y esta disciplina. El 24 de febrero, a través del canal de Youtube Uninorte Académico, desarrolló la charla 'MLOps. Una nueva cultura', enmarcada en el ciclo de conferencias “¿De qué se está hablando en Ciencia de Datos?”, organizado por el pregrado de Ciencia de Datos y el Departamento de Matemáticas y Estadística de Uninorte. 


Edgardo Panza, ingeniero de sistema, dictando la charla "MLOps, una nueva cultura"

El objetivo de este ciclo de conferencias es dar a conocer lo último sobre la ciencia de datos y sus aplicaciones. En este caso, Edgardo dio a conocer qué es el MLops y cómo aplicarlo junto a la ciencia de datos. 

¿Qué es el MLOps? 

Para entender este macroconcepto, hay que separar la palabra en dos conceptos muy importantes: ML, que es una abreviación de Machine Learning, y Ops, que viene del concepto DevOps (Development Operations). 

Machine Learning: el machine learning es una de las ramas de la Inteligencia Artificial (IA) que permite que las máquinas, sistemas de información, entre otros, aprendan sobre el usuario, algo indispensable para identificar patrones y predecir la data. Esta tecnología se encuentra presente en diferentes aplicaciones como por ejemplo las recomendaciones que hace Netflix, o en las búsquedas y anuncios personalizados de los motores de búsqueda web como Google o Yahoo!.

DevOps: este concepto, como explica el ingeniero Panza, viene del desarrollo de software y  “son estándares y una serie de prácticas que buscan evitar que, si se daña una parte de la aplicación, solo se dañe esa parte mientras el resto de la aplicación sigue funcionando de manera normal. Esto se basa en dos objetivos que son la integración continua y la entrega continua. El primero es que el desarrollo del software se hace paso a paso, y la entrega continua es dividir ese software en pedacitos pequeños, conocidos como microservicios, y dado el caso se llegara a dañar uno de ellos, pues solo se daña ese fragmento y no toda la solución digital”.

Viendo estos dos conceptos, la comunidad científica de datos se empezó a dar cuenta que empezó a pasar algo similar al momento de crear un modelo de Machine Learning, y decidieron utilizar el DevOps como base. Entonces, ¿Qué es el MLOps? Es un conjunto de bases y estándares para toda la creación de un modelo de Machine Learning. Este tiene los mismos objetivos del DevOps, que son la integración continua y la entrega continua, pero además agrega un tercer objetivo: el entrenamiento continuo.

Panza señala que aplicar el MLOps en los modelos ML tiene diferentes ventajas, entre las cuales se encuentran: orientar completamente el proceso de creación de un modelo de ML, dando así los componentes de un Full Stack (Stack Completo) de Machine Learning. Además, este puede indicarle a los científicos de datos cómo versionar la data y, además, el MLOps puede indicar cuándo se debe re-entrenar el modelo de Machine Learning para siempre estar actualizado y funcione adecuadamente. 

Un ejemplo que da el ingeniero de cómo se aplica esto son las recomendaciones que realiza Spotify o Netflix. Estas son empresas que dentro de sus motores de búsqueda y recomendación utilizan modelos de Machine Learning desarrollados bajo el concepto y herramientas del MLOps, para así hacer recomendaciones de películas o canciones adecuadas a los patrones de gusto y utilización del usuario.

Al final de su intervención, Edgardo Panza, hizo una recomendación e invitación para todos aquellos que desean estudiar ciencia de datos: “Yo recomendaría que si les interesa, es buscar algún tema o buscar en dónde se aplica la ciencia de datos. El ejemplo que puse fue el de los modelos de recomendación de Netflix y Spotify, pero existen muchas otras aplicaciones de esta ciencia, como por ejemplo en la medicina, donde se pudieran crear modelos para identificar un cáncer de seno antes de que se desarrolle. Entonces recomendaría buscar los campos donde se puede utilizar el Machine Learning y mirar el que más les guste. Por ejemplo, mi interés está relacionado con los videojuegos, pero tengo compañeros que se fueron por el lado de la medicina, y es interesante cómo pueden crear modelos para predecir enfermedades, antes de que estas se desarrollen, entonces si encuentran lo que les guste, así pueden meterse de lleno a ser un científico de datos”. 

Si desea conocer más acerca del mundo de la ciencia de datos, los campos de acción de un científico de datos y todo el plan de estudio de este pregrado, puede acceder a la página web del mismo haciendo click aquí, y seguir el programa en Instagram como @cienciadedatos_uninorte, en donde se publican noticias, datos de interés y próximos eventos relacionados a esta ciencia.

Por: Saúl Granados Ruiz

Más noticias