Entrenados con conjuntos de datos masivos, los modelos fundacionales (FM) son redes neuronales de aprendizaje profundo que cambiaron la forma en que los científicos abordan el machine learning (ML).

En lugar de desarrollar la inteligencia artificial (IA) desde cero, los científicos de datos utilizan un modelo fundacional como punto de partida para desarrollar modelos de ML que impulsen aplicaciones nuevas de manera rápida y rentable.

El término modelo fundacional fue acuñado por los investigadores para describir los modelos de ML entrenados en un amplio espectro de datos generalizados y sin etiquetar y capaces de realizar una gran variedad de tareas generales como comprender el lenguaje, generar texto e imágenes y conversar en lenguaje natural.

¿Qué tienen de especial los modelos fundacionales?

Una característica única de los modelos básicos es su adaptabilidad. Estos modelos pueden realizar una amplia gama de tareas dispares con un alto grado de precisión en función de las indicaciones de entrada. Algunas tareas incluyen el procesamiento de lenguaje natural (NLP), la respuesta a preguntas y la clasificación de imágenes.

El tamaño y la naturaleza de uso general de los modelos básicos los diferencian de los modelos de machine learning tradicionales, que suelen realizar tareas específicas, como analizar texto en busca de opiniones, clasificar imágenes y pronosticar tendencias.

Por ejemplo, BERT, uno de los primeros modelos fundacionales bidireccionales, se lanzó en 2018. Se entrenó con 340 millones de parámetros y un conjunto de datos de entrenamiento de 16 GB. En 2023, solo cinco años después, OpenAI entrenó el GPT-4 mediante la utilización de 170 billones de parámetros y un conjunto de datos de entrenamiento de 45 GB. Según OpenAI, la potencia de cómputo requerida para el modelado fundacional se ha duplicado cada 3,4 meses desde 2012.

Los modelos fundacionales actuales, como los modelos de lenguaje de gran tamaño (LLM) Claude 2 y Llama 2, y el modelo de conversión de texto a imagen Stable Diffusion de Stability AI, pueden realizar una serie de tareas listas para usar que abarcan múltiples dominios, como escribir publicaciones de blog, generar imágenes, resolver problemas matemáticos, entablar diálogos y responder preguntas basadas en un documento.

¿Por qué es importante el modelado fundacional?

Los modelos fundacionales están preparados para cambiar significativamente el ciclo de vida del machine learning. Aunque actualmente cuesta millones de dólares desarrollar un modelo fundacional desde cero, son útiles a largo plazo. Es más rápido y económico para los científicos de datos utilizar modelos fundacionales preentrenados para desarrollar nuevas aplicaciones de machine learning que entrenar modelos únicos de machine learning desde cero.

Un uso potencial es la automatización de tareas y procesos, especialmente aquellos que requieren capacidades de razonamiento.

Estas son algunas aplicaciones de los modelos fundacionales:

  • Servicio de atención a clientes
  • Traducción de idiomas
  • Generación de contenidos
  • Redacción de textos publicitarios
  • Clasificación de imágenes
  • Creación y edición de imágenes de alta resolución
  • Extracción de documentos
  • Robótica
  • Sanidad
  • Vehículos autónomos

¿Cómo funcionan los modelos fundacionales?

Los modelos fundacionales son una forma de inteligencia artificial generativa (IA generativa). Ellos generan resultados a partir de una o más entradas (indicaciones) en forma de instrucciones en lenguaje humano. Los modelos se basan en redes neuronales complejas, que incluyen las redes generativas antagónicas (GAN), los transformadores y los codificadores variacionales.

Si bien cada tipo de red funciona de manera diferente, los principios en los que se basa su funcionamiento son similares. En general, un modelo fundacional utiliza relaciones y patrones aprendidos para predecir el siguiente elemento de una secuencia.

Por ejemplo, con la generación de imágenes, el modelo analiza la imagen y crea una versión de ella más nítida y definida. Del mismo modo, con texto, el modelo predice la siguiente palabra de una cadena de texto en función de las palabras anteriores y su contexto. Luego, selecciona la siguiente palabra mediante el uso de técnicas de distribución de probabilidad.

Los modelos fundacionales utilizan el aprendizaje autosupervisado para crear etiquetas a partir de los datos de entrada. Esto significa que nadie instruyó ni entrenó el modelo con conjuntos de datos de entrenamiento etiquetados. Esta característica separa a los LLM de las arquitecturas de ML anteriores, que utilizan el aprendizaje supervisado o no supervisado.

Principales algoritmos de los modelos fundacionales

Lógica Simbólica
La Lógica Simbólica es un modelo fundacional en IA que se basa en la utilización de símbolos y reglas lógicas para la representación y manipulación de información. La Lógica Simbólica ses usa en sistemas expertos y en la toma de decisiones en IA. Esta técnica permite la integración de conocimiento experto en los sistemas de IA, lo que permite automatizar procesos complejos y tomar decisiones en tiempo real.

 

Aprendizaje por refuerzo

El Aprendizaje por Refuerzo es un modelo fundacional en IA que se basa en el aprendizaje a través de la interacción del agente con el entorno. En este modelo, el agente recibe una recompensa o castigo por cada acción que realiza, lo que le permite aprender a tomar decisiones inteligentes. El Aprendizaje por Refuerzo se utiliza en robótica, juegos y en la optimización de procesos de negocio.

 

Redes Neuronales
Las Redes Neuronales son un modelo fundacional en IA que se basa en el funcionamiento del cerebro humano. Estas redes están compuestas por nodos que simulan neuronas y que están conectados entre sí. Las redes neuronales son utilizadas en la clasificación de datos, la detección de patrones y en la visión artificial. En la actualidad, las redes neuronales profundas (Deep Learning) han permitido grandes avances en el reconocimiento de voz, el procesamiento de imágenes y la traducción automática.

 

Toma de Decisiones en IA
Los Modelos de Toma de Decisiones en IA son técnicas que permiten a los sistemas de IA tomar decisiones en tiempo real. Estos modelos utilizan técnicas de estadística y optimización para evaluar las posibles acciones y seleccionar la mejor opción. Los Modelos de Toma de Decisiones en IA se utilizan en la optimización de procesos de negocio, el control de tráfico aéreo y la planificación de rutas de transporte.

 

Procesamiento del Lenguaje Natural en IA
Los Modelos de Procesamiento del Lenguaje Natural en IA son técnicas que permiten a los sistemas de IA entender y generar lenguaje humano. Estos modelos se utilizan en la traducción automática, la generación de texto y en la atención al cliente automatizada. En la actualidad, los modelos de Procesamiento del Lenguaje Natural en IA están evolucionando para permitir la generación de lenguaje natural más complejo y expresivo.

 

Genéticos
Los Algoritmos Genéticos son un modelo fundacional en IA, que se basa en la evolución natural de las especies. Este modelo utiliza técnicas de selección natural y mutación para generar soluciones óptimas a problemas complejos. Los Algoritmos Genéticos se utilizan en la optimización de procesos de negocio, el diseño de sistemas complejos y en la planificación de rutas de transporte.

 

Sistemas expertos
Los Sistemas Expertos son un modelo fundacional en IA que se basa en la utilización de conocimiento experto para la automatización de procesos. Estos sistemas utilizan técnicas de razonamiento lógico para tomar decisiones y resolver problemas complejos. Los Sistemas Expertos se utilizan en la medicina, la ingeniería y en la toma de decisiones empresariales.