Tipos de modelos fundacionales y ejemplos

Los modelos fundacionales, aunque estén preentrenados, pueden seguir aprendiendo de las entradas de datos o las indicaciones que reciben durante la inferencia. Esto significa que es posible desarrollar resultados integrales a través de indicaciones cuidadosamente seleccionadas.

Las tareas que pueden realizar los modelos fundacionales incluyen el procesamiento del lenguaje, la comprensión visual, la generación de código y la participación centrada en las personas.

Procesamiento del lenguaje natural
Estos modelos tienen capacidades notables para responder preguntas en lenguaje natural e, incluso, la capacidad de escribir guiones o artículos cortos en respuesta a las indicaciones. También pueden traducir idiomas mediante tecnologías de NLP.

Comprensión visual
Los modelos fundacionales se destacan en la visión artificial, especialmente, en lo que respecta a la identificación de imágenes y objetos físicos. Estas capacidades pueden utilizarse en aplicaciones como las de conducción autónoma y robótica. Otra capacidad es la generación de imágenes a partir del texto introducido, así como la edición de fotos y videos.

Generación de código
Los modelos fundacionales pueden generar código de computadora en varios lenguajes de programación en función de las entradas de lenguaje natural. También es posible utilizar los modelos fundacionales para evaluar y depurar el código.

Compromiso centrado en las personas
Los modelos de IA generativa utilizan los datos de entrada humanos para aprender y mejorar las predicciones. Una aplicación importante y que, a veces, se pasa por alto es la capacidad de estos modelos para apoyar la toma de decisiones humanas. Los usos potenciales incluyen diagnósticos clínicos, sistemas de apoyo a la toma de decisiones y análisis. Otra capacidad es el desarrollo de nuevas aplicaciones de IA mediante el ajuste de los modelos fundacionales existentes.

Voz a texto
Dado que los modelos básicos entienden el idioma, se pueden utilizar para tareas de conversión de voz a texto, como la transcripción y la subtitulación de videos en varios idiomas.

Ejemplos de modelos fundacionales

La cantidad y el tamaño de los modelos fundacionales en el mercado han crecido a un ritmo acelerado. Ahora hay docenas de modelos disponibles. Aquí hay una lista de modelos fundacionales destacados lanzados desde 2018.

BERT
Bidirectional Encoder Representations from Transformers (BERT) se lanzó en 2018 y fue uno de los primeros modelos fundacionales. BERT es un modelo bidireccional que analiza el contexto de una secuencia completa y luego hace una predicción. Se entrenó con un corpus de texto sin formato y Wikipedia y se utilizaron 3300 millones de tokens (palabras) y 340 millones de parámetros. BERT puede responder preguntas, predecir oraciones y traducir textos.

GPT
El modelo Generative Pre-trained Transformer (GPT) fue desarrollado por OpenAI en 2018. Utiliza un decodificador transformador de 12 capas con un mecanismo de autoatención. Se entrenó con el conjunto de datos BookCorpus, que contiene más de 11 000 novelas gratuitas. Una característica destacable del GPT-1 es la capacidad de llevar a cabo el aprendizaje zero-shot.

La siguiente versión, GPT-2, se lanzó en 2019. Para entrenarlo, OpenAI utilizó 1500 millones de parámetros (en comparación con los 117 millones de parámetros utilizados con GPT-1).

Después salió GPT-3 con una red neuronal de 96 capas y 175 000 millones de parámetros. Se entrena con el conjunto de datos Common Crawl de 500 000 millones de palabras. El popular chatbot ChatGPT está basado en GPT-3.5. GPT-3 es accesible a través de suscripción, bien directamente por consumo de API o bien vía integración sobre Azure Open AI, pues desde julio de 2019 Microsoft Corp. y OpenAI tienen una alianza para extender las capacidades de Microsoft Azure en sistemas IA de gran escala.

Y GPT-4, la versión más reciente, se lanzó a finales de 2022 y aprobó con éxito el examen uniforme de abogacía con una puntuación de 297 (76 %).

Amazon Titan
Los modelos fundacionales de Amazon Titan se preentrenan con conjuntos de datos de gran tamaño, lo que los convierte en modelos potentes y de uso general. Se pueden usar como vienen o se pueden personalizar de forma privada con datos específicos de la empresa para una tarea en particular sin anotar grandes volúmenes de datos. Inicialmente, Titan ofrece dos modelos.

El primero, es un LLM generativo para tareas como la creación de resúmenes, la generación de texto, la clasificación, las preguntas y las respuestas abiertas y la extracción de información.

El segundo, es un LLM de incrustaciones que traduce las entradas de texto, incluidas palabras, frases y grandes unidades de texto, en representaciones numéricas (conocidas como incrustaciones) que contienen el significado semántico del texto. Si bien este LLM no genera texto, es útil para aplicaciones como las de personalización y búsqueda, ya que al comparar las incrustaciones, el modelo produce respuestas más relevantes y contextuales que la coincidencia de palabras.

Para seguir apoyando las prácticas recomendadas sobre el uso responsable de la IA, los modelos fundacionales de Titan están diseñados para detectar y eliminar el contenido perjudicial de los datos, rechazar el contenido inapropiado en las entradas de los usuarios y filtrar las salidas de los modelos que incluyen contenido inapropiado, como discursos de odio, blasfemias y violencia.

AI21 Jurassic
Jurassic-1 se lanzó en 2021 y es un modelo de lenguaje de regresión automática de 76 capas con 178 000 millones de parámetros. Jurassic-1 genera texto similar al de un humano y resuelve tareas complejas. Su rendimiento es comparable al de GPT-3.

En marzo de 2023, AI21 Labs lanzó Jurassic-2, que mejoró el seguimiento de las instrucciones y las capacidades lingüísticas.

Claude
Claude 2 es el modelo de vanguardia de Anthropic, que se destaca por el diálogo reflexivo, la creación de contenido, el razonamiento complejo, la creatividad y la codificación, todo creado con IA constitucional. Claude 2 puede aceptar hasta 100 000 tokens en cada mensaje, lo que significa que puede funcionar en cientos de páginas de texto o incluso en un libro entero. Claude 2 también puede escribir documentos más largos, como notas e historias del orden de unos cuantos miles de tokens, en comparación con su versión anterior.

Cohere
Cohere tiene dos LLM: uno es un modelo de generación con capacidades similares a las del GPT-3 y el otro es un modelo de representación destinado a la comprensión de idiomas. Aunque Cohere tiene solo 52 000 millones de parámetros, supera a GPT-3 en muchos aspectos.

Stable Diffusion
Stable Diffusion es un modelo de conversión de texto a imagen que puede generar imágenes de alta definición y aspecto realista. Se lanzó en 2022 y tiene un modelo de difusión que utiliza tecnologías de generación y eliminación de ruido para aprender a crear imágenes.

El modelo es más pequeño que las tecnologías de difusión de la competencia, como el DALL-E 2, lo que significa que no necesita una infraestructura informática extensa. Stable Diffusion se puede ejecutar en una tarjeta gráfica normal o incluso en un teléfono inteligente con una plataforma Snapdragon Gen2.

BLOOM
BLOOM es un modelo multilingüe con una arquitectura similar a la de GPT-3. Se desarrolló en 2022 como un esfuerzo de colaboración en el que participaron más de mil científicos y el equipo de Hugging Space. El modelo tiene 176 000 millones de parámetros y el entrenamiento duró tres meses y medio con 384 GPU Nvidia A100. Aunque el punto de control de BLOOM requiere 330 GB de almacenamiento, se puede ejecutar en una PC independiente con 16 GB de RAM. BLOOM puede crear texto en 46 idiomas y escribir código en 13 lenguajes de programación.

Hugging Face
Hugging Face es una plataforma que ofrece herramientas de código abierto para crear e implementar modelos de machine learning. Actúa como un centro comunitario, y los desarrolladores pueden compartir y explorar modelos y conjuntos de datos. La membresía para individuos es gratuita, aunque las suscripciones pagas ofrecen niveles de acceso superiores. Tiene acceso público a casi 200 000 modelos y 30 000 conjuntos de datos.

Bard / LaMDA
Bard es un sistema de Inteligencia Artificial creado por Google. Se trata de un sistema conversacional, de forma que vas a poder interactuar con él mediante mensajes normales. En estos mensajes, tú le escribirás algo que quieras saber o quieras que haga, y Bard responderá o lo hará.
Esta IA del gigante del buscador está basada en LaMDA, un potente modelo de lenguaje experimental diseñado por Google específicamente para aplicaciones de diálogo. Este modelo llevaba un tiempo en fase de pruebas muy cerrada, ya que solo unas pocas personas podían acceder a ella.

Desde hace años, Google lidera de forma incontestable el mercado de las búsquedas en Internet. Sin embargo, esta posición se ha visto recientemente amenazada con la llegada de modelos de IA capaz de darte información de forma conversacional. Si quieres buscar algo en Google, tienes que mirar entre sus webs, mientras que IAs como ChatGPT están entrenadas para darte una respuesta directa.

BlenderBot
No estamos aún ante una versión final de BlenderBot, pero sí ante un prototipo que se puede probar desde el navegador. El objetivo detrás de esta decisión es recopilar la experiencia de los usuarios para mejorar esta y futuras versiones. Se trata del primer chatbot del mundo de 175.000 millones de parámetros disponible públicamente.

La versión original de BlenderBot apareció hace dos años. Por aquel entonces tenía la capacidad de combinar la « empatía y el conocimiento » en las conversaciones. Un año después llegó la versión 2, con una capacidad de memoria a largo plazo basada en inteligencia artificial para mantener conversaciones más sofisticadas sobre cualquier tema.

Ahora, BlenderBot 3 estrena el modelo de lenguaje OPT-175B, que promete ser 58 veces más potente que el utilizado en la versión anterior. A todas las cualidades mencionadas, el chatbot ahora también puede buscar información en Internet para que sus respuestas sean más precisas y relevantes, a la vez que ofrece una experiencia de uso más natural.

¿Qué herramientas se pueden usar para crear y escalar aplicaciones IA basándose en los modelos fundacionales?

Amazon Bedrock es la forma más fácil de crear y escalar aplicaciones de IA generativa con modelos fundacionales. Amazon Bedrock es un servicio totalmente administrado que permite que los modelos fundacionales de Amazon y de las principales startups de IA estén disponibles a través de una API, de modo que se pueda elegir de entre varios modelos fundacionales para encontrar el que mejor se adapte al caso de uso. Con Bedrock, se puede acelerar el desarrollo y el despliegue de aplicaciones de IA generativa escalables, confiables y seguras sin administrar la infraestructura.

Amazon SageMaker JumpStart, es un centro de ML que ofrece modelos, algoritmos y soluciones, proporciona acceso a cientos de modelos fundacionales, incluidos aquellos de mejor rendimiento disponibles públicamente. Se siguen agregando nuevos modelos fundacionales, incluidos Llama 2, Falcon, y Stable Diffusion XL 1.0.

¿Cuáles son los desafíos de los modelos fundacionales?

Los modelos fundacionales pueden responder de manera coherente a las indicaciones sobre temas en los que no se los ha entrenado explícitamente. Sin embargo, tienen ciertas debilidades. Estos son algunos de los desafíos a los que se enfrentan los modelos fundacionales:

Requisitos de infraestructura. Diseñar un modelo fundacional desde cero es costoso y requiere de enormes recursos; además, el entrenamiento puede llevar meses.

Desarrollo de frontend. Para las aplicaciones prácticas, los desarrolladores deben integrar los modelos fundacionales a una pila de software, incluidas las herramientas para la ingeniería de indicaciones, el ajuste y la ingeniería de canalizaciones.

Falta de comprensión. Si bien pueden proporcionar respuestas correctas desde el punto de vista gramatical y fáctico, los modelos fundacionales tienen dificultades para comprender el contexto de una indicación. Además, no tienen en cuenta los aspectos sociales ni psicológicos.

Respuestas poco fiables. Las respuestas a las preguntas sobre un tema determinado pueden ser poco fiables y, a veces, inapropiadas, tóxicas o incorrectas.

Sesgo. El sesgo es una posibilidad clara, ya que los modelos pueden captar el discurso de odio y los matices inapropiados de los conjuntos de datos de entrenamiento. Para evitar esto, los desarrolladores deben filtrar cuidadosamente los datos de entrenamiento y codificar normas específicas en sus modelos.