Ejemplos de modelos fundacionales
La cantidad y el tamaño de los modelos fundacionales en el mercado han crecido a un ritmo acelerado. Ahora hay docenas de modelos disponibles. Aquí hay una lista de modelos fundacionales destacados lanzados desde 2018.
BERT
Bidirectional Encoder Representations from Transformers (BERT) se lanzó en 2018 y fue uno de los primeros modelos fundacionales. BERT es un modelo bidireccional que analiza el contexto de una secuencia completa y luego hace una predicción. Se entrenó con un corpus de texto sin formato y Wikipedia y se utilizaron 3300 millones de tokens (palabras) y 340 millones de parámetros. BERT puede responder preguntas, predecir oraciones y traducir textos.
GPT
El modelo Generative Pre-trained Transformer (GPT) fue desarrollado por OpenAI en 2018. Utiliza un decodificador transformador de 12 capas con un mecanismo de autoatención. Se entrenó con el conjunto de datos BookCorpus, que contiene más de 11 000 novelas gratuitas. Una característica destacable del GPT-1 es la capacidad de llevar a cabo el aprendizaje zero-shot.
La siguiente versión, GPT-2, se lanzó en 2019. Para entrenarlo, OpenAI utilizó 1500 millones de parámetros (en comparación con los 117 millones de parámetros utilizados con GPT-1).
Después salió GPT-3 con una red neuronal de 96 capas y 175 000 millones de parámetros. Se entrena con el conjunto de datos Common Crawl de 500 000 millones de palabras. El popular chatbot ChatGPT está basado en GPT-3.5. GPT-3 es accesible a través de suscripción, bien directamente por consumo de API o bien vía integración sobre Azure Open AI, pues desde julio de 2019 Microsoft Corp. y OpenAI tienen una alianza para extender las capacidades de Microsoft Azure en sistemas IA de gran escala.
Y GPT-4, la versión más reciente, se lanzó a finales de 2022 y aprobó con éxito el examen uniforme de abogacía con una puntuación de 297 (76 %).
Amazon Titan
Los modelos fundacionales de Amazon Titan se preentrenan con conjuntos de datos de gran tamaño, lo que los convierte en modelos potentes y de uso general. Se pueden usar como vienen o se pueden personalizar de forma privada con datos específicos de la empresa para una tarea en particular sin anotar grandes volúmenes de datos. Inicialmente, Titan ofrece dos modelos.
El primero, es un LLM generativo para tareas como la creación de resúmenes, la generación de texto, la clasificación, las preguntas y las respuestas abiertas y la extracción de información.
El segundo, es un LLM de incrustaciones que traduce las entradas de texto, incluidas palabras, frases y grandes unidades de texto, en representaciones numéricas (conocidas como incrustaciones) que contienen el significado semántico del texto. Si bien este LLM no genera texto, es útil para aplicaciones como las de personalización y búsqueda, ya que al comparar las incrustaciones, el modelo produce respuestas más relevantes y contextuales que la coincidencia de palabras.
Para seguir apoyando las prácticas recomendadas sobre el uso responsable de la IA, los modelos fundacionales de Titan están diseñados para detectar y eliminar el contenido perjudicial de los datos, rechazar el contenido inapropiado en las entradas de los usuarios y filtrar las salidas de los modelos que incluyen contenido inapropiado, como discursos de odio, blasfemias y violencia.
AI21 Jurassic
Jurassic-1 se lanzó en 2021 y es un modelo de lenguaje de regresión automática de 76 capas con 178 000 millones de parámetros. Jurassic-1 genera texto similar al de un humano y resuelve tareas complejas. Su rendimiento es comparable al de GPT-3.
En marzo de 2023, AI21 Labs lanzó Jurassic-2, que mejoró el seguimiento de las instrucciones y las capacidades lingüísticas.
Claude
Claude 2 es el modelo de vanguardia de Anthropic, que se destaca por el diálogo reflexivo, la creación de contenido, el razonamiento complejo, la creatividad y la codificación, todo creado con IA constitucional. Claude 2 puede aceptar hasta 100 000 tokens en cada mensaje, lo que significa que puede funcionar en cientos de páginas de texto o incluso en un libro entero. Claude 2 también puede escribir documentos más largos, como notas e historias del orden de unos cuantos miles de tokens, en comparación con su versión anterior.
Cohere
Cohere tiene dos LLM: uno es un modelo de generación con capacidades similares a las del GPT-3 y el otro es un modelo de representación destinado a la comprensión de idiomas. Aunque Cohere tiene solo 52 000 millones de parámetros, supera a GPT-3 en muchos aspectos.
Stable Diffusion
Stable Diffusion es un modelo de conversión de texto a imagen que puede generar imágenes de alta definición y aspecto realista. Se lanzó en 2022 y tiene un modelo de difusión que utiliza tecnologías de generación y eliminación de ruido para aprender a crear imágenes.
El modelo es más pequeño que las tecnologías de difusión de la competencia, como el DALL-E 2, lo que significa que no necesita una infraestructura informática extensa. Stable Diffusion se puede ejecutar en una tarjeta gráfica normal o incluso en un teléfono inteligente con una plataforma Snapdragon Gen2.
BLOOM
BLOOM es un modelo multilingüe con una arquitectura similar a la de GPT-3. Se desarrolló en 2022 como un esfuerzo de colaboración en el que participaron más de mil científicos y el equipo de Hugging Space. El modelo tiene 176 000 millones de parámetros y el entrenamiento duró tres meses y medio con 384 GPU Nvidia A100. Aunque el punto de control de BLOOM requiere 330 GB de almacenamiento, se puede ejecutar en una PC independiente con 16 GB de RAM. BLOOM puede crear texto en 46 idiomas y escribir código en 13 lenguajes de programación.
Hugging Face
Hugging Face es una plataforma que ofrece herramientas de código abierto para crear e implementar modelos de machine learning. Actúa como un centro comunitario, y los desarrolladores pueden compartir y explorar modelos y conjuntos de datos. La membresía para individuos es gratuita, aunque las suscripciones pagas ofrecen niveles de acceso superiores. Tiene acceso público a casi 200 000 modelos y 30 000 conjuntos de datos.
Bard / LaMDA
Bard es un sistema de Inteligencia Artificial creado por Google. Se trata de un sistema conversacional, de forma que vas a poder interactuar con él mediante mensajes normales. En estos mensajes, tú le escribirás algo que quieras saber o quieras que haga, y Bard responderá o lo hará.
Esta IA del gigante del buscador está basada en LaMDA, un potente modelo de lenguaje experimental diseñado por Google específicamente para aplicaciones de diálogo. Este modelo llevaba un tiempo en fase de pruebas muy cerrada, ya que solo unas pocas personas podían acceder a ella.
Desde hace años, Google lidera de forma incontestable el mercado de las búsquedas en Internet. Sin embargo, esta posición se ha visto recientemente amenazada con la llegada de modelos de IA capaz de darte información de forma conversacional. Si quieres buscar algo en Google, tienes que mirar entre sus webs, mientras que IAs como ChatGPT están entrenadas para darte una respuesta directa.
BlenderBot
No estamos aún ante una versión final de BlenderBot, pero sí ante un prototipo que se puede probar desde el navegador. El objetivo detrás de esta decisión es recopilar la experiencia de los usuarios para mejorar esta y futuras versiones. Se trata del primer chatbot del mundo de 175.000 millones de parámetros disponible públicamente.
La versión original de BlenderBot apareció hace dos años. Por aquel entonces tenía la capacidad de combinar la « empatía y el conocimiento » en las conversaciones. Un año después llegó la versión 2, con una capacidad de memoria a largo plazo basada en inteligencia artificial para mantener conversaciones más sofisticadas sobre cualquier tema.
Ahora, BlenderBot 3 estrena el modelo de lenguaje OPT-175B, que promete ser 58 veces más potente que el utilizado en la versión anterior. A todas las cualidades mencionadas, el chatbot ahora también puede buscar información en Internet para que sus respuestas sean más precisas y relevantes, a la vez que ofrece una experiencia de uso más natural.