ChatGPT es posiblemente el LLM (modelo de lenguaje grande) más conocido y está basado en modelos fundacionales GPT, que fueron ajustados finamente para uso conversacional.[1] GPT significa Generative Pre-trained Transformer y es una clase de modelos de procesamiento de lenguaje natural desarrollados por OpenAI, diseñados para comprender y generar texto similar al humano. Los modelos GPT están preentrenados en enormes conjuntos de datos; la "fase de preentrenamiento implica aprender la estructura y matices del lenguaje, incluyendo gramática, semántica y contexto".[2]
¿Qué es un LLM?
LLM es un término general para una variedad de modelos de lenguaje a gran escala diseñados para tareas de procesamiento de lenguaje natural; los modelos GPT son un subconjunto. Los LLM no están limitados a una sola arquitectura como el Transformer utilizado en los modelos GPT. Los LLM pueden tener diversas arquitecturas, incluyendo redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN). Los LLM se consideran una forma de IA generativa y son modelos de aprendizaje profundo muy grandes que se preentrenan y pueden ajustarse finamente para tareas o dominios específicos. Este proceso de ajuste fino "adapta las capacidades del modelo a aplicaciones particulares, como traducción de lenguaje, completado de texto o respuestas a preguntas".[2][3]
Los LLM pueden ser preentrenados y luego ajustados finamente para propósitos específicos. "El preentrenamiento y el ajuste fino son pasos clave en el desarrollo de modelos de lenguaje grandes. El preentrenamiento implica entrenar un modelo de lenguaje grande para propósitos generales con un conjunto de datos amplio, mientras que el ajuste fino implica entrenar el modelo para objetivos específicos con un conjunto de datos mucho más pequeño."[2]
Existen 3 tipos de LLM: 1. Modelos de Lenguaje Genéricos (o RAW) que predicen el siguiente token (palabra), como un autocompletado en una búsqueda. 2. Modelos ajustados por instrucciones, entrenados para predecir una respuesta a las instrucciones dadas en la entrada y 3. Modelos ajustados para diálogo, entrenados para mantener una conversación prediciendo la siguiente respuesta. Estos modelos requieren diferente diseño de *prompts* para funcionar; el "razonamiento en cadena" (*chain of thought reasoning*) es un método para mejorar respuestas: "los modelos son mejores para obtener la respuesta correcta cuando primero generan texto que explica la razón de la respuesta."[2]
Diseño y *engineering* de prompts
"El diseño de prompts implica crear un prompt claro, conciso e informativo para la tarea deseada, mientras que la ingeniería de prompts se enfoca en mejorar el rendimiento. Esto puede involucrar el uso de conocimiento específico del dominio, proporcionar ejemplos del resultado deseado o usar palabras clave que se sabe son efectivas para el sistema específico"[3] y ajustar sus parámetros y pesos para mejorar el rendimiento. Es la tarea de desarrollar prompts que guían a los modelos a realizar tareas especializadas, un proceso de estructurar la entrada para crear precisión y efectividad en la respuesta.
[1] ChatGPT Wikipedia
[2] Ver video recomendado "Introduction to large language models" por Google Cloud Tech
[3] Understanding the Difference Between GPT and LLM blog.stackademic.com