Gestion des Modèles

La section Modèles permet d'intégrer n'importe quel modèle à la plateforme, permettant aux utilisateurs d'interagir avec eux.

Vous avez la flexibilité de configurer des modèles open-source hébergés par vous-même ou un fournisseur, ou d'utiliser des modèles payants accessibles via API.

Visualisation de la Liste des Modèles La liste des modèles affiche les informations suivantes :

Nom : Le nom public affiché dans Paradigm pour les utilisateurs.
Type de Modèle : Vous pouvez intégrer des Grands Modèles de Langage (LLM) ou des modèles d'embedding. Les modèles d'embedding sont utilisés pour convertir du texte en représentations numériques afin de comprendre la similarité sémantique.
Type de Déploiement : Indique où le modèle est déployé (par exemple, Sagemaker, OpenAI, ou Auto-hébergé).
Activé : Montre si le modèle est disponible pour les utilisateurs via l'interface ou l'API (vert = accessible, rouge = non accessible).

Visualisation des Détails du Modèle En cliquant sur le nom du modèle, vous pouvez voir ou modifier ses détails :

Nom : Le nom public du modèle affiché dans l'interface Paradigm pour les utilisateurs finaux (ce champ peut être modifié).
Nom Technique : Un identifiant technique utilisé par diverses API (ce champ ne doit pas être modifié).
Type de Modèle : Vous pouvez intégrer des LLM ou des modèles d'embedding.
Type de Déploiement : Le type de déploiement du modèle (par exemple, Sagemaker, OpenAI, Auto-hébergé).
Nom de l'Endpoint Sagemaker : Utilisé uniquement si le type de déploiement est Sagemaker (par exemple, vllm-0-4-custom-2-dev-5--Meta-Llama-3-8B-Instruct-Sk9-ft).
Nom du Modèle LoRA : Spécifiez le nom si vous utilisez un modèle LoRA (Low-Rank Adapter), une technique spécifique de fine-tuning. Nous recommandons d'utiliser vLLM (https://docs.vllm.ai/en/latest/) pour servir vos modèles. Si vous avez fine-tuné un modèle avec LoRA et souhaitez l'utiliser dans Paradigm, nous suggérons de le déployer en utilisant vLLM et de fournir le Nom du Modèle Lora qui correspond au flag --lora-modules que vous avez utilisé lors du démarrage du serveur vLLM.
URL du Modèle : utilisée lorsque votre modèle est auto-hébergé. Pensez-y comme une adresse virtuelle où votre modèle est servi. Par exemple, disons que vous voulez déployer un modèle appelé Llama-405 sur une machine avec l'adresse IP 123.150.117.199. Dans ce cas, l'URL du Modèle serait http://123.150.117.199. Vous pouvez également mapper cette adresse IP à un nom de domaine comme https://llama-405b.lighton.ai pour un accès plus facile.
Modèle de Message de Début : Ce champ définit une liste de messages ajoutés au début d'une conversation avec le modèle pour personnaliser l'interaction. Il suit le style de templating Jinja et permet des opérations conditionnelles et l'utilisation de variables. Les variables disponibles incluent :
- : La date actuelle.
- : Instructions des paramètres de chat.
- : Instructions définies par l'utilisateur.
- : Le prénom de l'utilisateur.
- : Le nom de famille de l'utilisateur.
- Seules ces variables sont disponibles pour l'instant ; l'utilisation de toute autre entraînera une erreur lors de la définition du champ start_messages_template.
Instruction : décrit comment le modèle final va être appelé. Par exemple, pour un réécriveur : "reformule cette question {question}", pour un modèle génératif "réponds à cette {question} selon ce {contexte}".

Création d'un Nouveau Modèle

Pour créer un nouveau modèle, les administrateurs doivent fournir des informations sur le nom public du modèle, le type, le type de déploiement et les paramètres de configuration pertinents comme le nom de l'endpoint ou l'URL pour les modèles auto-hébergés. Vous pouvez également spécifier comment le modèle doit être appelé en utilisant des instructions personnalisées (par exemple, "Reformule cette question {question}" pour un réécriveur ou "Réponds à cette {question} selon ce {contexte}" pour un modèle génératif).

Pour les modèles auto-hébergés, assurez-vous que l'URL pointe vers le service servant le modèle, et envisagez d'utiliser vLLM pour un déploiement efficace du modèle.