> ## Documentation Index > Fetch the complete documentation index at: https://wb-21fd5541-docs-hivemind-launch.mintlify.site/llms.txt > Use this file to discover all available pages before exploring further. # Job de déploiement vers NVIDIA NeMo Inference Microservice > Déployez un artifact de modèle W&B vers NVIDIA NeMo Inference Microservice à l’aide de W&B Launch pour servir des modèles à grande échelle. Déployez un artifact de modèle depuis W\&B vers NVIDIA NeMo Inference Microservice. Pour ce faire, utilisez W\&B Launch. W\&B Launch convertit les artifacts de modèle au format NVIDIA NeMo Model, puis les déploie sur un serveur NIM/Triton en cours d’exécution. W\&B Launch prend actuellement en charge les types de modèles compatibles suivants : 1. [Llama2](https://llama.meta.com/llama2/) 2. [StarCoder](https://github.com/bigcode-project/starcoder) 3. NV-GPT (bientôt disponible) Le temps de déploiement varie selon le modèle et le type de machine. La configuration de base de Llama2-7b prend environ 1 minute sur l’instance Google Cloud `a2-ultragpu-1g`.

## Démarrage rapide

1. [Créez une Launch queue](/fr/platform/launch/add-job-to-queue/) si vous n'en avez pas déjà une. Voir un exemple de configuration de file d'attente ci-dessous. ```yaml theme={null} net: host gpus: all # peut être un ensemble spécifique de GPU ou `all` pour tout utiliser runtime: nvidia # nécessite également le runtime de conteneur nvidia volume: - model-store:/model-store/ ```

2. Créez ce job dans votre projet : ```bash theme={null} wandb job create -n "deploy-to-nvidia-nemo-inference-microservice" \ -e $ENTITY \ -p $PROJECT \ -E jobs/deploy_to_nvidia_nemo_inference_microservice/job.py \ -g andrew/nim-updates \ git https://github.com/wandb/launch-jobs ``` 3. Lancez un agent sur votre machine équipée d'un GPU : ```bash theme={null} wandb launch-agent -e $ENTITY -p $PROJECT -q $QUEUE ``` 4. Soumettez le launch job de déploiement avec les configurations souhaitées depuis la [Launch UI](https://wandb.ai/launch) 1. Vous pouvez aussi le soumettre via la CLI : ```bash theme={null} wandb launch -d gcr.io/playground-111/deploy-to-nemo:latest \ -e $ENTITY \ -p $PROJECT \ -q $QUEUE \ -c $CONFIG_JSON_FNAME ```

5. Vous pouvez suivre le processus de déploiement dans la Launch UI.

6. Une fois l'opération terminée, vous pouvez immédiatement appeler l'endpoint avec `curl` pour tester le modèle. Le nom du modèle est toujours `ensemble`. ```bash theme={null} #!/bin/bash curl -X POST "http://0.0.0.0:9999/v1/completions" \ -H "accept: application/json" \ -H "Content-Type: application/json" \ -d '{ "model": "ensemble", "prompt": "Tell me a joke", "max_tokens": 256, "temperature": 0.5, "n": 1, "stream": false, "stop": "string", "frequency_penalty": 0.0 }' ```