> ## Documentation Index
> Fetch the complete documentation index at: https://wb-21fd5541-docs-hivemind-launch.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Job de déploiement vers NVIDIA NeMo Inference Microservice

> Déployez un artifact de modèle W&B vers NVIDIA NeMo Inference Microservice à l’aide de W&B Launch pour servir des modèles à grande échelle.

Déployez un artifact de modèle depuis W\&B vers NVIDIA NeMo Inference Microservice. Pour ce faire, utilisez W\&B Launch. W\&B Launch convertit les artifacts de modèle au format NVIDIA NeMo Model, puis les déploie sur un serveur NIM/Triton en cours d’exécution.

W\&B Launch prend actuellement en charge les types de modèles compatibles suivants :

1. [Llama2](https://llama.meta.com/llama2/)
2. [StarCoder](https://github.com/bigcode-project/starcoder)
3. NV-GPT (bientôt disponible)

<Note>
  Le temps de déploiement varie selon le modèle et le type de machine. La configuration de base de Llama2-7b prend environ 1 minute sur l’instance Google Cloud `a2-ultragpu-1g`.
</Note>

<div id="quickstart">
  ## Démarrage rapide
</div>

1. [Créez une Launch queue](/fr/platform/launch/add-job-to-queue/) si vous n'en avez pas déjà une. Voir un exemple de configuration de file d'attente ci-dessous.

   ```yaml theme={null}
   net: host
   gpus: all # peut être un ensemble spécifique de GPU ou `all` pour tout utiliser
   runtime: nvidia # nécessite également le runtime de conteneur nvidia
   volume:
     - model-store:/model-store/
   ```

   <Frame>
     <img src="https://mintcdn.com/wb-21fd5541-docs-hivemind-launch/zScEGRJKnI_Vuqe8/images/integrations/nim1.png?fit=max&auto=format&n=zScEGRJKnI_Vuqe8&q=85&s=be4a1380ebbb2760a4fb45659fb84f45" alt="image" width="972" height="570" data-path="images/integrations/nim1.png" />
   </Frame>

2. Créez ce job dans votre projet :

   ```bash theme={null}
   wandb job create -n "deploy-to-nvidia-nemo-inference-microservice" \
      -e $ENTITY \
      -p $PROJECT \
      -E jobs/deploy_to_nvidia_nemo_inference_microservice/job.py \
      -g andrew/nim-updates \
      git https://github.com/wandb/launch-jobs
   ```

3. Lancez un agent sur votre machine équipée d'un GPU :
   ```bash theme={null}
   wandb launch-agent -e $ENTITY -p $PROJECT -q $QUEUE
   ```

4. Soumettez le launch job de déploiement avec les configurations souhaitées depuis la [Launch UI](https://wandb.ai/launch)
   1. Vous pouvez aussi le soumettre via la CLI :
      ```bash theme={null}
      wandb launch -d gcr.io/playground-111/deploy-to-nemo:latest \
        -e $ENTITY \
        -p $PROJECT \
        -q $QUEUE \
        -c $CONFIG_JSON_FNAME
      ```
      <Frame>
        <img src="https://mintcdn.com/wb-21fd5541-docs-hivemind-launch/zScEGRJKnI_Vuqe8/images/integrations/nim2.png?fit=max&auto=format&n=zScEGRJKnI_Vuqe8&q=85&s=df2a18cf170efa6eed15de8bc0897719" alt="image" width="903" height="1263" data-path="images/integrations/nim2.png" />
      </Frame>

5. Vous pouvez suivre le processus de déploiement dans la Launch UI.
   <Frame>
     <img src="https://mintcdn.com/wb-21fd5541-docs-hivemind-launch/zScEGRJKnI_Vuqe8/images/integrations/nim3.png?fit=max&auto=format&n=zScEGRJKnI_Vuqe8&q=85&s=1b9dee43d28165e59322f0c2056825ed" alt="image" width="928" height="692" data-path="images/integrations/nim3.png" />
   </Frame>

6. Une fois l'opération terminée, vous pouvez immédiatement appeler l'endpoint avec `curl` pour tester le modèle. Le nom du modèle est toujours `ensemble`.
   ```bash theme={null}
    #!/bin/bash
    curl -X POST "http://0.0.0.0:9999/v1/completions" \
        -H "accept: application/json" \
        -H "Content-Type: application/json" \
        -d '{
            "model": "ensemble",
            "prompt": "Tell me a joke",
            "max_tokens": 256,
            "temperature": 0.5,
            "n": 1,
            "stream": false,
            "stop": "string",
            "frequency_penalty": 0.0
            }'
   ```
