> ## Documentation Index > Fetch the complete documentation index at: https://wb-21fd5541-docs-hivemind-launch.mintlify.site/llms.txt > Use this file to discover all available pages before exploring further. # NVIDIA NeMo Inference Microservice デプロイジョブ > スケーラブルなモデルサービングのために、W&B Launch を使用して W&B のモデルアーティファクトを NVIDIA NeMo Inference Microservice にデプロイします。 W\&B から NVIDIA NeMo Inference Microservice にモデルアーティファクトをデプロイします。これを行うには、W\&B Launch を使用します。W\&B Launch はモデルアーティファクトを NVIDIA NeMo Model に変換し、実行中の NIM/Triton サーバーにデプロイします。 W\&B Launch は現在、以下の互換性のあるモデルタイプをサポートしています。 1. [Llama2](https://llama.meta.com/llama2/) 2. [StarCoder](https://github.com/bigcode-project/starcoder) 3. NV-GPT (近日対応予定) デプロイ時間は、モデルとマシンタイプによって異なります。ベースの Llama2-7b 設定では、Google Cloud の `a2-ultragpu-1g` で約 1 分かかります。

## クイックスタート

1. まだ作成していない場合は、[Launch queue を作成](/ja/platform/launch/add-job-to-queue/)します。以下にキュー設定の例を示します。 ```yaml theme={null} net: host gpus: all # 特定の GPU セット、またはすべてを使用する場合は `all` を指定できます runtime: nvidia # nvidia container runtime も必要です volume: - model-store:/model-store/ ```

2. プロジェクト内でこのジョブを作成します。 ```bash theme={null} wandb job create -n "deploy-to-nvidia-nemo-inference-microservice" \ -e $ENTITY \ -p $PROJECT \ -E jobs/deploy_to_nvidia_nemo_inference_microservice/job.py \ -g andrew/nim-updates \ git https://github.com/wandb/launch-jobs ``` 3. GPU マシンでエージェントを起動します。 ```bash theme={null} wandb launch-agent -e $ENTITY -p $PROJECT -q $QUEUE ``` 4. [Launch UI](https://wandb.ai/launch) から、必要な設定を指定してデプロイ用の launch ジョブを送信します。 1. CLI から送信することもできます。 ```bash theme={null} wandb launch -d gcr.io/playground-111/deploy-to-nemo:latest \ -e $ENTITY \ -p $PROJECT \ -q $QUEUE \ -c $CONFIG_JSON_FNAME ```

5. Launch UI でデプロイの進行状況をトラッキングできます。

6. 完了したら、すぐにエンドポイントに curl リクエストを送ってモデルをテストできます。モデル名は常に `ensemble` です。 ```bash theme={null} #!/bin/bash curl -X POST "http://0.0.0.0:9999/v1/completions" \ -H "accept: application/json" \ -H "Content-Type: application/json" \ -d '{ "model": "ensemble", "prompt": "Tell me a joke", "max_tokens": 256, "temperature": 0.5, "n": 1, "stream": false, "stop": "string", "frequency_penalty": 0.0 }' ```