test: Limiting multi-gpu tests to use Ray as distributed_executor_backend (#47)

oandreeva-nv · web-flow · commit 05c5a8b7c0c4 · 2024-07-25T15:32:49.000-07:00
diff --git a/ci/L0_multi_gpu/multi_lora/test.sh b/ci/L0_multi_gpu/multi_lora/test.sh
@@ -62,7 +62,8 @@ model_json=$(cat <<EOF
     "enforce_eager": "true",
     "enable_lora": "true",
     "max_lora_rank": 32,
-    "lora_extra_vocab_size": 256
+    "lora_extra_vocab_size": 256,
+    "distributed_executor_backend":"ray"
 }
 EOF
 )
@@ -120,7 +121,8 @@ model_json=$(cat <<EOF
     "block_size": 16,
     "enforce_eager": "true",
     "enable_lora": "false",
-    "lora_extra_vocab_size": 256
+    "lora_extra_vocab_size": 256,
+    "distributed_executor_backend":"ray"
 }
 EOF
 )
diff --git a/ci/L0_multi_gpu/vllm_backend/test.sh b/ci/L0_multi_gpu/vllm_backend/test.sh
@@ -63,6 +63,7 @@ function run_multi_gpu_test() {
     export KIND="${1}"
     export TENSOR_PARALLELISM="${2}"
     export INSTANCE_COUNT="${3}"
+    export DISTRIBUTED_EXECUTOR_BACKEND="${4}"
 
     # Setup a clean model repository
     export TEST_MODEL="vllm_opt_${KIND}_tp${TENSOR_PARALLELISM}_count${INSTANCE_COUNT}"
@@ -73,6 +74,10 @@ function run_multi_gpu_test() {
     cp -r "${SAMPLE_MODELS_REPO}/vllm_model" "models/${TEST_MODEL}"
     sed -i "s/KIND_MODEL/${KIND}/" "${TEST_MODEL_TRITON_CONFIG}"
     sed -i "3s/^/    \"tensor_parallel_size\": ${TENSOR_PARALLELISM},\n/" "${TEST_MODEL_VLLM_CONFIG}"
+    if [ $TENSOR_PARALLELISM -ne "1" ]; then
+        jq --arg backend $DISTRIBUTED_EXECUTOR_BACKEND '. += {"distributed_executor_backend":$backend}' "${TEST_MODEL_VLLM_CONFIG}" > "temp.json"
+        mv temp.json "${TEST_MODEL_VLLM_CONFIG}"
+    fi
     # Assert the correct kind is set in case the template config changes in the future
     validate_file_contains "${KIND}" "${TEST_MODEL_TRITON_CONFIG}"
 
@@ -119,10 +124,11 @@ RET=0
 KINDS="KIND_MODEL KIND_GPU"
 TPS="1 2"
 INSTANCE_COUNTS="1 2"
+DISTRIBUTED_EXECUTOR_BACKEND="ray"
 for kind in ${KINDS}; do
   for tp in ${TPS}; do
     for count in ${INSTANCE_COUNTS}; do
-        run_multi_gpu_test "${kind}" "${tp}" "${count}"
+        run_multi_gpu_test "${kind}" "${tp}" "${count}" "${DISTRIBUTED_EXECUTOR_BACKEND}"
     done
   done
 done

Original file line number	Diff line number	Diff line change
`@@ -62,7 +62,8 @@ model_json=$(cat <<EOF`
`62`	`62`	`"enforce_eager": "true",`
`63`	`63`	`"enable_lora": "true",`
`64`	`64`	`"max_lora_rank": 32,`
`65`		`- "lora_extra_vocab_size": 256`
	`65`	`+ "lora_extra_vocab_size": 256,`
	`66`	`+ "distributed_executor_backend":"ray"`
`66`	`67`	`}`
`67`	`68`	`EOF`
`68`	`69`	`)`
`@@ -120,7 +121,8 @@ model_json=$(cat <<EOF`
`120`	`121`	`"block_size": 16,`
`121`	`122`	`"enforce_eager": "true",`
`122`	`123`	`"enable_lora": "false",`
`123`		`- "lora_extra_vocab_size": 256`
	`124`	`+ "lora_extra_vocab_size": 256,`
	`125`	`+ "distributed_executor_backend":"ray"`
`124`	`126`	`}`
`125`	`127`	`EOF`
`126`	`128`	`)`