Tune support for JS model with DJL DLC

Jonathan Makunga · Jonathan Makunga · commit a2be46033266 · 2024-03-19T14:56:48.000-07:00
diff --git a/src/sagemaker/serve/builder/jumpstart_builder.py b/src/sagemaker/serve/builder/jumpstart_builder.py
@@ -246,7 +246,157 @@ def _build_for_tgi_jumpstart(self):
 
     @_capture_telemetry("djl_jumpstart.tune")
     def tune_for_djl_jumpstart(self, max_tuning_duration: int = 1800):
-        pass
+        """pass"""
+        if self.mode != Mode.LOCAL_CONTAINER:
+            logger.warning(
+                "Tuning is only a %s capability. Returning original model.", Mode.LOCAL_CONTAINER
+            )
+            return self.pysdk_model
+
+        initial_model_configuration = copy.deepcopy(self.pysdk_model.env)
+
+        admissible_tensor_parallel_degrees = _get_admissible_tensor_parallel_degrees(self.js_model_config)
+
+        benchmark_results = {}
+        best_tuned_combination = None
+        timeout = datetime.now() + timedelta(seconds=max_tuning_duration)
+        for tensor_parallel_degree in admissible_tensor_parallel_degrees:
+            if datetime.now() > timeout:
+                logger.info("Max tuning duration reached. Tuning stopped.")
+                break
+
+            sagemaker_model_server_workers = None
+            self.pysdk_model.env.update({
+                "OPTION_TENSOR_PARALLEL_DEGREE": str(tensor_parallel_degree)
+            })
+
+            try:
+                predictor = self.pysdk_model.deploy(
+                    model_data_download_timeout=max_tuning_duration
+                )
+
+                avg_latency, p90, avg_tokens_per_second = _serial_benchmark(
+                    predictor, self.schema_builder.sample_input
+                )
+                throughput_per_second, standard_deviation = _concurrent_benchmark(
+                    predictor, self.schema_builder.sample_input
+                )
+
+                tested_env = self.pysdk_model.env.copy()
+                logger.info(
+                    "Average latency: %s, throughput/s: %s for configuration: %s",
+                    avg_latency,
+                    throughput_per_second,
+                    tested_env,
+                )
+                benchmark_results[avg_latency] = [
+                    tested_env,
+                    p90,
+                    avg_tokens_per_second,
+                    throughput_per_second,
+                    standard_deviation,
+                ]
+
+                if not best_tuned_combination:
+                    best_tuned_combination = [
+                        avg_latency,
+                        tensor_parallel_degree,
+                        sagemaker_model_server_workers,
+                        p90,
+                        avg_tokens_per_second,
+                        throughput_per_second,
+                        standard_deviation,
+                    ]
+                else:
+                    tuned_configuration = [
+                        avg_latency,
+                        tensor_parallel_degree,
+                        sagemaker_model_server_workers,
+                        p90,
+                        avg_tokens_per_second,
+                        throughput_per_second,
+                        standard_deviation,
+                    ]
+                    if _more_performant(best_tuned_combination, tuned_configuration):
+                        best_tuned_combination = tuned_configuration
+            except LocalDeepPingException as e:
+                logger.warning(
+                    "Deployment unsuccessful with OPTION_TENSOR_PARALLEL_DEGREE: %s. "
+                    "Failed to invoke the model server: %s",
+                    tensor_parallel_degree,
+                    str(e),
+                )
+                break
+            except LocalModelOutOfMemoryException as e:
+                logger.warning(
+                    "Deployment unsuccessful with OPTION_TENSOR_PARALLEL_DEGREE: %s. "
+                    "Out of memory when loading the model: %s",
+                    tensor_parallel_degree,
+                    str(e),
+                )
+                break
+            except LocalModelInvocationException as e:
+                logger.warning(
+                    "Deployment unsuccessful with OPTION_TENSOR_PARALLEL_DEGREE: %s. "
+                    "Failed to invoke the model server: %s"
+                    "Please check that model server configurations are as expected "
+                    "(Ex. serialization, deserialization, content_type, accept).",
+                    tensor_parallel_degree,
+                    str(e),
+                )
+                break
+            except LocalModelLoadException as e:
+                logger.warning(
+                    "Deployment unsuccessful with OPTION_TENSOR_PARALLEL_DEGREE: %s. "
+                    "Failed to load the model: %s.",
+                    tensor_parallel_degree,
+                    str(e),
+                )
+                break
+            except SkipTuningComboException as e:
+                logger.warning(
+                    "Deployment with OPTION_TENSOR_PARALLEL_DEGREE: %s. "
+                    "was expected to be successful. However failed with: %s. "
+                    "Trying next combination.",
+                    tensor_parallel_degree,
+                    str(e),
+                )
+                break
+            except Exception:
+                logger.exception(
+                    "Deployment unsuccessful with OPTION_TENSOR_PARALLEL_DEGREE: %s. "
+                    "with uncovered exception",
+                    tensor_parallel_degree
+                )
+                break
+
+        if best_tuned_combination:
+            self.pysdk_model.env.update({
+                "OPTION_TENSOR_PARALLEL_DEGREE": str(best_tuned_combination[1])
+            })
+
+            _pretty_print_results_tgi(benchmark_results)
+            logger.info(
+                "Model Configuration: %s was most performant with avg latency: %s, "
+                "p90 latency: %s, average tokens per second: %s, throughput/s: %s, "
+                "standard deviation of request %s",
+                self.pysdk_model.env,
+                best_tuned_combination[0],
+                best_tuned_combination[3],
+                best_tuned_combination[4],
+                best_tuned_combination[5],
+                best_tuned_combination[6],
+            )
+        else:
+            self.pysdk_model.env.update(initial_model_configuration)
+            logger.debug(
+                "Failed to gather any tuning results. "
+                "Please inspect the stack trace emitted from live logging for more details. "
+                "Falling back to default serving.properties: %s",
+                self.pysdk_model.env,
+            )
+
+        return self.pysdk_model
 
     @_capture_telemetry("tgi_jumpstart.tune")
     def tune_for_tgi_jumpstart(self, max_tuning_duration: int = 1800):
@@ -352,7 +502,7 @@ def tune_for_tgi_jumpstart(self, max_tuning_duration: int = 1800):
                 break
             except LocalModelLoadException as e:
                 logger.warning(
-                    "Deployment unsuccessful with zSM_NUM_GPUS: %s. "
+                    "Deployment unsuccessful with SM_NUM_GPUS: %s. "
                     "Failed to load the model: %s.",
                     sm_num_gpus,
                     str(e),
@@ -438,4 +588,6 @@ def _build_for_jumpstart(self):
 
         if self.model_server == ModelServer.TGI:
             self.pysdk_model.tune = self.tune_for_tgi_jumpstart
+        elif self.model_server == ModelServer.DJL_SERVING:
+            self.pysdk_model.tune = self.tune_for_djl_jumpstart
         return self.pysdk_model