Debugging

Jonathan Makunga · Jonathan Makunga · commit 1ec29e395d19 · 2024-03-19T21:14:46.000-07:00
diff --git a/src/sagemaker/serve/builder/jumpstart_builder.py b/src/sagemaker/serve/builder/jumpstart_builder.py
@@ -254,6 +254,12 @@ def _build_for_tgi_jumpstart(self):
 
         self.pysdk_model.env.update(env)
 
+    def _log_delete_me(self, data: any):
+        """Placeholder docstring"""
+        logger.debug("*****************************************")
+        logger.debug(data)
+        logger.debug("*****************************************")
+
     @_capture_telemetry("djl_jumpstart.tune")
     def tune_for_djl_jumpstart(self, max_tuning_duration: int = 1800):
         """pass"""
@@ -264,18 +270,21 @@ def tune_for_djl_jumpstart(self, max_tuning_duration: int = 1800):
             return self.pysdk_model
 
         initial_model_configuration = copy.deepcopy(self.pysdk_model.env)
+        self._log_delete_me(f"initial_model_configuration: {initial_model_configuration}")
 
+        self._log_delete_me(f"self.js_model_config: {self.js_model_config}")
         admissible_tensor_parallel_degrees = _get_admissible_tensor_parallel_degrees(self.js_model_config)
+        self._log_delete_me(f"admissible_tensor_parallel_degrees: {admissible_tensor_parallel_degrees}")
 
         benchmark_results = {}
         best_tuned_combination = None
         timeout = datetime.now() + timedelta(seconds=max_tuning_duration)
         for tensor_parallel_degree in admissible_tensor_parallel_degrees:
+            self._log_delete_me(f"tensor_parallel_degree: {tensor_parallel_degree}")
             if datetime.now() > timeout:
                 logger.info("Max tuning duration reached. Tuning stopped.")
                 break
 
-            sagemaker_model_server_workers = None
             self.pysdk_model.env.update({
                 "OPTION_TENSOR_PARALLEL_DEGREE": str(tensor_parallel_degree)
             })
@@ -311,7 +320,7 @@ def tune_for_djl_jumpstart(self, max_tuning_duration: int = 1800):
                     best_tuned_combination = [
                         avg_latency,
                         tensor_parallel_degree,
-                        sagemaker_model_server_workers,
+                        None,
                         p90,
                         avg_tokens_per_second,
                         throughput_per_second,
@@ -321,7 +330,7 @@ def tune_for_djl_jumpstart(self, max_tuning_duration: int = 1800):
                     tuned_configuration = [
                         avg_latency,
                         tensor_parallel_degree,
-                        sagemaker_model_server_workers,
+                        None,
                         p90,
                         avg_tokens_per_second,
                         throughput_per_second,
@@ -418,19 +427,23 @@ def tune_for_tgi_jumpstart(self, max_tuning_duration: int = 1800):
             return self.pysdk_model
 
         initial_model_configuration = copy.deepcopy(self.pysdk_model.env)
+        self._log_delete_me(f"initial_model_configuration: {initial_model_configuration}")
+
+        self._log_delete_me(f"self.js_model_config: {self.js_model_config}")
 
         admissible_tensor_parallel_degrees = _get_admissible_tensor_parallel_degrees(self.js_model_config)
+        self._log_delete_me(f"admissible_tensor_parallel_degrees: {admissible_tensor_parallel_degrees}")
 
         benchmark_results = {}
         best_tuned_combination = None
         timeout = datetime.now() + timedelta(seconds=max_tuning_duration)
         for tensor_parallel_degree in admissible_tensor_parallel_degrees:
+            self._log_delete_me(f"tensor_parallel_degree: {tensor_parallel_degree}")
             if datetime.now() > timeout:
                 logger.info("Max tuning duration reached. Tuning stopped.")
                 break
 
             sm_num_gpus = tensor_parallel_degree
-            sagemaker_model_server_workers = None
             self.pysdk_model.env.update({
                 "SM_NUM_GPUS": str(sm_num_gpus)
             })
@@ -466,7 +479,7 @@ def tune_for_tgi_jumpstart(self, max_tuning_duration: int = 1800):
                     best_tuned_combination = [
                         avg_latency,
                         sm_num_gpus,
-                        sagemaker_model_server_workers,
+                        None,
                         p90,
                         avg_tokens_per_second,
                         throughput_per_second,
@@ -476,7 +489,7 @@ def tune_for_tgi_jumpstart(self, max_tuning_duration: int = 1800):
                     tuned_configuration = [
                         avg_latency,
                         sm_num_gpus,
-                        sagemaker_model_server_workers,
+                        None,
                         p90,
                         avg_tokens_per_second,
                         throughput_per_second,