Refactoring

Jonathan Makunga · Jonathan Makunga · commit 9b1868498cde · 2024-03-27T14:05:21.000-07:00
diff --git a/src/sagemaker/serve/builder/jumpstart_builder.py b/src/sagemaker/serve/builder/jumpstart_builder.py
@@ -42,10 +42,11 @@
 )
 from sagemaker.serve.utils.telemetry_logger import _capture_telemetry
 from sagemaker.serve.utils.tuning import (
-    _more_performant_benchmark,
     _pretty_print_benchmark_results,
-    _run_serial_and_concurrent_benchmarks,
     sharded_supported,
+    _serial_benchmark,
+    _concurrent_benchmark,
+    _more_performant,
 )
 from sagemaker.serve.utils.types import ModelServer
 from sagemaker.base_predictor import PredictorBase
@@ -298,19 +299,52 @@ def _tune_for_js(self, max_tuning_duration: int = 1800):
             try:
                 logger.info("Trying tensor parallel degree: %s", tensor_parallel_degree)
 
-                result = _run_serial_and_concurrent_benchmarks(
-                    self.pysdk_model, self.schema_builder.sample_input, max_tuning_duration
+                predictor = self.pysdk_model.deploy(model_data_download_timeout=max_tuning_duration)
+
+                avg_latency, p90, avg_tokens_per_second = _serial_benchmark(
+                    predictor, self.schema_builder.sample_input
+                )
+                throughput_per_second, standard_deviation = _concurrent_benchmark(
+                    predictor, self.schema_builder.sample_input
                 )
-                benchmark_results[result["AVG_LATENCY"]] = {
-                    "TESTED_ENV": result["TESTED_ENV"],
-                    "P90": result["P90"],
-                    "AVG_TOKENS_PER_SECOND": result["AVG_TOKENS_PER_SECOND"],
-                    "THROUGHPUT_PER_SECOND": result["THROUGHPUT_PER_SECOND"],
-                    "STD_DEVIATION": result["STD_DEVIATION"],
-                }
-
-                result[num_shard_env_var_name] = tensor_parallel_degree
-                best_tuned_combination = _more_performant_benchmark(best_tuned_combination, result)
+
+                tested_env = copy.deepcopy(self.pysdk_model.env)
+                logger.info(
+                    "Average latency: %s, throughput/s: %s for configuration: %s",
+                    avg_latency,
+                    throughput_per_second,
+                    tested_env,
+                )
+                benchmark_results[avg_latency] = [
+                    tested_env,
+                    p90,
+                    avg_tokens_per_second,
+                    throughput_per_second,
+                    standard_deviation,
+                ]
+
+                if not best_tuned_combination:
+                    best_tuned_combination = [
+                        avg_latency,
+                        tensor_parallel_degree,
+                        None,
+                        p90,
+                        avg_tokens_per_second,
+                        throughput_per_second,
+                        standard_deviation,
+                    ]
+                else:
+                    tuned_configuration = [
+                        avg_latency,
+                        tensor_parallel_degree,
+                        None,
+                        p90,
+                        avg_tokens_per_second,
+                        throughput_per_second,
+                        standard_deviation,
+                    ]
+                    if _more_performant(best_tuned_combination, tuned_configuration):
+                        best_tuned_combination = tuned_configuration
             except LocalDeepPingException as e:
                 logger.warning(
                     "Deployment unsuccessful with %s: %s. " "Failed to invoke the model server: %s",
@@ -360,21 +394,19 @@ def _tune_for_js(self, max_tuning_duration: int = 1800):
                 )
 
         if best_tuned_combination:
-            self.pysdk_model.env.update(
-                {num_shard_env_var_name: str(best_tuned_combination[num_shard_env_var_name])}
-            )
+            self.pysdk_model.env.update({num_shard_env_var_name: str(best_tuned_combination[1])})
 
             _pretty_print_benchmark_results(benchmark_results, [num_shard_env_var_name])
             logger.info(
                 "Model Configuration: %s was most performant with avg latency: %s, "
                 "p90 latency: %s, average tokens per second: %s, throughput/s: %s, "
                 "standard deviation of request %s",
                 self.pysdk_model.env,
-                best_tuned_combination["AVG_LATENCY"],
-                best_tuned_combination["P90"],
-                best_tuned_combination["AVG_TOKENS_PER_SECOND"],
-                best_tuned_combination["THROUGHPUT_PER_SECOND"],
-                best_tuned_combination["STD_DEVIATION"],
+                best_tuned_combination[0],
+                best_tuned_combination[3],
+                best_tuned_combination[4],
+                best_tuned_combination[5],
+                best_tuned_combination[6],
             )
         else:
             self.pysdk_model.env.update(initial_env_vars)
diff --git a/src/sagemaker/serve/utils/tuning.py b/src/sagemaker/serve/utils/tuning.py
@@ -1,7 +1,6 @@
 """Holds mixin logic to support deployment of Model ID"""
 from __future__ import absolute_import
 
-import copy
 import logging
 from time import perf_counter
 import collections
@@ -118,13 +117,13 @@ def _pretty_print_benchmark_results(results: dict, model_env_vars=None):
 
     for key, value in ordered.items():
         avg_latencies.append(key)
-        p90s.append(value["P90"])
-        avg_tokens_per_seconds.append(value["AVG_TOKENS_PER_SECOND"])
-        throughput_per_seconds.append(value["THROUGHPUT_PER_SECOND"])
-        standard_deviations.append(value["STD_DEVIATION"])
+        p90s.append(value[1])
+        avg_tokens_per_seconds.append(value[2])
+        throughput_per_seconds.append(value[3])
+        standard_deviations.append(value[4])
 
         for model_env_var in __env_var_data:
-            __env_var_data[model_env_var].append(value["TESTED_ENV"][model_env_var])
+            __env_var_data[model_env_var].append(value[0][model_env_var])
 
     df = pd.DataFrame(
         {
@@ -137,13 +136,13 @@ def _pretty_print_benchmark_results(results: dict, model_env_vars=None):
         }
     )
 
-    separator = "=" * 78
-    log_message = (
-        f"\n{separator} Benchmark Results {separator}\n"
-        f"{df.to_string()}\n"
-        f"{separator}{separator}\n"
+    logger.info(
+        "\n================================================================== Benchmark "
+        "Results ==================================================================\n%s"
+        "\n============================================================================"
+        "===========================================================================\n",
+        df.to_string(),
     )
-    logger.info(log_message)
 
 
 def _tokens_per_second(generated_text: str, max_token_length: int, latency: float) -> int:
@@ -266,53 +265,6 @@ def _more_performant(best_tuned_configuration: list, tuned_configuration: list)
     return tuned_avg_latency <= best_avg_latency
 
 
-def _more_performant_benchmark(
-    best_tuned_configuration: dict, current_tuned_configuration: dict
-) -> dict:
-    """Returns the configuration with the lowest latency"""
-    if best_tuned_configuration is None:
-        return current_tuned_configuration
-
-    best_avg_latency = best_tuned_configuration["AGV_LATENCY"]
-    current_tuned_avg_latency = current_tuned_configuration["AGV_LATENCY"]
-    best_standard_deviation = best_tuned_configuration["STD_DEVIATION"]
-    current_tuned_standard_deviation = current_tuned_configuration["STD_DEVIATION"]
-
-    if _within_margins(MARGIN, 5, current_tuned_avg_latency, best_avg_latency):
-        if current_tuned_standard_deviation <= best_standard_deviation:
-            return current_tuned_configuration
-        return best_tuned_configuration
-
-    if current_tuned_avg_latency <= best_avg_latency:
-        return current_tuned_configuration
-    return best_tuned_configuration
-
-
-def _run_serial_and_concurrent_benchmarks(pysdk_model, sample_input, max_tuning_duration) -> dict:
-    """Run the benchmarks"""
-    predictor = pysdk_model.deploy(model_data_download_timeout=max_tuning_duration)
-
-    avg_latency, p90, avg_tokens_per_second = _serial_benchmark(predictor, sample_input)
-    throughput_per_second, standard_deviation = _concurrent_benchmark(predictor, sample_input)
-
-    tested_env = copy.deepcopy(pysdk_model.env)
-    logger.info(
-        "Average latency: %s, throughput/s: %s for configuration: %s",
-        avg_latency,
-        throughput_per_second,
-        tested_env,
-    )
-
-    return {
-        "AVG_LATENCY": avg_latency,
-        "TESTED_ENV": tested_env,
-        "P90": p90,
-        "AVG_TOKENS_PER_SECOND": avg_tokens_per_second,
-        "THROUGHPUT_PER_SECOND": throughput_per_second,
-        "STD_DEVIATION": standard_deviation,
-    }
-
-
 def sharded_supported(model_id: str, config_dict: dict) -> bool:
     """Check if sharded is supported for this ``Model``"""
     model_type = config_dict.get("model_type", None)
diff --git a/tests/unit/sagemaker/serve/builder/test_js_builder.py b/tests/unit/sagemaker/serve/builder/test_js_builder.py
@@ -36,7 +36,7 @@
 mock_tgi_most_performant_model_serving_properties = {
     "SAGEMAKER_PROGRAM": "inference.py",
     "SAGEMAKER_MODEL_SERVER_WORKERS": "1",
-    "SM_NUM_GPUS": "4",
+    "SM_NUM_GPUS": "2",
 }
 mock_tgi_model_serving_properties = {
     "SAGEMAKER_PROGRAM": "inference.py",
@@ -530,8 +530,4 @@ def test_tune_for_djl_js_local_container_sharded_not_enabled(
         mock_pre_trained_model.return_value.env = mock_djl_model_serving_properties
 
         tuned_model = model.tune()
-        assert tuned_model.env == {
-            "SAGEMAKER_PROGRAM": "inference.py",
-            "SAGEMAKER_MODEL_SERVER_WORKERS": "1",
-            "OPTION_TENSOR_PARALLEL_DEGREE": "1",
-        }
+        assert tuned_model.env == mock_djl_most_performant_model_serving_properties