makungaj1
diff --git a/‎src/sagemaker/serve/builder/jumpstart_builder.py
Lines changed: 26 additions & 18 deletions b/‎src/sagemaker/serve/builder/jumpstart_builder.py
Lines changed: 26 additions & 18 deletions
diff --git a/‎src/sagemaker/serve/builder/model_builder.py
Lines changed: 24 additions & 23 deletions b/‎src/sagemaker/serve/builder/model_builder.py
Lines changed: 24 additions & 23 deletions
diff --git a/‎src/sagemaker/serve/utils/optimize_utils.py
Lines changed: 0 additions & 6 deletions b/‎src/sagemaker/serve/utils/optimize_utils.py
Lines changed: 0 additions & 6 deletions
diff --git a/‎tests/unit/sagemaker/serve/builder/test_djl_builder.py
Lines changed: 4 additions & 0 deletions b/‎tests/unit/sagemaker/serve/builder/test_djl_builder.py
Lines changed: 4 additions & 0 deletions
@@ -714,12 +714,9 @@ def _optimize_for_jumpstart(
                 f"Model '{self.model}' requires accepting end-user license agreement (EULA)."
             )
 
-        optimization_env_vars = env_vars
-        pysdk_model_env_vars = env_vars
-
+        pysdk_model_env_vars = dict()
         if compilation_config:
-            neuron_env = self._get_neuron_model_env_vars(instance_type)
-            optimization_env_vars = _update_environment_variables(neuron_env, optimization_env_vars)
+            pysdk_model_env_vars = self._get_neuron_model_env_vars(instance_type)
 
         if speculative_decoding_config:
             self._set_additional_model_source(speculative_decoding_config)
@@ -730,28 +727,34 @@ def _optimize_for_jumpstart(
                     config_name=deployment_config.get("DeploymentConfigName"),
                     instance_type=deployment_config.get("InstanceType"),
                 )
+                pysdk_model_env_vars = self.pysdk_model.env
 
         model_source = _generate_model_source(self.pysdk_model.model_data, accept_eula)
-        optimization_config, env = _extract_optimization_config_and_env(
+        optimization_env_vars = _update_environment_variables(pysdk_model_env_vars, env_vars)
+
+        optimization_config, override_env = _extract_optimization_config_and_env(
             quantization_config, compilation_config
         )
-        pysdk_model_env_vars = _update_environment_variables(pysdk_model_env_vars, env)
 
         output_config = {"S3OutputLocation": output_path}
         if kms_key:
             output_config["KmsKeyId"] = kms_key
-        if not instance_type:
-            instance_type = self.pysdk_model.deployment_config.get("DeploymentArgs", {}).get(
-                "InstanceType", _get_nb_instance()
-            )
+
+        deployment_config_instance_type = (
+            self.pysdk_model.deployment_config.get("DeploymentArgs", {}).get("InstanceType")
+            if self.pysdk_model.deployment_config
+            else None
+        )
+        self.instance_type = instance_type or deployment_config_instance_type or _get_nb_instance()
+        self.role_arn = role_arn or self.role_arn
 
         create_optimization_job_args = {
             "OptimizationJobName": job_name,
             "ModelSource": model_source,
-            "DeploymentInstanceType": instance_type,
+            "DeploymentInstanceType": self.instance_type,
             "OptimizationConfigs": [optimization_config],
             "OutputConfig": output_config,
-            "RoleArn": role_arn,
+            "RoleArn": self.role_arn,
         }
 
         if optimization_env_vars:
@@ -765,8 +768,6 @@ def _optimize_for_jumpstart(
         if vpc_config:
             create_optimization_job_args["VpcConfig"] = vpc_config
 
-        if pysdk_model_env_vars:
-            self.pysdk_model.env.update(pysdk_model_env_vars)
         if accept_eula:
             self.pysdk_model.accept_eula = accept_eula
             if isinstance(self.pysdk_model.model_data, dict):
@@ -775,6 +776,9 @@ def _optimize_for_jumpstart(
                 }
 
         if quantization_config or compilation_config:
+            self.pysdk_model.env = _update_environment_variables(
+                optimization_env_vars, override_env
+            )
             return create_optimization_job_args
         return None
 
@@ -810,9 +814,13 @@ def _set_additional_model_source(
             channel_name = _generate_channel_name(self.pysdk_model.additional_model_data_sources)
 
             if model_provider == "sagemaker":
-                additional_model_data_sources = self.pysdk_model.deployment_config.get(
-                    "DeploymentArgs", {}
-                ).get("AdditionalDataSources")
+                additional_model_data_sources = (
+                    self.pysdk_model.deployment_config.get("DeploymentArgs", {}).get(
+                        "AdditionalDataSources"
+                    )
+                    if self.pysdk_model.deployment_config
+                    else None
+                )
                 if additional_model_data_sources is None:
                     deployment_config = self._find_compatible_deployment_config(
                         speculative_decoding_config
 
@@ -71,7 +71,6 @@
 from sagemaker.serve.utils.optimize_utils import (
     _generate_optimized_model,
     _generate_model_source,
-    _update_environment_variables,
     _extract_optimization_config_and_env,
     _is_s3_uri,
     _normalize_local_model_path,
@@ -840,8 +839,7 @@ def build(  # pylint: disable=R0911
         if role_arn:
             self.role_arn = role_arn
 
-        if not self.sagemaker_session:
-            self.sagemaker_session = sagemaker_session or Session()
+        self.sagemaker_session = sagemaker_session or self.sagemaker_session or Session()
 
         self.sagemaker_session.settings._local_download_dir = self.model_path
 
@@ -1111,8 +1109,6 @@ def optimize(self, *args, **kwargs) -> Model:
         Returns:
             Model: A deployable ``Model`` object.
         """
-        if self.mode != Mode.SAGEMAKER_ENDPOINT:
-            raise ValueError("Model optimization is only supported in Sagemaker Endpoint Mode.")
 
         # need to get telemetry_opt_out info before telemetry decorator is called
         self.serve_settings = self._get_serve_setting()
@@ -1174,6 +1170,9 @@ def _model_builder_optimize_wrapper(
             speculative_decoding_config
         )
 
+        if self.mode != Mode.SAGEMAKER_ENDPOINT:
+            raise ValueError("Model optimization is only supported in Sagemaker Endpoint Mode.")
+
         if quantization_config and compilation_config:
             raise ValueError("Quantization config and compilation config are mutually exclusive.")
 
@@ -1273,39 +1272,39 @@ def _optimize_for_hf(
             logger.info("Overwriting model server to DJL.")
             self.model_server = ModelServer.DJL_SERVING
 
-        optimization_env_vars = env_vars
-        pysdk_model_env_vars = env_vars
+        self.role_arn = role_arn or self.role_arn
+        self.instance_type = instance_type or self.instance_type
 
         if quantization_config or compilation_config:
-            self.instance_type = instance_type or self.instance_type
+            create_optimization_job_args = {
+                "OptimizationJobName": job_name,
+                "DeploymentInstanceType": self.instance_type,
+                "RoleArn": self.role_arn,
+            }
+
+            if env_vars:
+                self.pysdk_model.env.update(env_vars)
+                create_optimization_job_args["OptimizationEnvironment"] = env_vars
 
             self._optimize_prepare_for_hf()
             model_source = _generate_model_source(self.pysdk_model.model_data, False)
+            create_optimization_job_args["ModelSource"] = model_source
 
             self.pysdk_model = _custom_speculative_decoding(
                 self.pysdk_model, speculative_decoding_config, False
             )
 
-            optimization_config, env = _extract_optimization_config_and_env(
+            optimization_config, override_env = _extract_optimization_config_and_env(
                 quantization_config, compilation_config
             )
-            pysdk_model_env_vars = _update_environment_variables(pysdk_model_env_vars, env)
+            create_optimization_job_args["OptimizationConfigs"] = [optimization_config]
+            self.pysdk_model.env.update(override_env)
 
             output_config = {"S3OutputLocation": output_path}
             if kms_key:
                 output_config["KmsKeyId"] = kms_key
+            create_optimization_job_args["OutputConfig"] = output_config
 
-            create_optimization_job_args = {
-                "OptimizationJobName": job_name,
-                "ModelSource": model_source,
-                "DeploymentInstanceType": self.instance_type,
-                "OptimizationConfigs": [optimization_config],
-                "OutputConfig": output_config,
-                "RoleArn": role_arn,
-            }
-
-            if optimization_env_vars:
-                create_optimization_job_args["OptimizationEnvironment"] = optimization_env_vars
             if max_runtime_in_sec:
                 create_optimization_job_args["StoppingCondition"] = {
                     "MaxRuntimeInSeconds": max_runtime_in_sec
@@ -1315,8 +1314,10 @@ def _optimize_for_hf(
             if vpc_config:
                 create_optimization_job_args["VpcConfig"] = vpc_config
 
-            if pysdk_model_env_vars:
-                self.pysdk_model.env.update(pysdk_model_env_vars)
+            # HF_MODEL_ID needs not to be present, otherwise,
+            # HF model artifacts will be re-downloaded during deployment
+            if "HF_MODEL_ID" in self.pysdk_model.env:
+                del self.pysdk_model.env["HF_MODEL_ID"]
 
             return create_optimization_job_args
         return None
 
@@ -54,17 +54,11 @@ def _generate_optimized_model(pysdk_model: Model, optimization_response: dict) -
     recommended_image_uri = optimization_response.get("OptimizationOutput", {}).get(
         "RecommendedInferenceImage"
     )
-    optimized_environment = optimization_response.get("OptimizationEnvironment")
     s3_uri = optimization_response.get("OutputConfig", {}).get("S3OutputLocation")
     deployment_instance_type = optimization_response.get("DeploymentInstanceType")
 
     if recommended_image_uri:
         pysdk_model.image_uri = recommended_image_uri
-    if optimized_environment:
-        if pysdk_model.env:
-            pysdk_model.env.update(optimized_environment)
-        else:
-            pysdk_model.env = optimized_environment
     if s3_uri:
         pysdk_model.model_data["S3DataSource"]["S3Uri"] = s3_uri
     if deployment_instance_type:
 
@@ -188,6 +188,7 @@ def test_tune_for_djl_local_container_deep_ping_ex(
         tuned_model = model.tune()
         assert tuned_model.env == mock_default_configs
 
+    @patch("sagemaker.serve.builder.djl_builder._get_model_config_properties_from_hf")
     @patch("sagemaker.serve.builder.djl_builder._capture_telemetry", side_effect=None)
     @patch(
         "sagemaker.serve.builder.jumpstart_builder.JumpStart._is_jumpstart_model_id",
@@ -211,7 +212,10 @@ def test_tune_for_djl_local_container_load_ex(
         mock_get_ram_usage_mb,
         mock_is_jumpstart_model,
         mock_telemetry,
+        mock_get_model_config_properties_from_hf,
     ):
+        mock_get_model_config_properties_from_hf.return_value = {}
+
         builder = ModelBuilder(
             model=mock_model_id,
             schema_builder=mock_schema_builder,