add tags for inf and dep recommendations

gwang111 · gwang111 · commit 7f9782fb8dfd · 2023-06-02T08:38:49.000Z
diff --git a/src/sagemaker/inference_recommender/inference_recommender_mixin.py b/src/sagemaker/inference_recommender/inference_recommender_mixin.py
@@ -30,6 +30,9 @@
 
 LOGGER = logging.getLogger("sagemaker")
 
+DEPLOYMENT_RECOMMENDATION_TAG = "PythonSDK-DeploymentRecommendation"
+
+RIGHT_SIZE_TAG = "PythonSDK-RightSize"
 
 class Phase:
     """Used to store phases of a traffic pattern to perform endpoint load testing.
@@ -218,6 +221,7 @@ def _update_params(
         explainer_config = kwargs["explainer_config"]
         inference_recommendation_id = kwargs["inference_recommendation_id"]
         inference_recommender_job_results = kwargs["inference_recommender_job_results"]
+        tags = kwargs["tags"]
         if inference_recommendation_id is not None:
             inference_recommendation = self._update_params_for_recommendation_id(
                 instance_type=instance_type,
@@ -237,7 +241,11 @@ def _update_params(
                 async_inference_config,
                 explainer_config,
             )
-        return inference_recommendation or (instance_type, initial_instance_count)
+
+        if inference_recommendation:
+            tags = self._add_client_type_tag(tags, inference_recommendation[2])
+            return (inference_recommendation[0], inference_recommendation[1], tags)
+        return (instance_type, initial_instance_count, tags)
 
     def _update_params_for_right_size(
         self,
@@ -301,7 +309,7 @@ def _update_params_for_right_size(
         initial_instance_count = self.inference_recommendations[0]["EndpointConfiguration"][
             "InitialInstanceCount"
         ]
-        return (instance_type, initial_instance_count)
+        return (instance_type, initial_instance_count, "PythonSDK-RightSize")
 
     def _update_params_for_recommendation_id(
         self,
@@ -401,7 +409,7 @@ def _update_params_for_recommendation_id(
                 raise ValueError("Must specify model recommendation id and instance count.")
             self.env.update(model_recommendation["Environment"])
             instance_type = model_recommendation["InstanceType"]
-            return (instance_type, initial_instance_count)
+            return (instance_type, initial_instance_count, DEPLOYMENT_RECOMMENDATION_TAG)
 
         # Update params based on default inference recommendation
         if bool(instance_type) != bool(initial_instance_count):
@@ -465,7 +473,7 @@ def _update_params_for_recommendation_id(
             "InitialInstanceCount"
         ]
 
-        return (instance_type, initial_instance_count)
+        return (instance_type, initial_instance_count, RIGHT_SIZE_TAG)
 
     def _convert_to_endpoint_configurations_json(
         self, hyperparameter_ranges: List[Dict[str, CategoricalParameter]]
@@ -605,3 +613,11 @@ def _search_recommendation(self, recommendation_list, inference_recommendation_i
             ),
             None,
         )
+
+    def _add_client_type_tag(self, tags, client_type):
+        client_type_tag = {
+            "Key": "ClientType",
+            "Value": client_type
+        }
+        tags = tags.append(client_type_tag) if tags else [client_type_tag]
+        return tags
diff --git a/src/sagemaker/model.py b/src/sagemaker/model.py
@@ -1218,7 +1218,7 @@ def deploy(
             inference_recommendation_id is not None
             or self.inference_recommender_job_results is not None
         ):
-            instance_type, initial_instance_count = self._update_params(
+            instance_type, initial_instance_count, tags = self._update_params(
                 instance_type=instance_type,
                 initial_instance_count=initial_instance_count,
                 accelerator_type=accelerator_type,
@@ -1227,6 +1227,7 @@ def deploy(
                 explainer_config=explainer_config,
                 inference_recommendation_id=inference_recommendation_id,
                 inference_recommender_job_results=self.inference_recommender_job_results,
+                tags=tags,
             )
 
         is_async = async_inference_config is not None
@@ -1721,7 +1722,7 @@ def _create_sagemaker_model(self, *args, **kwargs):  # pylint: disable=unused-ar
 
         Args:
             args: Positional arguments coming from the caller. This class does not require
-                any so they are ignored.
+                any but will specifically look for Tags (3rd arg positionally) if specified
 
             kwargs: Keyword arguments coming from the caller. This class does not require
                 any so they are ignored.
@@ -1752,6 +1753,7 @@ def _create_sagemaker_model(self, *args, **kwargs):  # pylint: disable=unused-ar
             container_def,
             vpc_config=self.vpc_config,
             enable_network_isolation=self.enable_network_isolation(),
+            tags=args[2],
         )
 
     def _ensure_base_name_if_needed(self, base_name):
diff --git a/tests/integ/test_inference_recommender.py b/tests/integ/test_inference_recommender.py
@@ -279,6 +279,30 @@ def default_right_sized_unregistered_base_model(sagemaker_session, cpu_instance_
             sagemaker_session.delete_model(ModelName=model.name)
 
 
+@pytest.fixture(scope="module")
+def created_base_model(sagemaker_session, cpu_instance_type):
+    model_data = sagemaker_session.upload_data(path=IR_SKLEARN_MODEL)
+    region = sagemaker_session._region_name
+    image_uri = image_uris.retrieve(
+        framework="sklearn", region=region, version="1.0-1", image_scope="inference"
+    )
+
+    iam_client = sagemaker_session.boto_session.client("iam")
+    role_arn = iam_client.get_role(RoleName="SageMakerRole")["Role"]["Arn"]
+
+    model = Model(
+        model_data=model_data,
+        role=role_arn,
+        entry_point=IR_SKLEARN_ENTRY_POINT,
+        image_uri=image_uri,
+        sagemaker_session=sagemaker_session,
+    )
+
+    model.create(instance_type=cpu_instance_type)
+
+    return model
+            
+
 @pytest.mark.slow_test
 def test_default_right_size_and_deploy_registered_model_sklearn(
     default_right_sized_model, sagemaker_session
@@ -429,3 +453,48 @@ def test_deploy_inference_recommendation_id_with_registered_model_sklearn(
             )
             predictor.delete_model()
             predictor.delete_endpoint()
+
+
+@pytest.mark.slow_test
+def test_deploy_deployment_recommendation_id_with_model(created_base_model, sagemaker_session):
+    with timeout(minutes=20):
+        try:
+            deployment_recommendation = poll_for_deployment_recommendation(created_base_model, sagemaker_session)
+
+            assert deployment_recommendation != None
+
+            real_time_recommendations = deployment_recommendation.get("RealTimeInferenceRecommendations")
+            recommendation_id = real_time_recommendations[0].get('RecommendationId')
+            
+            endpoint_name = unique_name_from_base("test-rec-id-deployment-default-sklearn")
+            created_base_model.predictor_cls = SKLearnPredictor
+            predictor = created_base_model.deploy(
+                inference_recommendation_id=recommendation_id, initial_instance_count=1, endpoint_name=endpoint_name
+            )
+
+            payload = pd.read_csv(IR_SKLEARN_DATA, header=None)
+
+            inference = predictor.predict(payload)
+            assert inference is not None
+            assert 26 == len(inference)
+        finally:
+            predictor.delete_model()
+            predictor.delete_endpoint()            
+
+
+def poll_for_deployment_recommendation(created_base_model, sagemaker_session):
+    with timeout(minutes=1):
+        try:
+            completed = False
+            while not completed:
+                describe_model_response = sagemaker_session.sagemaker_client.describe_model(ModelName=created_base_model.name)
+                deployment_recommendation = describe_model_response.get("DeploymentRecommendation")
+
+                completed = (
+                    deployment_recommendation is not None
+                    and "COMPLETED" == deployment_recommendation.get("RecommendationStatus")
+                )
+            return deployment_recommendation
+        except Exception as e:
+            created_base_model.delete_model()
+            raise e
diff --git a/tests/unit/sagemaker/inference_recommender/constants.py b/tests/unit/sagemaker/inference_recommender/constants.py
@@ -152,3 +152,44 @@
     "ModelArtifacts": {"S3ModelArtifacts": IR_COMPILATION_MODEL_DATA},
     "InferenceImage": IR_COMPILATION_IMAGE,
 }
+
+IR_CONTAINER_DEF = {
+    "Image": IR_IMAGE,
+    "Environment": IR_ENV,
+    "ModelDataUrl": IR_MODEL_DATA,
+}
+
+DEPLOYMENT_RECOMMENDATION_CONTAINER_DEF = {
+    "Image": IR_IMAGE,
+    "Environment": MODEL_RECOMMENDATION_ENV,
+    "ModelDataUrl": IR_MODEL_DATA,
+}
+
+IR_COMPILATION_CONTAINER_DEF = {
+    "Image": IR_COMPILATION_IMAGE,
+    "Environment": {},
+    "ModelDataUrl": IR_COMPILATION_MODEL_DATA,
+}
+
+IR_MODEL_PACKAGE_CONTAINER_DEF = {
+    "ModelPackageName": IR_MODEL_PACKAGE_VERSION_ARN,
+    "Environment": IR_ENV,
+}
+
+IR_COMPILATION_MODEL_PACKAGE_CONTAINER_DEF = {
+    "ModelPackageName": IR_MODEL_PACKAGE_VERSION_ARN,
+}
+
+IR_TAGS = [
+    {
+        "Key": "ClientType",
+        "Value": "PythonSDK-RightSize",
+    }
+]
+
+DEPLOYMENT_RECOMMENDATION_TAGS = [
+    {
+        "Key": "ClientType",
+        "Value": "PythonSDK-DeploymentRecommendation",
+    }
+]
diff --git a/tests/unit/sagemaker/inference_recommender/test_inference_recommender_mixin.py b/tests/unit/sagemaker/inference_recommender/test_inference_recommender_mixin.py
@@ -177,6 +177,17 @@
     }
 ]
 
+IR_MODEL_PACKAGE_CONTAINER_DEF = {
+    "ModelPackageName": MODEL_PACKAGE_ARN,
+}
+
+IR_TAGS = [
+    {
+        "Key": "ClientType",
+        "Value": "PythonSDK-RightSize",
+    }
+]
+
 
 @pytest.fixture()
 def sagemaker_session():
@@ -371,6 +382,8 @@ def test_right_size_default_with_model_package_successful(sagemaker_session, mod
         framework=IR_SAMPLE_FRAMEWORK,
     )
 
+    sagemaker_session.create_model.assert_not_called()
+
     # assert that the create api has been called with default parameters
     sagemaker_session.create_inference_recommendations_job.assert_called_with(
         role=IR_ROLE_ARN,
@@ -426,6 +439,8 @@ def test_right_size_advanced_list_instances_model_package_successful(
         max_parallel_tests=5,
     )
 
+    sagemaker_session.create_model.assert_not_called()
+
     # assert that the create api has been called with advanced parameters
     sagemaker_session.create_inference_recommendations_job.assert_called_with(
         role=IR_ROLE_ARN,
@@ -481,6 +496,8 @@ def test_right_size_advanced_single_instances_model_package_successful(
         max_parallel_tests=5,
     )
 
+    sagemaker_session.create_model.assert_not_called()
+
     # assert that the create api has been called with advanced parameters
     sagemaker_session.create_inference_recommendations_job.assert_called_with(
         role=IR_ROLE_ARN,
@@ -517,6 +534,8 @@ def test_right_size_advanced_model_package_partial_params_successful(
         model_latency_thresholds=IR_SAMPLE_MODEL_LATENCY_THRESHOLDS,
     )
 
+    sagemaker_session.create_model.assert_not_called()
+
     # assert that the create api has been called with advanced parameters
     sagemaker_session.create_inference_recommendations_job.assert_called_with(
         role=IR_ROLE_ARN,
@@ -567,14 +586,23 @@ def test_deploy_right_size_with_model_package_succeeds(
     default_right_sized_model.name = MODEL_NAME
     default_right_sized_model.deploy(endpoint_name=IR_DEPLOY_ENDPOINT_NAME)
 
+    sagemaker_session.create_model.assert_called_with(
+        MODEL_NAME,
+        IR_ROLE_ARN,
+        IR_MODEL_PACKAGE_CONTAINER_DEF,
+        vpc_config=None,
+        enable_network_isolation=False,
+        tags=IR_TAGS,
+    )
+
     sagemaker_session.endpoint_from_production_variants.assert_called_with(
         async_inference_config_dict=None,
         data_capture_config_dict=None,
         explainer_config_dict=None,
         kms_key=None,
         name="ir-endpoint-test",
         production_variants=IR_PRODUCTION_VARIANTS,
-        tags=None,
+        tags=IR_TAGS,
         wait=True,
     )
 
@@ -589,6 +617,15 @@ def test_deploy_right_size_with_both_overrides_succeeds(
         endpoint_name=IR_DEPLOY_ENDPOINT_NAME,
     )
 
+    sagemaker_session.create_model.assert_called_with(
+        MODEL_NAME,
+        IR_ROLE_ARN,
+        IR_MODEL_PACKAGE_CONTAINER_DEF,
+        vpc_config=None,
+        enable_network_isolation=False,
+        tags=None,
+    )
+
     sagemaker_session.endpoint_from_production_variants.assert_called_with(
         async_inference_config_dict=None,
         data_capture_config_dict=None,
@@ -637,6 +674,15 @@ def test_deploy_right_size_serverless_override(sagemaker_session, default_right_
     serverless_inference_config = ServerlessInferenceConfig()
     default_right_sized_model.deploy(serverless_inference_config=serverless_inference_config)
 
+    sagemaker_session.create_model.assert_called_with(
+        MODEL_NAME,
+        IR_ROLE_ARN,
+        IR_MODEL_PACKAGE_CONTAINER_DEF,
+        vpc_config=None,
+        enable_network_isolation=False,
+        tags=None,
+    )
+
     sagemaker_session.endpoint_from_production_variants.assert_called_with(
         name=MODEL_NAME,
         production_variants=IR_SERVERLESS_PRODUCTION_VARIANTS,
@@ -661,6 +707,15 @@ def test_deploy_right_size_async_override(sagemaker_session, default_right_sized
         async_inference_config=async_inference_config,
     )
 
+    sagemaker_session.create_model.assert_called_with(
+        MODEL_NAME,
+        IR_ROLE_ARN,
+        IR_MODEL_PACKAGE_CONTAINER_DEF,
+        vpc_config=None,
+        enable_network_isolation=False,
+        tags=None,
+    )
+
     sagemaker_session.endpoint_from_production_variants.assert_called_with(
         name=MODEL_NAME,
         production_variants=[ANY],
@@ -695,6 +750,15 @@ def test_deploy_right_size_explainer_config_override(sagemaker_session, default_
         explainer_config=explainer_config,
     )
 
+    sagemaker_session.create_model.assert_called_with(
+        MODEL_NAME,
+        IR_ROLE_ARN,
+        IR_MODEL_PACKAGE_CONTAINER_DEF,
+        vpc_config=None,
+        enable_network_isolation=False,
+        tags=None,
+    )
+
     sagemaker_session.endpoint_from_production_variants.assert_called_with(
         name=MODEL_NAME,
         production_variants=[ANY],
diff --git a/tests/unit/sagemaker/model/test_deploy.py b/tests/unit/sagemaker/model/test_deploy.py