[SageMaker Data Parallel] Upgrade the TF2 version to 2.4.1 and also update the py_version to 3.7 (#2069)

karan6181 · web-flow · commit a2bf7cfb1d19 · 2021-03-10T14:04:39.000-08:00
diff --git a/training/distributed_training/tensorflow/data_parallel/bert/Dockerfile b/training/distributed_training/tensorflow/data_parallel/bert/Dockerfile
@@ -1,6 +1,6 @@
 ARG region
 
-FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.3.1-gpu-py37-cu110-ubuntu18.04
+FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04
 
 RUN 	pip --no-cache-dir --no-cache install \
         scikit-learn==0.23.1 \
diff --git a/training/distributed_training/tensorflow/data_parallel/bert/tensorflow2_smdataparallel_bert_demo.ipynb b/training/distributed_training/tensorflow/data_parallel/bert/tensorflow2_smdataparallel_bert_demo.ipynb
@@ -8,7 +8,7 @@
     "\n",
     "HSMDataParallel is a new capability in Amazon SageMaker to train deep learning models faster and cheaper. SMDataParallel is a distributed data parallel training framework for TensorFlow, PyTorch, and MXNet.\n",
     "\n",
-    "This notebook example shows how to use SMDataParallel with TensorFlow(version 2.3.1) on [Amazon SageMaker](https://aws.amazon.com/sagemaker/) to train a BERT model using [Amazon FSx for Lustre file-system](https://aws.amazon.com/fsx/lustre/) as data source.\n",
+    "This notebook example shows how to use SMDataParallel with TensorFlow(version 2.4.1) on [Amazon SageMaker](https://aws.amazon.com/sagemaker/) to train a BERT model using [Amazon FSx for Lustre file-system](https://aws.amazon.com/fsx/lustre/) as data source.\n",
     "\n",
     "The outline of steps is as follows:\n",
     "\n",
@@ -244,8 +244,8 @@
     "                        role=role,\n",
     "                        image_uri=docker_image,\n",
     "                        source_dir='deep-learning-models/models/nlp',\n",
-    "                        framework_version='2.3.1',\n",
-    "                        py_version='py3',\n",
+    "                        framework_version='2.4.1',\n",
+    "                        py_version='py37',\n",
     "                        instance_count=instance_count,\n",
     "                        instance_type=instance_type,\n",
     "                        sagemaker_session=sagemaker_session,\n",
@@ -315,4 +315,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 4
-}
+}
diff --git a/training/distributed_training/tensorflow/data_parallel/maskrcnn/Dockerfile b/training/distributed_training/tensorflow/data_parallel/maskrcnn/Dockerfile
@@ -1,6 +1,6 @@
 ARG region
 
-FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.3.1-gpu-py37-cu110-ubuntu18.04
+FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/tensorflow-training:2.4.1-gpu-py37-cu110-ubuntu18.04
 
 RUN 	pip --no-cache-dir --no-cache install \
         Cython \
diff --git a/training/distributed_training/tensorflow/data_parallel/maskrcnn/tensorflow2_smdataparallel_maskrcnn_demo.ipynb b/training/distributed_training/tensorflow/data_parallel/maskrcnn/tensorflow2_smdataparallel_maskrcnn_demo.ipynb
@@ -8,7 +8,7 @@
     "\n",
     "SMDataParallel is a new capability in Amazon SageMaker to train deep learning models faster and cheaper. SMDataParallel is a distributed data parallel training framework for TensorFlow, PyTorch, and MXNet.\n",
     "\n",
-    "This notebook example shows how to use SMDataParallel with TensorFlow(version 2.3.1) on [Amazon SageMaker](https://aws.amazon.com/sagemaker/) to train a MaskRCNN model on [COCO 2017 dataset](https://cocodataset.org/#home) using [Amazon FSx for Lustre file-system](https://aws.amazon.com/fsx/lustre/) as data source.\n",
+    "This notebook example shows how to use SMDataParallel with TensorFlow(version 2.4.1) on [Amazon SageMaker](https://aws.amazon.com/sagemaker/) to train a MaskRCNN model on [COCO 2017 dataset](https://cocodataset.org/#home) using [Amazon FSx for Lustre file-system](https://aws.amazon.com/fsx/lustre/) as data source.\n",
     "\n",
     "The outline of steps is as follows:\n",
     "\n",
@@ -238,8 +238,8 @@
     "                        role=role,\n",
     "                        image_uri=docker_image,\n",
     "                        source_dir='.',\n",
-    "                        framework_version='2.3.1',\n",
-    "                        py_version='py3',\n",
+    "                        framework_version='2.4.1',\n",
+    "                        py_version='py37',\n",
     "                        instance_count=instance_count,\n",
     "                        instance_type=instance_type,\n",
     "                        sagemaker_session=sagemaker_session,\n",
@@ -323,4 +323,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 4
-}
+}
diff --git a/training/distributed_training/tensorflow/data_parallel/mnist/tensorflow2_smdataparallel_mnist_demo.ipynb b/training/distributed_training/tensorflow/data_parallel/mnist/tensorflow2_smdataparallel_mnist_demo.ipynb
@@ -104,7 +104,7 @@
     "                        entry_point='train_tensorflow_smdataparallel_mnist.py',\n",
     "                        role=role,\n",
     "                        py_version='py37',\n",
-    "                        framework_version='2.3.1',\n",
+    "                        framework_version='2.4.1',\n",
     "                        # For training with multinode distributed training, set this count. Example: 2\n",
     "                        instance_count=2,\n",
     "                        # For training with p3dn instance use - ml.p3dn.24xlarge, with p4dn instance use - ml.p4d.24xlarge\n",
@@ -170,4 +170,4 @@
  },
  "nbformat": 4,
  "nbformat_minor": 4
-}
+}