Fix broken test test_distributed_mnist_no_ps (aws#156)

icywang86rui · Eliza Zhang · commit 46fdf0b8f126 · 2019-11-04T11:56:10.000-08:00
This test shouldn't save checkpoints since the two hosts are justing running
training jobs independently. The checkpoints interfere with each other. Changing
the test to use the Keras mnist script here.

This change also changed the saved model path to /opt/ml/opt so we can just use
the estimator.model_data path to assert the model exists.
diff --git a/test/resources/mnist/mnist.py b/test/resources/mnist/mnist.py
@@ -2,14 +2,7 @@
 import argparse
 import os
 import numpy as np
-<<<<<<< HEAD
-<<<<<<< HEAD
 import json
-=======
-import sys
->>>>>>> Scriptmode single machine training implementation (#78)
-=======
->>>>>>> Add Keras support (#126)
 
 
 def _parse_args():
@@ -19,7 +12,6 @@ def _parse_args():
     # hyperparameters sent by the client are passed as command-line arguments to the script.
     parser.add_argument('--epochs', type=int, default=1)
     # Data, model, and output directories
-<<<<<<< HEAD
     parser.add_argument('--model-dir', type=str, default=os.environ['SM_MODEL_DIR'])
     parser.add_argument('--train', type=str, default=os.environ['SM_CHANNEL_TRAINING'])
     parser.add_argument('--hosts', type=list, default=json.loads(os.environ['SM_HOSTS']))
@@ -28,32 +20,12 @@ def _parse_args():
     return parser.parse_known_args()
 
 
-=======
-    parser.add_argument('--output-data-dir', type=str, default=os.environ['SM_OUTPUT_DATA_DIR'])
-    parser.add_argument('--model-dir', type=str, default=os.environ['SM_MODEL_DIR'])
-    parser.add_argument('--train', type=str, default=os.environ['SM_CHANNEL_TRAINING'])
-    
-    return parser.parse_known_args()
-<<<<<<< HEAD
-#
->>>>>>> Scriptmode single machine training implementation (#78)
-=======
-
-
->>>>>>> Add distributed training support (#98)
 def _load_training_data(base_dir):
     x_train = np.load(os.path.join(base_dir, 'train', 'x_train.npy'))
     y_train = np.load(os.path.join(base_dir, 'train', 'y_train.npy'))
     return x_train, y_train
 
-<<<<<<< HEAD
-<<<<<<< HEAD
-
-=======
->>>>>>> Scriptmode single machine training implementation (#78)
-=======
 
->>>>>>> Add distributed training support (#98)
 def _load_testing_data(base_dir):
     x_test = np.load(os.path.join(base_dir, 'test', 'x_test.npy'))
     y_test = np.load(os.path.join(base_dir, 'test', 'y_test.npy'))
@@ -63,15 +35,7 @@ def _load_testing_data(base_dir):
 args, unknown = _parse_args()
 
 model = tf.keras.models.Sequential([
-<<<<<<< HEAD
-<<<<<<< HEAD
-  tf.keras.layers.Flatten(input_shape=(28, 28)),
-=======
-  tf.keras.layers.Flatten(),
->>>>>>> Scriptmode single machine training implementation (#78)
-=======
   tf.keras.layers.Flatten(input_shape=(28, 28)),
->>>>>>> Add distributed training support (#98)
   tf.keras.layers.Dense(512, activation=tf.nn.relu),
   tf.keras.layers.Dropout(0.2),
   tf.keras.layers.Dense(10, activation=tf.nn.softmax)
@@ -84,9 +48,5 @@ def _load_testing_data(base_dir):
 x_test, y_test = _load_testing_data(args.train)
 model.fit(x_train, y_train, epochs=args.epochs)
 model.evaluate(x_test, y_test)
-<<<<<<< HEAD
 if args.current_host == args.hosts[0]:
-    model.save(os.path.join('/opt/ml/model', 'my_model.h5'))
-=======
-model.save(os.path.join(args.model_dir, 'my_model.h5'))
->>>>>>> Scriptmode single machine training implementation (#78)
+    model.save(os.path.join('/opt/ml/model', 'my_model.h5'))