Merge pull request #210 from tidymodels/multi-predict-column-names

topepo · web-flow · commit ae42617a92e4 · 2019-09-02T21:23:53.000-04:00
multi_predict column names
diff --git a/DESCRIPTION b/DESCRIPTION
@@ -1,5 +1,5 @@
 Package: parsnip
-Version: 0.0.3.9000
+Version: 0.0.3.9001
 Title: A Common API to Modeling and Analysis Functions
 Description: A common interface is provided to allow users to specify a model without having to remember the different argument names across different functions or computational engines (e.g. 'R', 'Spark', 'Stan', etc). 
 Authors@R: c(
diff --git a/NEWS.md b/NEWS.md
@@ -1,9 +1,11 @@
-# parsnip 0.0.3.9000
+# parsnip 0.0.3.9001
 
 * Some default parameter ranges were updated for SVM, KNN, and MARS models. 
 
 * [A bug](https://github.com/tidymodels/parsnip/issues/208) was fixed related to using data descriptors and `fit_xy()`. 
 
+* A bug was fixed related to the column names generated by `multi_predict()`. The top-level tibble will always have a column named `.pred` and this list column contains tibbles across sub-models. The column names for these sub-model tibbles will have names consistent with `predict()` (which was previously incorrect). See [43c15db](https://github.com/tidymodels/parsnip/commit/43c15db377ea9ef27483ff209f6bd0e98cb830d2).
+
 # parsnip 0.0.3.1
 
 Test case update due to CRAN running extra tests [(#202)](https://github.com/tidymodels/parsnip/issues/202)
diff --git a/R/aaa.R b/R/aaa.R
@@ -33,7 +33,7 @@ utils::globalVariables(
     'lab', 'original', 'predicted_label', 'prediction', 'value', 'type',
     "neighbors", ".submodels", "has_submodel", "max_neighbor", "max_penalty",
     "max_terms", "max_tree", "name", "num_terms", "penalty", "trees",
-    "sub_neighbors")
+    "sub_neighbors", ".pred_class")
   )
 
 # nocov end
diff --git a/R/aaa_multi_predict.R b/R/aaa_multi_predict.R
@@ -12,8 +12,10 @@
 #' @param ... Optional arguments to pass to `predict.model_fit(type = "raw")`
 #'  such as `type`.
 #' @return A tibble with the same number of rows as the data being predicted.
-#'  Mostly likely, there is a list-column named `.pred` that is a tibble with
-#'  multiple rows per sub-model.
+#'  There is a list-column named `.pred` that contains tibbles with
+#'  multiple rows per sub-model. Note that, within the tibbles, the column names
+#'  follow the usual standard based on prediction `type` (i.e. `.pred_class` for
+#'  `type = "class"` and so on).
 #' @export
 multi_predict <- function(object, ...) {
   if (inherits(object$fit, "try-error")) {
diff --git a/R/boost_tree.R b/R/boost_tree.R
@@ -404,7 +404,7 @@ xgb_by_tree <- function(tree, object, new_data, type, ...) {
   } else {
     if (type == "class") {
       pred <- object$spec$method$pred$class$post(pred, object)
-      pred <- tibble(.pred = factor(pred, levels = object$lvl))
+      pred <- tibble(.pred_class = factor(pred, levels = object$lvl))
     } else {
       pred <- object$spec$method$pred$prob$post(pred, object)
       pred <- as_tibble(pred)
@@ -503,7 +503,7 @@ C50_by_tree <- function(tree, object, new_data, type, ...) {
 
   # switch based on prediction type
   if (type == "class") {
-    pred <- tibble(.pred = factor(pred, levels = object$lvl))
+    pred <- tibble(.pred_class = factor(pred, levels = object$lvl))
   } else {
     pred <- as_tibble(pred)
     names(pred) <- paste0(".pred_", names(pred))
diff --git a/R/logistic_reg.R b/R/logistic_reg.R
@@ -309,7 +309,7 @@ multi_predict._lognet <-
     if (is.null(type))
       type <- "class"
     if (!(type %in% c("class", "prob", "link", "raw"))) {
-      stop ("`type` should be either 'class', 'link', 'raw', or 'prob'.", call. = FALSE)
+      stop("`type` should be either 'class', 'link', 'raw', or 'prob'.", call. = FALSE)
     }
     if (type == "prob")
       dots$type <- "response"
@@ -321,12 +321,12 @@ multi_predict._lognet <-
     param_key <- tibble(group = colnames(pred), penalty = penalty)
     pred <- as_tibble(pred)
     pred$.row <- 1:nrow(pred)
-    pred <- gather(pred, group, .pred, -.row)
+    pred <- gather(pred, group, .pred_class, -.row)
     if (dots$type == "class") {
-      pred[[".pred"]] <- factor(pred[[".pred"]], levels = object$lvl)
+      pred[[".pred_class"]] <- factor(pred[[".pred_class"]], levels = object$lvl)
     } else {
       if (dots$type == "response") {
-        pred[[".pred2"]] <- 1 - pred[[".pred"]]
+        pred[[".pred2"]] <- 1 - pred[[".pred_class"]]
         names(pred) <- c(".row", "group", paste0(".pred_", rev(object$lvl)))
         pred <- pred[, c(".row", "group", paste0(".pred_", object$lvl))]
       }
@@ -371,3 +371,4 @@ predict_raw._lognet <- function(object, new_data, opts = list(), ...) {
   object$spec <- eval_args(object$spec)
   predict_raw.model_fit(object, new_data = new_data, opts = opts, ...)
 }
+
diff --git a/R/multinom_reg.R b/R/multinom_reg.R
@@ -290,7 +290,7 @@ multi_predict._multnet <-
       pred <-
         tibble(
           .row = rep(1:nrow(new_data), length(penalty)),
-          .pred = as.vector(pred),
+          .pred_class = as.vector(pred),
           penalty = rep(penalty, each = nrow(new_data))
         )
     }
diff --git a/man/multi_predict.Rd b/man/multi_predict.Rd
diff --git a/tests/testthat/test_logistic_reg_glmnet.R b/tests/testthat/test_logistic_reg_glmnet.R
@@ -119,7 +119,7 @@ test_that('glmnet prediction, mulitiple lambda', {
   mult_pred$rows <- rep(1:7, 2)
   mult_pred <- mult_pred[order(mult_pred$rows, mult_pred$penalty), ]
   mult_pred <- mult_pred[, c("penalty", "values")]
-  names(mult_pred) <- c("penalty", ".pred")
+  names(mult_pred) <- c("penalty", ".pred_class")
   mult_pred <- tibble::as_tibble(mult_pred)
 
   expect_equal(
@@ -148,7 +148,7 @@ test_that('glmnet prediction, mulitiple lambda', {
   form_pred$rows <- rep(1:7, 2)
   form_pred <- form_pred[order(form_pred$rows, form_pred$penalty), ]
   form_pred <- form_pred[, c("penalty", "values")]
-  names(form_pred) <- c("penalty", ".pred")
+  names(form_pred) <- c("penalty", ".pred_class")
   form_pred <- tibble::as_tibble(form_pred)
 
   expect_equal(
@@ -180,7 +180,7 @@ test_that('glmnet prediction, no lambda', {
   mult_pred$rows <- rep(1:7, 2)
   mult_pred <- mult_pred[order(mult_pred$rows, mult_pred$penalty), ]
   mult_pred <- mult_pred[, c("penalty", "values")]
-  names(mult_pred) <- c("penalty", ".pred")
+  names(mult_pred) <- c("penalty", ".pred_class")
   mult_pred <- tibble::as_tibble(mult_pred)
 
   expect_equal(mult_pred, multi_predict(xy_fit, lending_club[1:7, num_pred]) %>% unnest())
@@ -206,7 +206,7 @@ test_that('glmnet prediction, no lambda', {
   form_pred$rows <- rep(1:7, 2)
   form_pred <- form_pred[order(form_pred$rows, form_pred$penalty), ]
   form_pred <- form_pred[, c("penalty", "values")]
-  names(form_pred) <- c("penalty", ".pred")
+  names(form_pred) <- c("penalty", ".pred_class")
   form_pred <- tibble::as_tibble(form_pred)
 
   expect_equal(
diff --git a/tests/testthat/test_multinom_reg_glmnet.R b/tests/testthat/test_multinom_reg_glmnet.R
@@ -123,7 +123,7 @@ test_that('glmnet probabilities, mulitiple lambda', {
 
   mult_class <- names(mult_probs)[apply(mult_probs, 1, which.max)]
   mult_class <- tibble(
-    .pred = mult_class,
+    .pred_class = mult_class,
     penalty = rep(lams, each = 3),
     row = rep(1:3, 2)
   )

Original file line number	Diff line number	Diff line change
`@@ -33,7 +33,7 @@ utils::globalVariables(`
`33`	`33`	`'lab', 'original', 'predicted_label', 'prediction', 'value', 'type',`
`34`	`34`	`"neighbors", ".submodels", "has_submodel", "max_neighbor", "max_penalty",`
`35`	`35`	`"max_terms", "max_tree", "name", "num_terms", "penalty", "trees",`
`36`		`- "sub_neighbors")`
	`36`	`+ "sub_neighbors", ".pred_class")`
`37`	`37`	`)`
`38`	`38`
`39`	`39`	`# nocov end`
Original file line number	Diff line number	Diff line change
`@@ -290,7 +290,7 @@ multi_predict._multnet <-`
`290`	`290`	`pred <-`
`291`	`291`	`tibble(`
`292`	`292`	`.row = rep(1:nrow(new_data), length(penalty)),`
`293`		`- .pred = as.vector(pred),`
	`293`	`+ .pred_class = as.vector(pred),`
`294`	`294`	`penalty = rep(penalty, each = nrow(new_data))`
`295`	`295`	`)`
`296`	`296`	`}`
Original file line number	Diff line number	Diff line change
`@@ -123,7 +123,7 @@ test_that('glmnet probabilities, mulitiple lambda', {`
`123`	`123`
`124`	`124`	`mult_class <- names(mult_probs)[apply(mult_probs, 1, which.max)]`
`125`	`125`	`mult_class <- tibble(`
`126`		`- .pred = mult_class,`
	`126`	`+ .pred_class = mult_class,`
`127`	`127`	`penalty = rep(lams, each = 3),`
`128`	`128`	`row = rep(1:3, 2)`
`129`	`129`	`)`