move reset_index

aram-cedarwood · aram-cedarwood · commit d2842b555574 · 2024-08-13T02:38:01.000+02:00
diff --git a/pandas/core/resample.py b/pandas/core/resample.py
@@ -1597,6 +1597,9 @@ def _gotitem(self, key, ndim, subset=None):
             if isinstance(key, list) and self.key not in key and self.key is not None:
                 key.append(self.key)
             groupby = self._groupby[key]
+            # GH 59350: Index is ignored when using the on keyword argument to resample
+            if self.key is not None:
+                groupby.obj = groupby.obj.reset_index(drop=True)
         except IndexError:
             groupby = self._groupby
 
@@ -1927,9 +1930,6 @@ def get_resampler_for_grouping(
     """
     # .resample uses 'on' similar to how .groupby uses 'key'
     tg = TimeGrouper(freq=rule, key=on, **kwargs)
-    # GH 59350: Index should be ignored when using the on keyword argument to resample
-    if on is not None:
-        groupby.obj = groupby.obj.reset_index(drop=True)
     resampler = tg._get_resampler(groupby.obj)
     return resampler._get_resampler_for_grouping(
         groupby=groupby, include_groups=include_groups, key=tg.key
diff --git a/pandas/tests/resample/test_resampler_grouper.py b/pandas/tests/resample/test_resampler_grouper.py
@@ -691,6 +691,38 @@ def test_groupby_resample_on_index_with_list_of_keys_missing_column():
         rs[["val_not_in_dataframe"]]
 
 
+def test_groupby_resample_after_set_index_and_not_on_column():
+    # GH 59350
+    df = DataFrame(
+        data={
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:00Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+            "group": ["A", "A"],
+            "numbers": [100, 200],
+        },
+        index=[1, 0],
+    ).set_index("datetime")
+    gb = df.groupby("group")
+    rs = gb.resample("1min")
+    result = rs.aggregate({"numbers": "sum"})
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    expected = DataFrame({"numbers": [100, 200]}, index=index)
+
+    tm.assert_frame_equal(result, expected)
+
+
 @pytest.mark.parametrize(
     "df",
     [
@@ -746,3 +778,96 @@ def test_groupby_resample_on_column_when_index_is_unusual(df):
     expected = DataFrame({"numbers": [100, 200]}, index=index)
 
     tm.assert_frame_equal(result, expected)
+
+
+def test_groupby_resample_then_groupby_is_reused_when_index_is_out_of_order():
+    df = DataFrame(
+        data={
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:00Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+            "group": ["A", "A"],
+            "numbers": [100, 200],
+        },
+        index=[1, 0],
+    )
+
+    gb = df.groupby("group")
+
+    # use gb
+    result_1 = gb[["numbers"]].transform("sum")
+
+    index = Index([1, 0])
+    expected = DataFrame({"numbers": [300, 300]}, index=index)
+
+    tm.assert_frame_equal(result_1, expected)
+
+    # resample gb, unrelated to above
+    rs = gb.resample("1min", on="datetime")
+    result_2 = rs.aggregate({"numbers": "sum"})
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    expected = DataFrame({"numbers": [100, 200]}, index=index)
+
+    tm.assert_frame_equal(result_2, expected)
+
+    # reuse gb, unrelated to above
+    result_3 = gb[["numbers"]].transform("sum")
+
+    tm.assert_frame_equal(result_1, result_3)
+
+
+def test_groupby_resample_then_groupby_is_reused_when_index_is_set_from_column():
+    df = DataFrame(
+        data={
+            "datetime": [
+                pd.to_datetime("2024-07-30T00:00Z"),
+                pd.to_datetime("2024-07-30T00:01Z"),
+            ],
+            "group": ["A", "A"],
+            "numbers": [100, 200],
+        },
+    ).set_index("group")
+
+    gb = df.groupby("group")
+
+    # use gb
+    result_1 = gb[["numbers"]].transform("sum")
+
+    index = Index(["A", "A"], name="group")
+    expected = DataFrame({"numbers": [300, 300]}, index=index)
+
+    tm.assert_frame_equal(result_1, expected)
+
+    # resample gb, unrelated to above
+    rs = gb.resample("1min", on="datetime")
+    result_2 = rs.aggregate({"numbers": "sum"})
+
+    index = pd.MultiIndex.from_arrays(
+        [
+            ["A", "A"],
+            [pd.to_datetime("2024-07-30T00:00Z"), pd.to_datetime("2024-07-30T00:01Z")],
+        ],
+        names=[
+            "group",
+            "datetime",
+        ],
+    )
+    expected = DataFrame({"numbers": [100, 200]}, index=index)
+
+    tm.assert_frame_equal(result_2, expected)
+
+    # reuse gb, unrelated to above
+    result_3 = gb[["numbers"]].transform("sum")
+
+    tm.assert_frame_equal(result_1, result_3)