AOAI results nits: fix order and _result column (#40897)

MilesHolland · web-flow · commit b661c886e046 · 2025-05-06T12:17:18.000-04:00
* fix order and _result column

* more nits
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_aoai/text_similarity_grader.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_aoai/text_similarity_grader.py
@@ -68,7 +68,6 @@ def __init__(
             "rouge_3",
             "rouge_4",
             "rouge_5",
-            "rouge_l",
             "cosine",
         ],
         input: str,
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_evaluate_aoai.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_evaluate/_evaluate_aoai.py
@@ -208,7 +208,7 @@ def _get_single_run_results(
     if run_results.status != "completed":
         raise EvaluationException(
             message=f"AOAI evaluation run {run_info['eval_group_id']}/{run_info['eval_run_id']}"
-             + " failed with status {run_results.status}.",
+             + f" failed with status {run_results.status}.",
             blame=ErrorBlame.UNKNOWN,
             category=ErrorCategory.FAILED_EXECUTION,
             target=ErrorTarget.AOAI_GRADER,
@@ -240,8 +240,12 @@ def _get_single_run_results(
         eval_id=run_info["eval_group_id"],
         run_id=run_info["eval_run_id"]
     )
-    listed_results = {}
+    listed_results = {"index": []}
+    # raw data has no order guarantees, we need to sort them by their
+    # datasource_item_id
     for row_result in raw_list_results.data:
+        # Add the datasource_item_id for later sorting
+        listed_results["index"].append(row_result.datasource_item_id)
         for single_grader_row_result in row_result.results:
             grader_name = run_info["grader_name_map"][single_grader_row_result["name"]]
             for name, value in single_grader_row_result.items():
@@ -251,14 +255,19 @@ def _get_single_run_results(
                     # create a `_result` column for each grader
                     result_column_name = f"outputs.{grader_name}.{grader_name}_result"
                     if len(result_column_name) < 50: #TODO: is this the limit? Should we keep "passed"?
-                        listed_results[result_column_name] = EVALUATION_PASS_FAIL_MAPPING[value]
+                        if (result_column_name not in listed_results):
+                            listed_results[result_column_name] = []
+                        listed_results[result_column_name].append(EVALUATION_PASS_FAIL_MAPPING[value])
 
                 formatted_column_name = f"outputs.{grader_name}.{name}"
                 if (formatted_column_name not in listed_results):
                     listed_results[formatted_column_name] = []
-                listed_results[f"outputs.{grader_name}.{name}"].append(value)
+                listed_results[formatted_column_name].append(value)
     output_df = pd.DataFrame(listed_results)
-
+    # sort by index
+    output_df = output_df.sort_values('index', ascending=[True])
+    # remove index column
+    output_df.drop(columns=["index"], inplace=True)
     return output_df, run_metrics