more performance info

JohannesGaessler · JohannesGaessler · commit 0f86ae94c823 · 2023-08-19T16:27:43.000+02:00
diff --git a/llama.cpp b/llama.cpp
@@ -4410,19 +4410,31 @@ void llama_dump_result_info_yaml(FILE * stream, const llama_context * ctx, const
     fprintf(stream, "ftype: %u\n", ctx->model.hparams.ftype);
     fprintf(stream, "ftype_str: %s\n", llama_ftype_name(ctx->model.hparams.ftype));
     fprintf(stream, "model_type: %s\n", llama_model_type_name(ctx->model.type));
-    fprintf(stream, "n_eval: %d\n", ctx->n_eval);
-    fprintf(stream, "n_vocab: %d\n", ctx->model.hparams.n_vocab);
-    fprintf(stream, "n_p_eval: %d\n", ctx->n_p_eval);
-    fprintf(stream, "n_sample: %d\n", ctx->n_sample);
+    fprintf(stream, "mst_eval: %.2f  # ms / token during generation\n",
+            1.0e-3 * ctx->t_eval_us / ctx->n_eval);
+    fprintf(stream, "mst_p_eval: %.2f  # ms / token during prompt processing\n",
+            1.0e-3 * ctx->t_p_eval_us / ctx->n_p_eval);
+    fprintf(stream, "mst_sample: %.2f  # ms / token during sampling\n",
+            1.0e-3 * ctx->t_sample_us / ctx->n_sample);
+    fprintf(stream, "n_eval: %d  # number of tokens generated (excluding the first one)\n", ctx->n_eval);
+    fprintf(stream, "n_vocab: %d  # output size of the final layer, 32001 for some models\n", ctx->model.hparams.n_vocab);
+    fprintf(stream, "n_p_eval: %d  # number of tokens processed in batches at the beginning\n", ctx->n_p_eval);
+    fprintf(stream, "n_sample: %d  # number of sampled tokens\n", ctx->n_sample);
     dump_string_yaml_multiline(stream, "output", output_str, false);
 
     const std::vector<int> output_token_vector(output_tokens, output_tokens + n_output_tokens);
     dump_vector_int_yaml(stream, "output_tokens", output_token_vector);
 
-    fprintf(stream, "t_eval_us: %ld\n", ctx->t_eval_us);
-    fprintf(stream, "t_load_us: %ld\n", ctx->t_load_us);
-    fprintf(stream, "t_p_eval_us: %ld\n", ctx->t_p_eval_us);
-    fprintf(stream, "t_sample_us: %ld\n", ctx->t_sample_us);
+    fprintf(stream, "t_eval_us: %ld  # total microseconds spent generating tokens\n", ctx->t_eval_us);
+    fprintf(stream, "t_load_us: %ld  # total microseconds spent loading the model\n", ctx->t_load_us);
+    fprintf(stream, "t_p_eval_us: %ld  # total microseconds spent prompt processing\n", ctx->t_p_eval_us);
+    fprintf(stream, "t_sample_us: %ld  # total microseconds spent sampling\n", ctx->t_sample_us);
+    fprintf(stream, "ts_eval: %.2f  # tokens / second during generation\n",
+            1.0e6 * ctx->n_eval / ctx->t_eval_us);
+    fprintf(stream, "ts_p_eval: %.2f  # tokens / second during prompt processing\n",
+            1.0e6 * ctx->n_p_eval / ctx->t_p_eval_us);
+    fprintf(stream, "ts_sample: %.2f  # tokens / second during sampling\n",
+            1.0e6 * ctx->n_sample / ctx->t_sample_us);
 }
 
 // For internal test use