log : update defaults

ggerganov · ggerganov · commit 1c2f59589c06 · 2024-09-12T19:23:56.000+03:00
ggml-ci
diff --git a/.github/workflows/build.yml b/.github/workflows/build.yml
@@ -23,6 +23,8 @@ env:
   BRANCH_NAME: ${{ github.head_ref || github.ref_name }}
   GGML_NLOOP: 3
   GGML_N_THREADS: 1
+  LLAMA_LOG_COLORS: 1
+  LLAMA_LOG_TIMESTAMPS: 1
 
 jobs:
   macOS-latest-cmake-arm64:
diff --git a/.github/workflows/server.yml b/.github/workflows/server.yml
@@ -20,6 +20,11 @@ on:
     types: [opened, synchronize, reopened]
     paths: ['.github/workflows/server.yml', '**/CMakeLists.txt', '**/Makefile', '**/*.h', '**/*.hpp', '**/*.c', '**/*.cpp', '**/*.cu', '**/*.swift', '**/*.m', 'examples/server/**.*']
 
+env:
+  LLAMA_LOG_COLORS: 1
+  LLAMA_LOG_TIMESTAMPS: 1
+  LLAMA_LOG_VERBOSITY: 10
+
 concurrency:
   group: ${{ github.workflow }}-${{ github.ref }}-${{ github.head_ref || github.run_id }}
   cancel-in-progress: true
@@ -116,14 +121,14 @@ jobs:
         id: server_integration_tests
         run: |
           cd examples/server/tests
-          LLAMA_LOG=10 PORT=8888 ./tests.sh
+          PORT=8888 ./tests.sh
 
       - name: Slow tests
         id: server_integration_tests_slow
         if: ${{ (github.event.schedule || github.event.inputs.slow_tests == 'true') && matrix.build_type == 'Release' }}
         run: |
           cd examples/server/tests
-          LLAMA_LOG=10 PORT=8888 ./tests.sh --stop --no-skipped --no-capture --tags slow
+          PORT=8888 ./tests.sh --stop --no-skipped --no-capture --tags slow
 
 
   server-windows:
diff --git a/ci/run.sh b/ci/run.sh
@@ -737,6 +737,8 @@ function gg_sum_embd_bge_small {
 
 ## main
 
+export LLAMA_LOG_TIMESTAMPS=1
+
 if [ -z ${GG_BUILD_LOW_PERF} ]; then
     # Create symlink: ./llama.cpp/models-mnt -> $MNT/models/models-mnt
     rm -rf ${SRC}/models-mnt
diff --git a/common/arg.cpp b/common/arg.cpp
@@ -1951,6 +1951,34 @@ gpt_params_context gpt_params_parser_init(gpt_params & params, llama_example ex,
             gpt_log_set_file(gpt_log_main(), value.c_str());
         }
     ));
+    add_opt(llama_arg(
+        {"--log-colors"},
+        "Enable colored logging",
+        [](gpt_params &) {
+            gpt_log_set_colors(gpt_log_main(), true);
+        }
+    ).set_env("LLAMA_LOG_COLORS"));
+    add_opt(llama_arg(
+        {"-lv", "--log-verbose"},
+        "Set verbosity level to infinity (i.e. log all messages, useful for debugging)",
+        [](gpt_params &) {
+            gpt_log_set_verbosity_thold(INT_MAX);
+        }
+    ));
+    add_opt(llama_arg(
+        {"--log-verbosity"}, "THOLD",
+        "Set the verbosity threshold. Messages with a lower verbosity will be ignored.",
+        [](gpt_params &, int value) {
+            gpt_log_set_verbosity_thold(value);
+        }
+    ).set_env("LLAMA_LOG_VERBOSITY"));
+    add_opt(llama_arg(
+        {"--log-timestamps"},
+        "Enable timestamps in log messages",
+        [](gpt_params &) {
+            gpt_log_set_timestamps(gpt_log_main(), true);
+        }
+    ).set_env("LLAMA_LOG_TIMESTAMPS"));
 
     return ctx_arg;
 }
diff --git a/common/common.cpp b/common/common.cpp
@@ -364,7 +364,7 @@ bool parse_cpu_mask(const std::string & mask, bool (&boolmask)[GGML_MAX_N_THREAD
 
 void gpt_init() {
     llama_log_set([](ggml_log_level level, const char * text, void * /*user_data*/) {
-        if (LOG_DEFAULT_LLAMA <= gpt_log_verbosity_env) {
+        if (LOG_DEFAULT_LLAMA <= gpt_log_verbosity_thold) {
             gpt_log_add(gpt_log_main(), level, "%s", text);
         }
     }, NULL);
diff --git a/common/log.cpp b/common/log.cpp
@@ -8,11 +8,12 @@
 #include <thread>
 #include <vector>
 
-int gpt_log_verbosity_env = getenv("LLAMA_LOG") ? atoi(getenv("LLAMA_LOG")) : LOG_DEFAULT_LLAMA;
+int gpt_log_verbosity_thold = LOG_DEFAULT_LLAMA;
 
-#define LOG_COLORS // TMP
+void gpt_log_set_verbosity_thold(int verbosity) {
+    gpt_log_verbosity_thold = verbosity;
+}
 
-#ifdef LOG_COLORS
 #define LOG_COL_DEFAULT "\033[0m"
 #define LOG_COL_BOLD    "\033[1m"
 #define LOG_COL_RED     "\033[31m"
@@ -22,22 +23,37 @@ int gpt_log_verbosity_env = getenv("LLAMA_LOG") ? atoi(getenv("LLAMA_LOG")) : LO
 #define LOG_COL_MAGENTA "\033[35m"
 #define LOG_COL_CYAN    "\033[36m"
 #define LOG_COL_WHITE   "\033[37m"
-#else
-#define LOG_COL_DEFAULT ""
-#define LOG_COL_BOLD    ""
-#define LOG_COL_RED     ""
-#define LOG_COL_GREEN   ""
-#define LOG_COL_YELLOW  ""
-#define LOG_COL_BLUE    ""
-#define LOG_COL_MAGENTA ""
-#define LOG_COL_CYAN    ""
-#define LOG_COL_WHITE   ""
-#endif
 
 static int64_t t_us() {
     return std::chrono::duration_cast<std::chrono::microseconds>(std::chrono::system_clock::now().time_since_epoch()).count();
 }
 
+// colors
+enum gpt_log_col : int {
+    GPT_LOG_COL_DEFAULT = 0,
+    GPT_LOG_COL_BOLD,
+    GPT_LOG_COL_RED,
+    GPT_LOG_COL_GREEN,
+    GPT_LOG_COL_YELLOW,
+    GPT_LOG_COL_BLUE,
+    GPT_LOG_COL_MAGENTA,
+    GPT_LOG_COL_CYAN,
+    GPT_LOG_COL_WHITE,
+};
+
+// disable colors by default
+static std::vector<const char *> g_col = {
+    "",
+    "",
+    "",
+    "",
+    "",
+    "",
+    "",
+    "",
+    "",
+};
+
 struct gpt_log_entry {
     enum ggml_log_level level;
 
@@ -53,7 +69,7 @@ struct gpt_log_entry {
         if (!fcur) {
             // stderr displays DBG messages only when the verbosity is high
             // these messages can still be logged to a file
-            if (level == GGML_LOG_LEVEL_DEBUG && gpt_log_verbosity_env < LOG_DEFAULT_DEBUG) {
+            if (level == GGML_LOG_LEVEL_DEBUG && gpt_log_verbosity_thold < LOG_DEFAULT_DEBUG) {
                 return;
             }
 
@@ -67,18 +83,20 @@ struct gpt_log_entry {
         if (level != GGML_LOG_LEVEL_NONE) {
             if (timestamp) {
                 // [M.s.ms.us]
-                fprintf(fcur, "" LOG_COL_BLUE "%d.%02d.%03d.%03d" LOG_COL_DEFAULT " ",
+                fprintf(fcur, "%s%d.%02d.%03d.%03d%s ",
+                        g_col[GPT_LOG_COL_BLUE],
                         (int) (timestamp / 1000000 / 60),
                         (int) (timestamp / 1000000 % 60),
                         (int) (timestamp / 1000 % 1000),
-                        (int) (timestamp % 1000));
+                        (int) (timestamp % 1000),
+                        g_col[GPT_LOG_COL_DEFAULT]);
             }
 
             switch (level) {
-                case GGML_LOG_LEVEL_INFO:  fprintf(fcur, LOG_COL_GREEN   "I " LOG_COL_DEFAULT); break;
-                case GGML_LOG_LEVEL_WARN:  fprintf(fcur, LOG_COL_MAGENTA "W "                ); break;
-                case GGML_LOG_LEVEL_ERROR: fprintf(fcur, LOG_COL_RED     "E "                ); break;
-                case GGML_LOG_LEVEL_DEBUG: fprintf(fcur, LOG_COL_YELLOW  "D "                ); break;
+                case GGML_LOG_LEVEL_INFO:  fprintf(fcur, "%sI %s", g_col[GPT_LOG_COL_GREEN],   g_col[GPT_LOG_COL_DEFAULT]); break;
+                case GGML_LOG_LEVEL_WARN:  fprintf(fcur, "%sW %s", g_col[GPT_LOG_COL_MAGENTA], ""                        ); break;
+                case GGML_LOG_LEVEL_ERROR: fprintf(fcur, "%sE %s", g_col[GPT_LOG_COL_RED],     ""                        ); break;
+                case GGML_LOG_LEVEL_DEBUG: fprintf(fcur, "%sD %s", g_col[GPT_LOG_COL_YELLOW],  ""                        ); break;
                 default:
                     break;
             }
@@ -87,7 +105,7 @@ struct gpt_log_entry {
         fprintf(fcur, "%s", msg.data());
 
         if (level == GGML_LOG_LEVEL_WARN || level == GGML_LOG_LEVEL_ERROR || level == GGML_LOG_LEVEL_DEBUG) {
-            fprintf(fcur, "%s", LOG_COL_DEFAULT);
+            fprintf(fcur, "%s", g_col[GPT_LOG_COL_DEFAULT]);
         }
 
         fflush(fcur);
@@ -97,7 +115,7 @@ struct gpt_log_entry {
 struct gpt_log {
     gpt_log(size_t capacity) {
         file = nullptr;
-        timestamps = true;
+        timestamps = false;
         running = false;
         t_start = t_us();
         entries.resize(capacity);
@@ -284,6 +302,28 @@ struct gpt_log {
         resume();
     }
 
+    void set_colors(bool colors) {
+        pause();
+
+        if (colors) {
+            g_col[GPT_LOG_COL_DEFAULT] = LOG_COL_DEFAULT;
+            g_col[GPT_LOG_COL_BOLD]    = LOG_COL_BOLD;
+            g_col[GPT_LOG_COL_RED]     = LOG_COL_RED;
+            g_col[GPT_LOG_COL_GREEN]   = LOG_COL_GREEN;
+            g_col[GPT_LOG_COL_YELLOW]  = LOG_COL_YELLOW;
+            g_col[GPT_LOG_COL_BLUE]    = LOG_COL_BLUE;
+            g_col[GPT_LOG_COL_MAGENTA] = LOG_COL_MAGENTA;
+            g_col[GPT_LOG_COL_CYAN]    = LOG_COL_CYAN;
+            g_col[GPT_LOG_COL_WHITE]   = LOG_COL_WHITE;
+        } else {
+            for (size_t i = 0; i < g_col.size(); i++) {
+                g_col[i] = "";
+            }
+        }
+
+        resume();
+    }
+
     void set_timestamps(bool timestamps) {
         std::lock_guard<std::mutex> lock(mtx);
 
@@ -324,6 +364,10 @@ void gpt_log_set_file(struct gpt_log * log, const char * file) {
     log->set_file(file);
 }
 
+void gpt_log_set_colors(struct gpt_log * log, bool colors) {
+    log->set_colors(colors);
+}
+
 void gpt_log_set_timestamps(struct gpt_log * log, bool timestamps) {
     log->set_timestamps(timestamps);
 }
diff --git a/common/log.h b/common/log.h
@@ -13,8 +13,11 @@
 #define LOG_DEFAULT_DEBUG 10
 #define LOG_DEFAULT_LLAMA 5
 
-// intialized in log.cpp from environment variable LLAMA_LOG
-extern int gpt_log_verbosity_env;
+// needed by the LOG_TMPL macro to avoid computing log arguments if the verbosity lower
+// set via gpt_log_set_verbosity()
+extern int gpt_log_verbosity_thold;
+
+void gpt_log_set_verbosity_thold(int verbosity); // not thread-safe
 
 struct gpt_log;
 
@@ -27,12 +30,13 @@ void             gpt_log_free  (struct gpt_log * log);
 LOG_ATTRIBUTE_FORMAT(3, 4)
 void gpt_log_add(struct gpt_log * log, enum ggml_log_level level, const char * fmt, ...);
 
-void gpt_log_set_file      (struct gpt_log * log, const char * file); // not thread-safe
-void gpt_log_set_timestamps(struct gpt_log * log, bool timestamps);
+void gpt_log_set_file      (struct gpt_log * log, const char * file);       // not thread-safe
+void gpt_log_set_colors    (struct gpt_log * log,       bool   colors);     // not thread-safe
+void gpt_log_set_timestamps(struct gpt_log * log,       bool   timestamps);
 
 #define LOG_TMPL(level, verbosity, ...) \
     do { \
-        if ((verbosity) <= gpt_log_verbosity_env) { \
+        if ((verbosity) <= gpt_log_verbosity_thold) { \
             gpt_log_add(gpt_log_main(), (level), __VA_ARGS__); \
         } \
     } while (0)
diff --git a/examples/main/main.cpp b/examples/main/main.cpp
@@ -133,12 +133,6 @@ static std::string chat_add_and_format(struct llama_model * model, std::vector<l
 int main(int argc, char ** argv) {
     gpt_init();
 
-    llama_log_set([](ggml_log_level level, const char * text, void * /*user_data*/) {
-        if (LOG_DEFAULT_LLAMA <= gpt_log_verbosity_env) {
-            gpt_log_add(gpt_log_main(), level, "%s", text);
-        }
-    }, NULL);
-
     gpt_params params;
     g_params = &params;
     if (!gpt_params_parse(argc, argv, params, LLAMA_EXAMPLE_MAIN, print_usage)) {
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -1905,7 +1905,7 @@ struct server_context {
 
                     // we haven't tokenized the prompt yet - do it now:
                     if (prompt_tokens.empty()) {
-                        SRV_DBG("tokenizing prompt, id_slot = %d, id_task = %d\n", slot.id, slot.id_task);
+                        SRV_INF("tokenizing prompt, id_slot = %d, id_task = %d\n", slot.id, slot.id_task);
 
                         slot.t_start_process_prompt = ggml_time_us();
                         slot.t_start_generation = 0;
@@ -1949,7 +1949,7 @@ struct server_context {
                         slot.n_past = 0;
                         slot.n_prompt_tokens = prompt_tokens.size();
 
-                        SRV_INF("prompt tokenized, id_slot = %d, id_task = %d, n_ctx = %d, n_keep = %d, n_prompt_tokens = %d\n", slot.id, slot.id_task, slot.n_ctx, slot.params.n_keep, slot.n_prompt_tokens);
+                        SRV_INF("prompt tokenized, id_slot = %d, id_task = %d, n_ctx_slot = %d, n_keep = %d, n_prompt_tokens = %d\n", slot.id, slot.id_task, slot.n_ctx, slot.params.n_keep, slot.n_prompt_tokens);
 
                         // empty prompt passed -> release the slot and send empty response
                         if (prompt_tokens.empty()) {
@@ -2105,7 +2105,7 @@ struct server_context {
                     //    {"n_tokens", batch.n_tokens},
                     //    {"progress", (float) slot.n_prompt_tokens_processed / slot.n_prompt_tokens},
                     //});
-                    SRV_DBG("prompt processing progress, id_slot = %d, n_past = %d, n_ctx = %d, n_tokens = %d, progress = %f\n", slot.id, slot.n_past, n_ctx, batch.n_tokens, (float) slot.n_prompt_tokens_processed / slot.n_prompt_tokens);
+                    SRV_INF("prompt processing progress, id_slot = %d, n_past = %d, n_tokens = %d, progress = %f\n", slot.id, slot.n_past, batch.n_tokens, (float) slot.n_prompt_tokens_processed / slot.n_prompt_tokens);
 
                     // entire prompt has been processed
                     if (slot.n_past == slot.n_prompt_tokens) {
@@ -2125,7 +2125,7 @@ struct server_context {
                         //    {"n_ctx",    n_ctx},
                         //    {"n_tokens", batch.n_tokens},
                         //});
-                        SRV_DBG("prompt done, id_slot = %d, n_past = %d, n_ctx = %d, n_tokens = %d\n", slot.id, slot.n_past, n_ctx, batch.n_tokens);
+                        SRV_INF("prompt done, id_slot = %d, n_past = %d, n_tokens = %d\n", slot.id, slot.n_past, batch.n_tokens);
                     }
                 }
 

Original file line number	Diff line number	Diff line change
`@@ -364,7 +364,7 @@ bool parse_cpu_mask(const std::string & mask, bool (&boolmask)[GGML_MAX_N_THREAD`
`364`	`364`
`365`	`365`	`void gpt_init() {`
`366`	`366`	`llama_log_set([](ggml_log_level level, const char * text, void * /user_data/) {`
`367`		`- if (LOG_DEFAULT_LLAMA <= gpt_log_verbosity_env) {`
	`367`	`+ if (LOG_DEFAULT_LLAMA <= gpt_log_verbosity_thold) {`
`368`	`368`	`gpt_log_add(gpt_log_main(), level, "%s", text);`
`369`	`369`	`}`
`370`	`370`	`}, NULL);`