cmp-nct
diff --git a/‎examples/falcon/falcon_main.cpp
Lines changed: 7 additions & 17 deletions b/‎examples/falcon/falcon_main.cpp
Lines changed: 7 additions & 17 deletions
diff --git a/‎examples/falcon_common.cpp
Lines changed: 25 additions & 5 deletions b/‎examples/falcon_common.cpp
Lines changed: 25 additions & 5 deletions
diff --git a/‎examples/falcon_common.h
Lines changed: 2 additions & 2 deletions b/‎examples/falcon_common.h
Lines changed: 2 additions & 2 deletions
@@ -319,14 +319,14 @@ fprintf(stderr, "| %10s | %5s | %4s | %4s | %4s | %4s | %4s | %4s | %4s | %4s |
 fprintf(stderr, "+------------+-------+-------+-------+-------+-------+-------+-------+-------+------+------+--------+---------+\n");
 fprintf(stderr, "|            | %5d | %.3f | %.3f | %.3f | %5d | %.3f | %.3f | %.3f | %.2f | %4d | %.4f | %.5f |\n", 
                 params.repeat_last_n, params.repeat_penalty, params.presence_penalty, params.frequency_penalty, params.top_k, params.tfs_z, params.top_p, params.typical_p, params.temp, params.mirostat, params.mirostat_eta, params.mirostat_tau);
-fprintf(stderr, "+============+=======+=======+=======+=======+=======+=======+====---+-------+------+------+--------+---------+\n");
-  
-fprintf(stderr, "| %10s | %7s | %8s | %6s | %6s | %10s |\n", 
-                "Generation", "n_ctx", "n_batch", "n_keep","prompt","seed");
-fprintf(stderr, "+------------+---------+----------+--------+--------+------------+\n");
-fprintf(stderr, "|            | %7d | %8d | %6d | %6zu | %10d |\n",
+fprintf(stderr, "+============+=======+=======+=======+=======+=======+=======+-------+-------+------+------+--------+---------+\n");
+
+fprintf(stderr, "| %10s | %5s | %5s | %5s | %5s | %13s |\n", 
+                "Generation", "Ctx", "Batch", "Keep","Prmpt","Seed");
+fprintf(stderr, "+------------+-------+-------+-------+-------+---------------+\n");  
+fprintf(stderr, "|            | %5d | %5d | %5d | %5zu | %13d |\n",
                 n_ctx, params.n_batch, params.n_keep, embd_inp.size(),params.seed);
-fprintf(stderr, "+------------+---------+----------+--------+--------+------------+\n");
+fprintf(stderr, "+------------+-------+-------+-------+-------+---------------+\n");  
 
     if (n_ctx < (int)(params.n_predict + embd_inp.size())) {
         fprintf(stderr, "%s: Warning: context is smaller than expected generation, will cause delays\n", __func__);
@@ -439,11 +439,6 @@ fprintf(stderr, "+------------+---------+----------+--------+--------+----------
                     embd.erase(embd.begin(), embd.begin() + i);
                 }
             }
-            // We have buffers from the warmup run that won't all align with a batched run 
-#if defined(GGML_USE_CUBLAS)
-            if (params.n_batch > 1 && embd.size() > 1)
-                ggml_cuda_pool_free_all(-1);
-#endif
             // evaluate tokens in batches
             // embd is typically prepared beforehand to fit within a batch, but not always
             for (int i = 0; i < (int) embd.size(); i += params.n_batch) {
@@ -459,11 +454,6 @@ fprintf(stderr, "+------------+---------+----------+--------+--------+----------
                 }
                 n_past += n_eval;
             }
-#if defined(GGML_USE_CUBLAS)
-            // frees unused allocations, those during batch processing are of different size than single token eval
-            if (params.n_batch > 1 && embd.size() > 1)
-                ggml_cuda_pool_free_all(-1);
-#endif
             if (embd.size() > 0 && !path_session.empty()) {
                 session_tokens.insert(session_tokens.end(), embd.begin(), embd.end());
                 n_session_consumed = session_tokens.size();
 
@@ -58,7 +58,22 @@ int32_t get_num_physical_cores() {
         return num_physical_cores;
     }
 #elif defined(_WIN32)
-    //TODO: Implement
+    int logical_cores;
+    SYSTEM_INFO sysinfo;
+    GetSystemInfo(&sysinfo);
+    logical_cores = sysinfo.dwNumberOfProcessors;
+
+    DWORD_PTR process_affinity_mask;
+    DWORD_PTR system_affinity_mask;
+    GetProcessAffinityMask(GetCurrentProcess(), &process_affinity_mask, &system_affinity_mask);
+
+    int physical_cores = 0;
+    for (int i = 0; i < sizeof(DWORD_PTR) * 8; i++) {
+        if (process_affinity_mask & ((DWORD_PTR)1 << i)) {
+            physical_cores++;
+        }
+    }
+    return physical_cores;
 #endif
     unsigned int n_threads = std::thread::hardware_concurrency();
     return n_threads > 0 ? (n_threads <= 4 ? n_threads : n_threads / 2) : 4;
@@ -98,6 +113,11 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
     #if defined(GGML_USE_CUBLAS)
         ggml_cuda_set_max_gpus(LLAMA_MAX_DEVICES); // default
     #endif
+    params.n_threads = get_num_physical_cores();
+    // until thread scheduling is improved, these numbers are around the optimal (for huge batch processing increase -t manually)
+    if (params.n_threads > 8) params.n_threads = 4;
+    if (params.n_threads > 4) params.n_threads = 2;
+    
 
     for (int i = 1; i < argc; i++) {
         arg = argv[i];
@@ -245,7 +265,7 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
                 break;
             }
             params.n_batch = std::stoi(argv[i]);
-            params.n_batch = std::min(512, params.n_batch);
+            params.n_batch = std::min(1024+128, params.n_batch); // appears to work fine with scratch buffer, keep in eye
         } else if (arg == "--keep") {
             if (++i >= argc) {
                 invalid_param = true;
@@ -331,7 +351,7 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
             }
             #ifdef GGML_USE_CUBLAS
             params.mb_reserve_gpu_main = std::stoi(argv[i]);
-            ggml_cuda_set_vram_reserved((size_t)params.mb_reserve_gpu_main * 1024*1024);
+            ggml_cuda_set_vram_reserved(params.mb_reserve_gpu_main * 1024*1024);
             #else
             fprintf(stderr, "warning: falcon.cpp was compiled without cuBLAS. VRAM not available.\n");
             #endif
@@ -383,7 +403,7 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
             params.mem_test = true;
         } else if (arg == "--export") {
             params.export_cgraph = true;
-        } else if (arg == "--debug-timings" || arg == "-dt") {
+        } else if (arg == "--debug-timings" || arg == "--display-timings" || arg == "-dt") {
             if (++i >= argc) {
                 params.debug_timings = 1;
             } else
@@ -547,7 +567,7 @@ void gpt_print_usage(int /*argc*/, char ** argv, const gpt_params & params) {
     fprintf(stderr, "  -mg i, --main-gpu i   the GPU to use for scratch and small tensors (0 = first)\n" );
     fprintf(stderr, "  --override-max-gpu N\n");
     fprintf(stderr, "                        limits the number of GPUs visible (allows to disable multi/single GPU processing)\n");
-    fprintf(stderr, "  --gpu-reserve-mb-main override reserved VRAM MB for main GPU (defaults to first GPU)\n");
+    fprintf(stderr, "  --gpu-reserve-mb-main override reserved total VRAM MB (can be negative if your driver supports swapping into RAM) \n");
     //fprintf(stderr, "  --gpu_reserve_mb_other override reserved VRAM MB for other GPUs (for multi GPU systems)\n");
 #endif
     fprintf(stderr, "  --mtest               compute maximum memory usage\n");
 
@@ -23,15 +23,15 @@ int32_t get_num_physical_cores();
 
 struct gpt_params {
     int32_t seed                           = -1;   // RNG seed
-    int32_t n_threads                      = get_num_physical_cores();
+    int32_t n_threads                      = 1;
     int32_t n_predict                      = -1;   // new tokens to predict
     int32_t n_ctx                          = 512;  // context size
     int32_t n_batch                        = 1;  // batch size for prompt processing (must be >=32 to use BLAS)
     int32_t n_keep                         = 0;    // number of tokens to keep from initial prompt
     int32_t n_gpu_layers                   = 200;  // number of layers to store in VRAM
     int32_t main_gpu                       = 0;    // the GPU that is used for scratch and small tensors
     float   tensor_split[LLAMA_MAX_DEVICES] = {0}; // how split tensors should be distributed across GPUs
-    int32_t n_max_gpu                      = 16;    // maximum number of GPUs to use
+    int n_max_gpu                      = 16;    // maximum number of GPUs to use
     int32_t mb_reserve_gpu_main            = false; // override reserved megabytes of VRAM for the main GPU
     // int     mb_reserve_gpu_other           = false; // override reserved megabytes of VRAM for secondary GPUs