Fixed mmap prefetch for GPU offloading

JohannesGaessler · JohannesGaessler · commit d9024df759b2 · 2023-08-06T20:28:16.000+02:00
diff --git a/llama-util.h b/llama-util.h
@@ -219,7 +219,7 @@ struct llama_mmap {
         // prefetch/readahead impairs performance on NUMA systems
         if (numa) { prefetch = 0; }
 #ifdef __linux__
-        if (prefetch) { flags |= MAP_POPULATE; }
+        if (prefetch >= file->size) { flags |= MAP_POPULATE; }
 #endif
         addr = mmap(NULL, file->size, PROT_READ, flags, fd, 0);
         if (addr == MAP_FAILED) {
diff --git a/llama.cpp b/llama.cpp
@@ -747,12 +747,12 @@ struct llama_model_loader {
 
     void load_all_data(llama_progress_callback progress_callback, void *  progress_callback_user_data, llama_mlock * lmlock) {
         size_t data_size = 0;
-        size_t prefetch_size = 0;
+        size_t prefetch_size = file_loader->file.size;
         size_t lock_size = 0;
         for (const llama_load_tensor & lt : tensors_map.tensors) {
             data_size += lt.size;
-            if (lt.ggml_tensor->backend == GGML_BACKEND_CPU) {
-                prefetch_size += lt.size;
+            if (lt.ggml_tensor->backend != GGML_BACKEND_CPU) {
+                prefetch_size -= lt.size;
             }
         }
 

Original file line number	Diff line number	Diff line change
`@@ -747,12 +747,12 @@ struct llama_model_loader {`
`747`	`747`
`748`	`748`	`void load_all_data(llama_progress_callback progress_callback, void * progress_callback_user_data, llama_mlock * lmlock) {`
`749`	`749`	`size_t data_size = 0;`
`750`		`- size_t prefetch_size = 0;`
	`750`	`+ size_t prefetch_size = file_loader->file.size;`
`751`	`751`	`size_t lock_size = 0;`
`752`	`752`	`for (const llama_load_tensor & lt : tensors_map.tensors) {`
`753`	`753`	`data_size += lt.size;`
`754`		`- if (lt.ggml_tensor->backend == GGML_BACKEND_CPU) {`
`755`		`- prefetch_size += lt.size;`
	`754`	`+ if (lt.ggml_tensor->backend != GGML_BACKEND_CPU) {`
	`755`	`+ prefetch_size -= lt.size;`
`756`	`756`	`}`
`757`	`757`	`}`
`758`	`758`