Fix a typo when calcualte VRAM size

howard0su · howard0su · commit 3be3ba338177 · 2023-05-27T21:29:36.000+08:00
diff --git a/llama.cpp b/llama.cpp
@@ -1061,8 +1061,8 @@ static void llama_model_load_internal(
 
             if (backend == GGML_BACKEND_CUDA) {
                 vram_total +=
-                    ggml_nbytes(layer.attention_norm) + ggml_nbytes(layer.wq) + ggml_nbytes(layer.wk)             +
-                    ggml_nbytes(layer.wv)             + ggml_nbytes(layer.wo) + ggml_nbytes(layer.attention_norm) +
+                    ggml_nbytes(layer.attention_norm) + ggml_nbytes(layer.wq) + ggml_nbytes(layer.wk)       +
+                    ggml_nbytes(layer.wv)             + ggml_nbytes(layer.wo) + ggml_nbytes(layer.ffn_norm) +
                     ggml_nbytes(layer.w1)             + ggml_nbytes(layer.w2) + ggml_nbytes(layer.w3);
             }
         }

Original file line number	Diff line number	Diff line change
`@@ -1061,8 +1061,8 @@ static void llama_model_load_internal(`
`1061`	`1061`
`1062`	`1062`	`if (backend == GGML_BACKEND_CUDA) {`
`1063`	`1063`	`vram_total +=`
`1064`		`- ggml_nbytes(layer.attention_norm) + ggml_nbytes(layer.wq) + ggml_nbytes(layer.wk) +`
`1065`		`- ggml_nbytes(layer.wv) + ggml_nbytes(layer.wo) + ggml_nbytes(layer.attention_norm) +`
	`1064`	`+ ggml_nbytes(layer.attention_norm) + ggml_nbytes(layer.wq) + ggml_nbytes(layer.wk) +`
	`1065`	`+ ggml_nbytes(layer.wv) + ggml_nbytes(layer.wo) + ggml_nbytes(layer.ffn_norm) +`
`1066`	`1066`	`ggml_nbytes(layer.w1) + ggml_nbytes(layer.w2) + ggml_nbytes(layer.w3);`
`1067`	`1067`	`}`
`1068`	`1068`	`}`