@@ -2848,7 +2848,7 @@ static bool llama_kv_cache_init(
2848
2848
2849
2849
const struct llama_hparams & hparams = model.hparams;
2850
2850
2851
- const int64_t n_layer = hparams.n_layer;
2851
+ const int64_t n_layer = hparams.n_layer;
2852
2852
2853
2853
cache.has_shift = false;
2854
2854
@@ -4486,11 +4486,11 @@ static void llm_load_hparams(
4486
4486
return;
4487
4487
}
4488
4488
4489
- ml.get_key(LLM_KV_CONTEXT_LENGTH, hparams.n_ctx_train);
4490
- ml.get_key(LLM_KV_EMBEDDING_LENGTH, hparams.n_embd);
4491
- ml.get_key(LLM_KV_BLOCK_COUNT, hparams.n_layer);
4492
- ml.get_key(LLM_KV_EXPERT_COUNT, hparams.n_expert, false);
4493
- ml.get_key(LLM_KV_EXPERT_USED_COUNT, hparams.n_expert_used, false);
4489
+ ml.get_key(LLM_KV_CONTEXT_LENGTH, hparams.n_ctx_train);
4490
+ ml.get_key(LLM_KV_EMBEDDING_LENGTH, hparams.n_embd);
4491
+ ml.get_key(LLM_KV_BLOCK_COUNT, hparams.n_layer);
4492
+ ml.get_key(LLM_KV_EXPERT_COUNT, hparams.n_expert, false);
4493
+ ml.get_key(LLM_KV_EXPERT_USED_COUNT, hparams.n_expert_used, false);
4494
4494
4495
4495
GGML_ASSERT(hparams.n_expert <= LLAMA_MAX_EXPERTS);
4496
4496
GGML_ASSERT(hparams.n_expert_used <= hparams.n_expert);
@@ -5594,37 +5594,43 @@ static void llm_load_print_meta(llama_model_loader & ml, llama_model & model) {
5594
5594
LLAMA_LOG_INFO("%s: vocab type = %s\n", __func__, llama_model_vocab_type_name(vocab.type));
5595
5595
LLAMA_LOG_INFO("%s: n_vocab = %u\n", __func__, hparams.n_vocab);
5596
5596
LLAMA_LOG_INFO("%s: n_merges = %u\n", __func__, (int) vocab.bpe_ranks.size());
5597
- LLAMA_LOG_INFO("%s: n_ctx_train = %u\n", __func__, hparams.n_ctx_train);
5598
- LLAMA_LOG_INFO("%s: n_embd = %u\n", __func__, hparams.n_embd);
5599
- LLAMA_LOG_INFO("%s: n_head = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_head(il); }, hparams.n_layer).c_str());
5600
- LLAMA_LOG_INFO("%s: n_head_kv = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_head_kv(il); }, hparams.n_layer).c_str());
5601
- LLAMA_LOG_INFO("%s: n_layer = %u\n", __func__, hparams.n_layer);
5602
- LLAMA_LOG_INFO("%s: n_rot = %u\n", __func__, hparams.n_rot);
5603
- LLAMA_LOG_INFO("%s: n_embd_head_k = %u\n", __func__, hparams.n_embd_head_k);
5604
- LLAMA_LOG_INFO("%s: n_embd_head_v = %u\n", __func__, hparams.n_embd_head_v);
5605
- LLAMA_LOG_INFO("%s: n_gqa = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_gqa(il); }, hparams.n_layer).c_str());
5606
- LLAMA_LOG_INFO("%s: n_embd_k_gqa = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_embd_k_gqa(il); }, hparams.n_layer).c_str());
5607
- LLAMA_LOG_INFO("%s: n_embd_v_gqa = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_embd_v_gqa(il); }, hparams.n_layer).c_str());
5608
- LLAMA_LOG_INFO("%s: f_norm_eps = %.1e\n", __func__, hparams.f_norm_eps);
5609
- LLAMA_LOG_INFO("%s: f_norm_rms_eps = %.1e\n", __func__, hparams.f_norm_rms_eps);
5610
- LLAMA_LOG_INFO("%s: f_clamp_kqv = %.1e\n", __func__, hparams.f_clamp_kqv);
5611
- LLAMA_LOG_INFO("%s: f_max_alibi_bias = %.1e\n", __func__, hparams.f_max_alibi_bias);
5612
- LLAMA_LOG_INFO("%s: f_logit_scale = %.1e\n", __func__, hparams.f_logit_scale);
5613
- LLAMA_LOG_INFO("%s: n_ff = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_ff(il); }, hparams.n_layer).c_str());
5614
- LLAMA_LOG_INFO("%s: n_expert = %u\n", __func__, hparams.n_expert);
5615
- LLAMA_LOG_INFO("%s: n_expert_used = %u\n", __func__, hparams.n_expert_used);
5616
- LLAMA_LOG_INFO("%s: causal attn = %d\n", __func__, hparams.causal_attn);
5617
- LLAMA_LOG_INFO("%s: pooling type = %d\n", __func__, hparams.pooling_type);
5618
- LLAMA_LOG_INFO("%s: rope type = %d\n", __func__, hparams.rope_type);
5619
- LLAMA_LOG_INFO("%s: rope scaling = %s\n", __func__, rope_scaling_type);
5620
- LLAMA_LOG_INFO("%s: freq_base_train = %.1f\n", __func__, hparams.rope_freq_base_train);
5621
- LLAMA_LOG_INFO("%s: freq_scale_train = %g\n", __func__, hparams.rope_freq_scale_train);
5622
- LLAMA_LOG_INFO("%s: n_ctx_orig_yarn = %u\n", __func__, hparams.n_ctx_orig_yarn);
5623
- LLAMA_LOG_INFO("%s: rope_finetuned = %s\n", __func__, hparams.rope_finetuned ? "yes" : "unknown");
5624
- LLAMA_LOG_INFO("%s: ssm_d_conv = %u\n", __func__, hparams.ssm_d_conv);
5625
- LLAMA_LOG_INFO("%s: ssm_d_inner = %u\n", __func__, hparams.ssm_d_inner);
5626
- LLAMA_LOG_INFO("%s: ssm_d_state = %u\n", __func__, hparams.ssm_d_state);
5627
- LLAMA_LOG_INFO("%s: ssm_dt_rank = %u\n", __func__, hparams.ssm_dt_rank);
5597
+ LLAMA_LOG_INFO("%s: vocab_only = %d\n", __func__, hparams.vocab_only);
5598
+
5599
+ if (!hparams.vocab_only) {
5600
+ LLAMA_LOG_INFO("%s: n_ctx_train = %u\n", __func__, hparams.n_ctx_train);
5601
+ LLAMA_LOG_INFO("%s: n_embd = %u\n", __func__, hparams.n_embd);
5602
+ LLAMA_LOG_INFO("%s: n_layer = %u\n", __func__, hparams.n_layer);
5603
+ LLAMA_LOG_INFO("%s: n_head = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_head(il); }, hparams.n_layer).c_str());
5604
+ LLAMA_LOG_INFO("%s: n_head_kv = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_head_kv(il); }, hparams.n_layer).c_str());
5605
+ LLAMA_LOG_INFO("%s: n_rot = %u\n", __func__, hparams.n_rot);
5606
+ LLAMA_LOG_INFO("%s: n_embd_head_k = %u\n", __func__, hparams.n_embd_head_k);
5607
+ LLAMA_LOG_INFO("%s: n_embd_head_v = %u\n", __func__, hparams.n_embd_head_v);
5608
+ LLAMA_LOG_INFO("%s: n_gqa = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_gqa(il); }, hparams.n_layer).c_str());
5609
+ LLAMA_LOG_INFO("%s: n_embd_k_gqa = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_embd_k_gqa(il); }, hparams.n_layer).c_str());
5610
+ LLAMA_LOG_INFO("%s: n_embd_v_gqa = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_embd_v_gqa(il); }, hparams.n_layer).c_str());
5611
+ LLAMA_LOG_INFO("%s: f_norm_eps = %.1e\n", __func__, hparams.f_norm_eps);
5612
+ LLAMA_LOG_INFO("%s: f_norm_rms_eps = %.1e\n", __func__, hparams.f_norm_rms_eps);
5613
+ LLAMA_LOG_INFO("%s: f_clamp_kqv = %.1e\n", __func__, hparams.f_clamp_kqv);
5614
+ LLAMA_LOG_INFO("%s: f_max_alibi_bias = %.1e\n", __func__, hparams.f_max_alibi_bias);
5615
+ LLAMA_LOG_INFO("%s: f_logit_scale = %.1e\n", __func__, hparams.f_logit_scale);
5616
+ LLAMA_LOG_INFO("%s: n_ff = %s\n", __func__, print_f([&](uint32_t il) { return hparams.n_ff(il); }, hparams.n_layer).c_str());
5617
+ LLAMA_LOG_INFO("%s: n_expert = %u\n", __func__, hparams.n_expert);
5618
+ LLAMA_LOG_INFO("%s: n_expert_used = %u\n", __func__, hparams.n_expert_used);
5619
+ LLAMA_LOG_INFO("%s: causal attn = %d\n", __func__, hparams.causal_attn);
5620
+ LLAMA_LOG_INFO("%s: pooling type = %d\n", __func__, hparams.pooling_type);
5621
+ LLAMA_LOG_INFO("%s: rope type = %d\n", __func__, hparams.rope_type);
5622
+ LLAMA_LOG_INFO("%s: rope scaling = %s\n", __func__, rope_scaling_type);
5623
+ LLAMA_LOG_INFO("%s: freq_base_train = %.1f\n", __func__, hparams.rope_freq_base_train);
5624
+ LLAMA_LOG_INFO("%s: freq_scale_train = %g\n", __func__, hparams.rope_freq_scale_train);
5625
+ LLAMA_LOG_INFO("%s: n_ctx_orig_yarn = %u\n", __func__, hparams.n_ctx_orig_yarn);
5626
+ LLAMA_LOG_INFO("%s: rope_finetuned = %s\n", __func__, hparams.rope_finetuned ? "yes" : "unknown");
5627
+ LLAMA_LOG_INFO("%s: ssm_d_conv = %u\n", __func__, hparams.ssm_d_conv);
5628
+ LLAMA_LOG_INFO("%s: ssm_d_inner = %u\n", __func__, hparams.ssm_d_inner);
5629
+ LLAMA_LOG_INFO("%s: ssm_d_state = %u\n", __func__, hparams.ssm_d_state);
5630
+ LLAMA_LOG_INFO("%s: ssm_dt_rank = %u\n", __func__, hparams.ssm_dt_rank);
5631
+ } else {
5632
+ }
5633
+
5628
5634
LLAMA_LOG_INFO("%s: model type = %s\n", __func__, llama_model_type_name(model.type));
5629
5635
LLAMA_LOG_INFO("%s: model ftype = %s\n", __func__, llama_model_ftype_name(model.ftype).c_str());
5630
5636
if (ml.n_elements >= 1e12) {
0 commit comments