Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +3 -2
chat_template.jinja +43 -0
config.json +12 -173
generation_config.json +4 -1
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +0 -0
recipe.yaml +1 -1
tokenizer_config.json +1 -2

README.md CHANGED Viewed

@@ -1,10 +1,11 @@
 ---
 base_model:
-- fancyfeast/llama-joycaption-beta-one-hf-llava
 tags:
 - captioning
 ---
-# Model Card for Llama JoyCaption Beta One (FP8 Dynamic quantization)
 [Github](https://github.com/fpgaminer/joycaption)

 ---
 base_model:
+- meta-llama/Llama-3.1-8B-Instruct
+- google/siglip2-so400m-patch14-384
 tags:
 - captioning
 ---
+# Model Card for Llama JoyCaption Beta One
 [Github](https://github.com/fpgaminer/joycaption)

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,43 @@

+{%- if not date_string is defined %}
+    {%- set date_string = "26 July 2024" %}
+{%- endif %}
+{#- This block extracts the system message, so we can slot it into the right place. #}
+{%- if messages[0]['role'] == 'system' %}
+    {%- set system_message = messages[0]['content'] %}
+    {%- set messages = messages[1:] %}
+{%- else %}
+    {%- set system_message = "" %}
+{%- endif %}
+{#- System message + builtin tools #}
+{{- "<|start_header_id|>system<|end_header_id|>
+" }}
+{{- "Cutting Knowledge Date: December 2023
+" }}
+{{- "Today Date: " + date_string + "
+" }}
+{{- system_message }}
+{{- "<|eot_id|>" }}
+{%- set first_user_message = True %}
+{%- for message in messages %}
+    {%- if first_user_message and message['role'] == 'user' %}
+		{%- set first_user_message = False %}
+	    {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>
+<|reserved_special_token_70|><|reserved_special_token_69|><|reserved_special_token_71|>'+ message['content'].replace('<|reserved_special_token_69|>', '').lstrip() + '<|eot_id|>' }}
+	{%- else %}
+        {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>
+'+ message['content'] + '<|eot_id|>' }}
+	{%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|start_header_id|>assistant<|end_header_id|>
+' }}
+{%- endif %}

config.json CHANGED Viewed

@@ -2,6 +2,7 @@
   "architectures": [
     "LlavaForConditionalGeneration"
   ],
   "image_seq_length": 729,
   "image_token_index": 128077,
   "model_type": "llava",
@@ -10,6 +11,7 @@
   "quantization_config": {
     "config_groups": {
       "group_0": {
         "input_activations": {
           "actorder": null,
           "block_structure": null,
@@ -43,177 +45,14 @@
     "format": "float-quantized",
     "global_compression_ratio": null,
     "ignore": [
-      "vision_tower.vision_model.encoder.layers.0.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.0.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.0.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.0.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.0.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.0.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.1.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.1.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.1.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.1.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.1.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.1.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.2.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.2.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.2.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.2.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.2.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.2.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.3.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.3.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.3.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.3.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.3.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.3.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.4.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.4.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.4.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.4.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.4.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.4.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.5.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.5.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.5.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.5.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.5.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.5.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.6.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.6.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.6.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.6.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.6.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.6.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.7.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.7.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.7.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.7.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.7.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.7.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.8.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.8.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.8.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.8.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.8.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.8.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.9.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.9.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.9.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.9.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.9.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.9.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.10.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.10.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.10.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.10.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.10.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.10.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.11.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.11.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.11.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.11.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.11.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.11.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.12.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.12.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.12.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.12.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.12.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.12.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.13.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.13.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.13.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.13.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.13.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.13.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.14.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.14.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.14.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.14.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.14.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.14.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.15.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.15.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.15.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.15.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.15.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.15.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.16.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.16.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.16.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.16.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.16.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.16.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.17.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.17.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.17.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.17.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.17.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.17.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.18.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.18.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.18.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.18.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.18.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.18.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.19.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.19.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.19.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.19.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.19.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.19.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.20.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.20.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.20.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.20.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.20.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.20.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.21.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.21.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.21.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.21.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.21.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.21.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.22.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.22.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.22.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.22.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.22.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.22.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.23.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.23.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.23.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.23.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.23.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.23.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.24.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.24.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.24.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.24.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.24.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.24.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.25.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.25.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.25.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.25.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.25.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.25.mlp.fc2",
-      "vision_tower.vision_model.encoder.layers.26.self_attn.k_proj",
-      "vision_tower.vision_model.encoder.layers.26.self_attn.v_proj",
-      "vision_tower.vision_model.encoder.layers.26.self_attn.q_proj",
-      "vision_tower.vision_model.encoder.layers.26.self_attn.out_proj",
-      "vision_tower.vision_model.encoder.layers.26.mlp.fc1",
-      "vision_tower.vision_model.encoder.layers.26.mlp.fc2",
-      "vision_tower.vision_model.head.mlp.fc1",
-      "vision_tower.vision_model.head.mlp.fc2",
-      "multi_modal_projector.linear_1",
-      "multi_modal_projector.linear_2",
-      "language_model.lm_head"
     ],
     "kv_cache_scheme": null,
     "quant_method": "compressed-tensors",
-    "quantization_status": "compressed"
   },
   "text_config": {
     "_name_or_path": "meta-llama/Llama-3.1-8B-Instruct",
@@ -223,6 +62,7 @@
     "attention_bias": false,
     "attention_dropout": 0.0,
     "bos_token_id": 128000,
     "eos_token_id": [
       128001,
       128008,
@@ -249,18 +89,18 @@
       "rope_type": "llama3"
     },
     "rope_theta": 500000.0,
-    "torch_dtype": "bfloat16",
     "use_cache": true,
     "vocab_size": 128256
   },
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.51.3",
   "vision_config": {
     "_name_or_path": "google/siglip2-so400m-patch14-384",
     "architectures": [
       "SiglipVisionModel"
     ],
     "attention_dropout": 0.0,
     "hidden_act": "gelu_pytorch_tanh",
     "hidden_size": 1152,
     "image_size": 384,
@@ -270,8 +110,7 @@
     "num_attention_heads": 16,
     "num_channels": 3,
     "num_hidden_layers": 27,
-    "patch_size": 14,
-    "torch_dtype": "bfloat16"
   },
   "vision_feature_layer": -2,
   "vision_feature_select_strategy": "full"

   "architectures": [
     "LlavaForConditionalGeneration"
   ],
+  "dtype": "bfloat16",
   "image_seq_length": 729,
   "image_token_index": 128077,
   "model_type": "llava",
   "quantization_config": {
     "config_groups": {
       "group_0": {
+        "format": "float-quantized",
         "input_activations": {
           "actorder": null,
           "block_structure": null,
     "format": "float-quantized",
     "global_compression_ratio": null,
     "ignore": [
+      "lm_head"
     ],
     "kv_cache_scheme": null,
     "quant_method": "compressed-tensors",
+    "quantization_status": "compressed",
+    "sparsity_config": {},
+    "transform_config": {},
+    "version": "0.11.0"
   },
   "text_config": {
     "_name_or_path": "meta-llama/Llama-3.1-8B-Instruct",
     "attention_bias": false,
     "attention_dropout": 0.0,
     "bos_token_id": 128000,
+    "dtype": "bfloat16",
     "eos_token_id": [
       128001,
       128008,
       "rope_type": "llama3"
     },
     "rope_theta": 500000.0,
     "use_cache": true,
     "vocab_size": 128256
   },
+  "tie_word_embeddings": false,
+  "transformers_version": "4.56.1",
   "vision_config": {
     "_name_or_path": "google/siglip2-so400m-patch14-384",
     "architectures": [
       "SiglipVisionModel"
     ],
     "attention_dropout": 0.0,
+    "dtype": "bfloat16",
     "hidden_act": "gelu_pytorch_tanh",
     "hidden_size": 1152,
     "image_size": 384,
     "num_attention_heads": 16,
     "num_channels": 3,
     "num_hidden_layers": 27,
+    "patch_size": 14
   },
   "vision_feature_layer": -2,
   "vision_feature_select_strategy": "full"

generation_config.json CHANGED Viewed

@@ -1,10 +1,13 @@
 {
   "_from_model_config": true,
   "bos_token_id": 128000,
   "eos_token_id": [
     128001,
     128008,
     128009
   ],
-  "transformers_version": "4.51.3"
 }

 {
   "_from_model_config": true,
   "bos_token_id": 128000,
+  "do_sample": true,
   "eos_token_id": [
     128001,
     128008,
     128009
   ],
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.56.1"
 }

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad17bb513ed7f4f788ade08ee2306627a549b3f281d4f0a73a75935e09485c5f
+size 4999640960

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd782e04b768e5c77e92b06fb207746a55a7c467b4a3b84b72b70e37fc3a71cc
+size 4542015320

model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

recipe.yaml CHANGED Viewed

@@ -1,6 +1,6 @@
 default_stage:
   default_modifiers:
     QuantizationModifier:
-      ignore: ['re:.*lm_head', 're:multi_modal_projector.*', 're:vision_tower.*']
       targets: [Linear]
       scheme: FP8_DYNAMIC

 default_stage:
   default_modifiers:
     QuantizationModifier:
       targets: [Linear]
+      ignore: ['re:.*lm_head', 're:multi_modal_projector.*', 're:vision_tower.*']
       scheme: FP8_DYNAMIC

tokenizer_config.json CHANGED Viewed

@@ -2050,7 +2050,6 @@
     }
   },
   "bos_token": "<|begin_of_text|>",
-  "chat_template": "{{- bos_token }}\n{%- if not date_string is defined %}\n    {%- set date_string = \"26 July 2024\" %}\n{%- endif %}\n\n{#- This block extracts the system message, so we can slot it into the right place. #}\n{%- if messages[0]['role'] == 'system' %}\n    {%- set system_message = messages[0]['content'] %}\n    {%- set messages = messages[1:] %}\n{%- else %}\n    {%- set system_message = \"\" %}\n{%- endif %}\n\n{#- System message + builtin tools #}\n{{- \"<|start_header_id|>system<|end_header_id|>\n\n\" }}\n{{- \"Cutting Knowledge Date: December 2023\n\" }}\n{{- \"Today Date: \" + date_string + \"\n\n\" }}\n{{- system_message }}\n{{- \"<|eot_id|>\" }}\n\n\n{%- set first_user_message = True %}\n{%- for message in messages %}\n    {%- if first_user_message and message['role'] == 'user' %}\n\t\t{%- set first_user_message = False %}\n\t    {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n<|reserved_special_token_70|><|reserved_special_token_69|><|reserved_special_token_71|>'+ message['content'] + '<|eot_id|>' }}\n\t{%- else %}\n        {{- '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] + '<|eot_id|>' }}\n\t{%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|start_header_id|>assistant<|end_header_id|>\n\n' }}\n{%- endif %}\n",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|eot_id|>",
   "extra_special_tokens": {},
@@ -2060,5 +2059,5 @@
   ],
   "model_max_length": 131072,
   "processor_class": "LlavaProcessor",
-  "tokenizer_class": "PreTrainedTokenizer"
 }

     }
   },
   "bos_token": "<|begin_of_text|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|eot_id|>",
   "extra_special_tokens": {},
   ],
   "model_max_length": 131072,
   "processor_class": "LlavaProcessor",
+  "tokenizer_class": "PreTrainedTokenizerFast"
 }