Model save

Browse files

Files changed (6) hide show

README.md +2 -2
adapter_model.safetensors +1 -1
all_results.json +4 -9
runs/Nov18_05-54-20_main-lora-mistral7b-summarization-0-0/events.out.tfevents.1731928130.main-lora-mistral7b-summarization-0-0.456.0 +2 -2
train_results.json +4 -4
trainer_state.json +54 -54

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.3717
 ## Model description
@@ -57,7 +57,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.6835        | 0.9955 | 111  | 2.3717          |
 ### Framework versions

 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3661
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.6751        | 0.9955 | 111  | 2.3661          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3db40600a5aac974df42c1a3419e32e028e994dd039e1229ad5f1f88d9b2cf73
 size 4216407520

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce3f5f0cd52569dc2224ccc17fed04275c06a42123e9aa446a2d55388fe90c3c
 size 4216407520

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
     "epoch": 0.9955156950672646,
-    "eval_loss": 2.371652841567993,
-    "eval_runtime": 1.1184,
-    "eval_samples": 25,
-    "eval_samples_per_second": 18.776,
-    "eval_steps_per_second": 0.894,
     "total_flos": 6.554327132594504e+17,
-    "train_loss": 1.8387699009061933,
-    "train_runtime": 1914.8973,
     "train_samples": 129221,
-    "train_samples_per_second": 14.857,
-    "train_steps_per_second": 0.058
 }

 {
     "epoch": 0.9955156950672646,
     "total_flos": 6.554327132594504e+17,
+    "train_loss": 1.8339371971181921,
+    "train_runtime": 536.3339,
     "train_samples": 129221,
+    "train_samples_per_second": 53.043,
+    "train_steps_per_second": 0.207
 }

runs/Nov18_05-54-20_main-lora-mistral7b-summarization-0-0/events.out.tfevents.1731928130.main-lora-mistral7b-summarization-0-0.456.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:532f840d6a2a6445f2f01a7634a28cddacd42118d87cd8a219c64d415332d8c0
-size 9914

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2728a122a208c53c5acc6c77d83dffdf9d7014176ef9b2874c7a67ec4d7afbc
+size 10942

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9955156950672646,
     "total_flos": 6.554327132594504e+17,
-    "train_loss": 1.8387699009061933,
-    "train_runtime": 1914.8973,
     "train_samples": 129221,
-    "train_samples_per_second": 14.857,
-    "train_steps_per_second": 0.058
 }

 {
     "epoch": 0.9955156950672646,
     "total_flos": 6.554327132594504e+17,
+    "train_loss": 1.8339371971181921,
+    "train_runtime": 536.3339,
     "train_samples": 129221,
+    "train_samples_per_second": 53.043,
+    "train_steps_per_second": 0.207
 }

trainer_state.json CHANGED Viewed

@@ -10,181 +10,181 @@
   "log_history": [
     {
       "epoch": 0.008968609865470852,
-      "grad_norm": 1.1094273328781128,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 2.4851,
       "step": 1
     },
     {
       "epoch": 0.04484304932735426,
-      "grad_norm": 0.9243674278259277,
       "learning_rate": 8.333333333333334e-05,
-      "loss": 2.4898,
       "step": 5
     },
     {
       "epoch": 0.08968609865470852,
-      "grad_norm": 0.6846497654914856,
       "learning_rate": 0.0001666666666666667,
-      "loss": 2.4067,
       "step": 10
     },
     {
       "epoch": 0.13452914798206278,
-      "grad_norm": 0.8646454811096191,
       "learning_rate": 0.00019954719225730847,
-      "loss": 2.2437,
       "step": 15
     },
     {
       "epoch": 0.17937219730941703,
-      "grad_norm": 0.659982442855835,
       "learning_rate": 0.00019679487013963564,
-      "loss": 2.0573,
       "step": 20
     },
     {
       "epoch": 0.2242152466367713,
-      "grad_norm": 0.579827070236206,
       "learning_rate": 0.00019161084574320696,
-      "loss": 1.9415,
       "step": 25
     },
     {
       "epoch": 0.26905829596412556,
-      "grad_norm": 0.3958710730075836,
       "learning_rate": 0.00018412535328311814,
-      "loss": 1.868,
       "step": 30
     },
     {
       "epoch": 0.31390134529147984,
-      "grad_norm": 0.2995990514755249,
       "learning_rate": 0.0001745264449675755,
-      "loss": 1.814,
       "step": 35
     },
     {
       "epoch": 0.35874439461883406,
-      "grad_norm": 0.2901516556739807,
       "learning_rate": 0.00016305526670845226,
-      "loss": 1.7888,
       "step": 40
     },
     {
       "epoch": 0.40358744394618834,
-      "grad_norm": 0.27101069688796997,
       "learning_rate": 0.00015000000000000001,
-      "loss": 1.759,
       "step": 45
     },
     {
       "epoch": 0.4484304932735426,
-      "grad_norm": 0.252288281917572,
       "learning_rate": 0.00013568862215918717,
-      "loss": 1.7476,
       "step": 50
     },
     {
       "epoch": 0.49327354260089684,
-      "grad_norm": 0.24804328382015228,
       "learning_rate": 0.00012048066680651908,
-      "loss": 1.738,
       "step": 55
     },
     {
       "epoch": 0.5381165919282511,
-      "grad_norm": 0.25213855504989624,
       "learning_rate": 0.00010475819158237425,
-      "loss": 1.7199,
       "step": 60
     },
     {
       "epoch": 0.5829596412556054,
-      "grad_norm": 0.25072190165519714,
       "learning_rate": 8.891618000989891e-05,
-      "loss": 1.7053,
       "step": 65
     },
     {
       "epoch": 0.6278026905829597,
-      "grad_norm": 0.24229365587234497,
       "learning_rate": 7.335261863099651e-05,
-      "loss": 1.708,
       "step": 70
     },
     {
       "epoch": 0.672645739910314,
-      "grad_norm": 0.245011568069458,
       "learning_rate": 5.845849869981137e-05,
-      "loss": 1.6943,
       "step": 75
     },
     {
       "epoch": 0.7174887892376681,
-      "grad_norm": 0.25127002596855164,
       "learning_rate": 4.4607993613388976e-05,
-      "loss": 1.6854,
       "step": 80
     },
     {
       "epoch": 0.7623318385650224,
-      "grad_norm": 0.25898587703704834,
       "learning_rate": 3.21490588442868e-05,
-      "loss": 1.6834,
       "step": 85
     },
     {
       "epoch": 0.8071748878923767,
-      "grad_norm": 0.2714327871799469,
       "learning_rate": 2.139469052572127e-05,
-      "loss": 1.6902,
       "step": 90
     },
     {
       "epoch": 0.852017937219731,
-      "grad_norm": 0.22857919335365295,
       "learning_rate": 1.2615062293021507e-05,
-      "loss": 1.6917,
       "step": 95
     },
     {
       "epoch": 0.8968609865470852,
-      "grad_norm": 0.2975883185863495,
       "learning_rate": 6.030737921409169e-06,
-      "loss": 1.6887,
       "step": 100
     },
     {
       "epoch": 0.9417040358744395,
-      "grad_norm": 0.2528745234012604,
       "learning_rate": 1.8071302737293295e-06,
-      "loss": 1.6853,
       "step": 105
     },
     {
       "epoch": 0.9865470852017937,
-      "grad_norm": 0.2566002309322357,
       "learning_rate": 5.0345761681491746e-08,
-      "loss": 1.6835,
       "step": 110
     },
     {
       "epoch": 0.9955156950672646,
-      "eval_loss": 2.371652841567993,
-      "eval_runtime": 1.116,
-      "eval_samples_per_second": 18.816,
-      "eval_steps_per_second": 0.896,
       "step": 111
     },
     {
       "epoch": 0.9955156950672646,
       "step": 111,
       "total_flos": 6.554327132594504e+17,
-      "train_loss": 1.8387699009061933,
-      "train_runtime": 1914.8973,
-      "train_samples_per_second": 14.857,
-      "train_steps_per_second": 0.058
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.008968609865470852,
+      "grad_norm": 5.0164899826049805,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.5202,
       "step": 1
     },
     {
       "epoch": 0.04484304932735426,
+      "grad_norm": 3.011996269226074,
       "learning_rate": 8.333333333333334e-05,
+      "loss": 2.5232,
       "step": 5
     },
     {
       "epoch": 0.08968609865470852,
+      "grad_norm": 0.789746880531311,
       "learning_rate": 0.0001666666666666667,
+      "loss": 2.4146,
       "step": 10
     },
     {
       "epoch": 0.13452914798206278,
+      "grad_norm": 0.8607348799705505,
       "learning_rate": 0.00019954719225730847,
+      "loss": 2.2464,
       "step": 15
     },
     {
       "epoch": 0.17937219730941703,
+      "grad_norm": 0.6927841305732727,
       "learning_rate": 0.00019679487013963564,
+      "loss": 2.0564,
       "step": 20
     },
     {
       "epoch": 0.2242152466367713,
+      "grad_norm": 0.569992184638977,
       "learning_rate": 0.00019161084574320696,
+      "loss": 1.9377,
       "step": 25
     },
     {
       "epoch": 0.26905829596412556,
+      "grad_norm": 0.3795563876628876,
       "learning_rate": 0.00018412535328311814,
+      "loss": 1.8624,
       "step": 30
     },
     {
       "epoch": 0.31390134529147984,
+      "grad_norm": 0.2764267325401306,
       "learning_rate": 0.0001745264449675755,
+      "loss": 1.8067,
       "step": 35
     },
     {
       "epoch": 0.35874439461883406,
+      "grad_norm": 0.2873355448246002,
       "learning_rate": 0.00016305526670845226,
+      "loss": 1.7802,
       "step": 40
     },
     {
       "epoch": 0.40358744394618834,
+      "grad_norm": 0.2722155749797821,
       "learning_rate": 0.00015000000000000001,
+      "loss": 1.7499,
       "step": 45
     },
     {
       "epoch": 0.4484304932735426,
+      "grad_norm": 0.24966852366924286,
       "learning_rate": 0.00013568862215918717,
+      "loss": 1.7376,
       "step": 50
     },
     {
       "epoch": 0.49327354260089684,
+      "grad_norm": 0.23957866430282593,
       "learning_rate": 0.00012048066680651908,
+      "loss": 1.7284,
       "step": 55
     },
     {
       "epoch": 0.5381165919282511,
+      "grad_norm": 0.2508368492126465,
       "learning_rate": 0.00010475819158237425,
+      "loss": 1.7107,
       "step": 60
     },
     {
       "epoch": 0.5829596412556054,
+      "grad_norm": 0.24922572076320648,
       "learning_rate": 8.891618000989891e-05,
+      "loss": 1.6965,
       "step": 65
     },
     {
       "epoch": 0.6278026905829597,
+      "grad_norm": 0.23529289662837982,
       "learning_rate": 7.335261863099651e-05,
+      "loss": 1.6994,
       "step": 70
     },
     {
       "epoch": 0.672645739910314,
+      "grad_norm": 0.24354910850524902,
       "learning_rate": 5.845849869981137e-05,
+      "loss": 1.6859,
       "step": 75
     },
     {
       "epoch": 0.7174887892376681,
+      "grad_norm": 0.24570442736148834,
       "learning_rate": 4.4607993613388976e-05,
+      "loss": 1.6771,
       "step": 80
     },
     {
       "epoch": 0.7623318385650224,
+      "grad_norm": 0.2550687789916992,
       "learning_rate": 3.21490588442868e-05,
+      "loss": 1.6749,
       "step": 85
     },
     {
       "epoch": 0.8071748878923767,
+      "grad_norm": 0.26918160915374756,
       "learning_rate": 2.139469052572127e-05,
+      "loss": 1.6817,
       "step": 90
     },
     {
       "epoch": 0.852017937219731,
+      "grad_norm": 0.2187623828649521,
       "learning_rate": 1.2615062293021507e-05,
+      "loss": 1.6831,
       "step": 95
     },
     {
       "epoch": 0.8968609865470852,
+      "grad_norm": 0.28687548637390137,
       "learning_rate": 6.030737921409169e-06,
+      "loss": 1.68,
       "step": 100
     },
     {
       "epoch": 0.9417040358744395,
+      "grad_norm": 0.2411273717880249,
       "learning_rate": 1.8071302737293295e-06,
+      "loss": 1.6766,
       "step": 105
     },
     {
       "epoch": 0.9865470852017937,
+      "grad_norm": 0.24854984879493713,
       "learning_rate": 5.0345761681491746e-08,
+      "loss": 1.6751,
       "step": 110
     },
     {
       "epoch": 0.9955156950672646,
+      "eval_loss": 2.3661022186279297,
+      "eval_runtime": 0.797,
+      "eval_samples_per_second": 26.35,
+      "eval_steps_per_second": 1.255,
       "step": 111
     },
     {
       "epoch": 0.9955156950672646,
       "step": 111,
       "total_flos": 6.554327132594504e+17,
+      "train_loss": 1.8339371971181921,
+      "train_runtime": 536.3339,
+      "train_samples_per_second": 53.043,
+      "train_steps_per_second": 0.207
     }
   ],
   "logging_steps": 5,