Model save

Browse files

Files changed (4) hide show

README.md +2 -2
all_results.json +4 -9
train_results.json +4 -4
trainer_state.json +34 -34

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.3643
 ## Model description
@@ -57,7 +57,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 2.2079        | 1.0   | 61   | 2.3643          |
 ### Framework versions

 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B](https://huggingface.co/meta-llama/Meta-Llama-3-8B) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.3604
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 2.2029        | 1.0   | 61   | 2.3604          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
     "epoch": 1.0,
-    "eval_loss": 2.36434006690979,
-    "eval_runtime": 1.1364,
-    "eval_samples": 16,
-    "eval_samples_per_second": 3.52,
-    "eval_steps_per_second": 0.88,
     "total_flos": 3.60192752912171e+17,
-    "train_loss": 2.4251912656377574,
-    "train_runtime": 1033.8275,
     "train_samples": 92634,
-    "train_samples_per_second": 14.996,
-    "train_steps_per_second": 0.059
 }

 {
     "epoch": 1.0,
     "total_flos": 3.60192752912171e+17,
+    "train_loss": 2.436295607050911,
+    "train_runtime": 291.8933,
     "train_samples": 92634,
+    "train_samples_per_second": 53.112,
+    "train_steps_per_second": 0.209
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
     "total_flos": 3.60192752912171e+17,
-    "train_loss": 2.4251912656377574,
-    "train_runtime": 1033.8275,
     "train_samples": 92634,
-    "train_samples_per_second": 14.996,
-    "train_steps_per_second": 0.059
 }

 {
     "epoch": 1.0,
     "total_flos": 3.60192752912171e+17,
+    "train_loss": 2.436295607050911,
+    "train_runtime": 291.8933,
     "train_samples": 92634,
+    "train_samples_per_second": 53.112,
+    "train_steps_per_second": 0.209
 }

trainer_state.json CHANGED Viewed

@@ -10,111 +10,111 @@
   "log_history": [
     {
       "epoch": 0.01639344262295082,
-      "grad_norm": 3.5152792930603027,
       "learning_rate": 2.857142857142857e-05,
-      "loss": 3.1061,
       "step": 1
     },
     {
       "epoch": 0.08196721311475409,
-      "grad_norm": 2.2367053031921387,
       "learning_rate": 0.00014285714285714287,
-      "loss": 3.0938,
       "step": 5
     },
     {
       "epoch": 0.16393442622950818,
-      "grad_norm": 0.8790752291679382,
       "learning_rate": 0.00019848077530122083,
-      "loss": 2.925,
       "step": 10
     },
     {
       "epoch": 0.2459016393442623,
-      "grad_norm": 0.8242706656455994,
       "learning_rate": 0.00018936326403234125,
-      "loss": 2.6576,
       "step": 15
     },
     {
       "epoch": 0.32786885245901637,
-      "grad_norm": 0.652793824672699,
       "learning_rate": 0.00017273736415730488,
-      "loss": 2.4658,
       "step": 20
     },
     {
       "epoch": 0.4098360655737705,
-      "grad_norm": 0.5188227891921997,
       "learning_rate": 0.00015000000000000001,
-      "loss": 2.3721,
       "step": 25
     },
     {
       "epoch": 0.4918032786885246,
-      "grad_norm": 0.4388259947299957,
       "learning_rate": 0.00012306158707424403,
-      "loss": 2.3044,
       "step": 30
     },
     {
       "epoch": 0.5737704918032787,
-      "grad_norm": 0.3132685124874115,
       "learning_rate": 9.418551710895243e-05,
-      "loss": 2.2488,
       "step": 35
     },
     {
       "epoch": 0.6557377049180327,
-      "grad_norm": 0.3067067861557007,
       "learning_rate": 6.579798566743314e-05,
-      "loss": 2.2299,
       "step": 40
     },
     {
       "epoch": 0.7377049180327869,
-      "grad_norm": 0.29608020186424255,
       "learning_rate": 4.028414082972141e-05,
-      "loss": 2.2148,
       "step": 45
     },
     {
       "epoch": 0.819672131147541,
-      "grad_norm": 0.2628838121891022,
       "learning_rate": 1.9787680724495617e-05,
-      "loss": 2.2038,
       "step": 50
     },
     {
       "epoch": 0.9016393442622951,
-      "grad_norm": 0.2850213348865509,
       "learning_rate": 6.030737921409169e-06,
-      "loss": 2.212,
       "step": 55
     },
     {
       "epoch": 0.9836065573770492,
-      "grad_norm": 0.27618488669395447,
       "learning_rate": 1.6918417287318245e-07,
-      "loss": 2.2079,
       "step": 60
     },
     {
       "epoch": 1.0,
-      "eval_loss": 2.36434006690979,
-      "eval_runtime": 1.1415,
-      "eval_samples_per_second": 3.504,
-      "eval_steps_per_second": 0.876,
       "step": 61
     },
     {
       "epoch": 1.0,
       "step": 61,
       "total_flos": 3.60192752912171e+17,
-      "train_loss": 2.4251912656377574,
-      "train_runtime": 1033.8275,
-      "train_samples_per_second": 14.996,
-      "train_steps_per_second": 0.059
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.01639344262295082,
+      "grad_norm": 9.396034240722656,
       "learning_rate": 2.857142857142857e-05,
+      "loss": 3.2576,
       "step": 1
     },
     {
       "epoch": 0.08196721311475409,
+      "grad_norm": 7.002080917358398,
       "learning_rate": 0.00014285714285714287,
+      "loss": 3.2192,
       "step": 5
     },
     {
       "epoch": 0.16393442622950818,
+      "grad_norm": 0.9778996706008911,
       "learning_rate": 0.00019848077530122083,
+      "loss": 2.948,
       "step": 10
     },
     {
       "epoch": 0.2459016393442623,
+      "grad_norm": 0.8340317606925964,
       "learning_rate": 0.00018936326403234125,
+      "loss": 2.6706,
       "step": 15
     },
     {
       "epoch": 0.32786885245901637,
+      "grad_norm": 0.6723042130470276,
       "learning_rate": 0.00017273736415730488,
+      "loss": 2.4683,
       "step": 20
     },
     {
       "epoch": 0.4098360655737705,
+      "grad_norm": 0.500697135925293,
       "learning_rate": 0.00015000000000000001,
+      "loss": 2.3682,
       "step": 25
     },
     {
       "epoch": 0.4918032786885246,
+      "grad_norm": 0.43113112449645996,
       "learning_rate": 0.00012306158707424403,
+      "loss": 2.3001,
       "step": 30
     },
     {
       "epoch": 0.5737704918032787,
+      "grad_norm": 0.32319948077201843,
       "learning_rate": 9.418551710895243e-05,
+      "loss": 2.246,
       "step": 35
     },
     {
       "epoch": 0.6557377049180327,
+      "grad_norm": 0.34333205223083496,
       "learning_rate": 6.579798566743314e-05,
+      "loss": 2.2259,
       "step": 40
     },
     {
       "epoch": 0.7377049180327869,
+      "grad_norm": 0.31353285908699036,
       "learning_rate": 4.028414082972141e-05,
+      "loss": 2.2111,
       "step": 45
     },
     {
       "epoch": 0.819672131147541,
+      "grad_norm": 0.2684493064880371,
       "learning_rate": 1.9787680724495617e-05,
+      "loss": 2.1992,
       "step": 50
     },
     {
       "epoch": 0.9016393442622951,
+      "grad_norm": 0.2821851372718811,
       "learning_rate": 6.030737921409169e-06,
+      "loss": 2.2074,
       "step": 55
     },
     {
       "epoch": 0.9836065573770492,
+      "grad_norm": 0.2827270030975342,
       "learning_rate": 1.6918417287318245e-07,
+      "loss": 2.2029,
       "step": 60
     },
     {
       "epoch": 1.0,
+      "eval_loss": 2.3603930473327637,
+      "eval_runtime": 0.7894,
+      "eval_samples_per_second": 5.067,
+      "eval_steps_per_second": 1.267,
       "step": 61
     },
     {
       "epoch": 1.0,
       "step": 61,
       "total_flos": 3.60192752912171e+17,
+      "train_loss": 2.436295607050911,
+      "train_runtime": 291.8933,
+      "train_samples_per_second": 53.112,
+      "train_steps_per_second": 0.209
     }
   ],
   "logging_steps": 5,