Model save

Browse files

Files changed (4) hide show

README.md +2 -2
all_results.json +4 -9
train_results.json +4 -4
trainer_state.json +66 -66

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.3](https://huggingface.co/mistralai/Mistral-7B-v0.3) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.0159
 ## Model description
@@ -57,7 +57,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.3639        | 0.9965 | 142  | 2.0159          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.3](https://huggingface.co/mistralai/Mistral-7B-v0.3) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.0179
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.3624        | 0.9965 | 142  | 2.0179          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
     "epoch": 0.9964912280701754,
-    "eval_loss": 2.01587176322937,
-    "eval_runtime": 1.5311,
-    "eval_samples": 25,
-    "eval_samples_per_second": 15.675,
-    "eval_steps_per_second": 0.653,
     "total_flos": 6.954534912540017e+17,
-    "train_loss": 1.4601248418781119,
-    "train_runtime": 2408.4577,
     "train_samples": 129221,
-    "train_samples_per_second": 13.235,
-    "train_steps_per_second": 0.059
 }

 {
     "epoch": 0.9964912280701754,
     "total_flos": 6.954534912540017e+17,
+    "train_loss": 1.4586160669864063,
+    "train_runtime": 560.2403,
     "train_samples": 129221,
+    "train_samples_per_second": 56.899,
+    "train_steps_per_second": 0.253
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9964912280701754,
     "total_flos": 6.954534912540017e+17,
-    "train_loss": 1.4601248418781119,
-    "train_runtime": 2408.4577,
     "train_samples": 129221,
-    "train_samples_per_second": 13.235,
-    "train_steps_per_second": 0.059
 }

 {
     "epoch": 0.9964912280701754,
     "total_flos": 6.954534912540017e+17,
+    "train_loss": 1.4586160669864063,
+    "train_runtime": 560.2403,
     "train_samples": 129221,
+    "train_samples_per_second": 56.899,
+    "train_steps_per_second": 0.253
 }

trainer_state.json CHANGED Viewed

@@ -10,223 +10,223 @@
   "log_history": [
     {
       "epoch": 0.007017543859649123,
-      "grad_norm": 4.245335102081299,
       "learning_rate": 1.3333333333333333e-05,
-      "loss": 2.0944,
       "step": 1
     },
     {
       "epoch": 0.03508771929824561,
-      "grad_norm": 3.7525720596313477,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 2.0745,
       "step": 5
     },
     {
       "epoch": 0.07017543859649122,
-      "grad_norm": 2.4327211380004883,
       "learning_rate": 0.00013333333333333334,
-      "loss": 1.9452,
       "step": 10
     },
     {
       "epoch": 0.10526315789473684,
-      "grad_norm": 2.3125839233398438,
       "learning_rate": 0.0002,
-      "loss": 1.8137,
       "step": 15
     },
     {
       "epoch": 0.14035087719298245,
-      "grad_norm": 4.225382328033447,
       "learning_rate": 0.00019923607874151032,
-      "loss": 1.6506,
       "step": 20
     },
     {
       "epoch": 0.17543859649122806,
-      "grad_norm": 1.9176355600357056,
       "learning_rate": 0.00019695598647982468,
-      "loss": 1.512,
       "step": 25
     },
     {
       "epoch": 0.21052631578947367,
-      "grad_norm": 1.0350816249847412,
       "learning_rate": 0.00019319455943394347,
-      "loss": 1.4861,
       "step": 30
     },
     {
       "epoch": 0.24561403508771928,
-      "grad_norm": 0.7984347343444824,
       "learning_rate": 0.00018800926628551886,
-      "loss": 1.4497,
       "step": 35
     },
     {
       "epoch": 0.2807017543859649,
-      "grad_norm": 0.894679844379425,
       "learning_rate": 0.00018147933014790244,
-      "loss": 1.4256,
       "step": 40
     },
     {
       "epoch": 0.3157894736842105,
-      "grad_norm": 0.7882960438728333,
       "learning_rate": 0.0001737045181617364,
-      "loss": 1.4192,
       "step": 45
     },
     {
       "epoch": 0.3508771929824561,
-      "grad_norm": 0.8045026063919067,
       "learning_rate": 0.00016480361721016054,
-      "loss": 1.4128,
       "step": 50
     },
     {
       "epoch": 0.38596491228070173,
-      "grad_norm": 0.7174099087715149,
       "learning_rate": 0.00015491261904230727,
-      "loss": 1.4027,
       "step": 55
     },
     {
       "epoch": 0.42105263157894735,
-      "grad_norm": 0.9516172409057617,
       "learning_rate": 0.0001441826425335387,
-      "loss": 1.4043,
       "step": 60
     },
     {
       "epoch": 0.45614035087719296,
-      "grad_norm": 0.871509313583374,
       "learning_rate": 0.00013277762482701767,
-      "loss": 1.3877,
       "step": 65
     },
     {
       "epoch": 0.49122807017543857,
-      "grad_norm": 0.7828186750411987,
       "learning_rate": 0.00012087181663233354,
-      "loss": 1.384,
       "step": 70
     },
     {
       "epoch": 0.5263157894736842,
-      "grad_norm": 0.8469617962837219,
       "learning_rate": 0.00010864711994907458,
-      "loss": 1.3868,
       "step": 75
     },
     {
       "epoch": 0.5614035087719298,
-      "grad_norm": 0.7687762379646301,
       "learning_rate": 9.629030889073949e-05,
-      "loss": 1.3761,
       "step": 80
     },
     {
       "epoch": 0.5964912280701754,
-      "grad_norm": 0.77200847864151,
       "learning_rate": 8.399017607042025e-05,
-      "loss": 1.3697,
       "step": 85
     },
     {
       "epoch": 0.631578947368421,
-      "grad_norm": 0.8314034342765808,
       "learning_rate": 7.193464814699073e-05,
-      "loss": 1.3686,
       "step": 90
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 0.8049700856208801,
       "learning_rate": 6.0307914601711305e-05,
-      "loss": 1.3621,
       "step": 95
     },
     {
       "epoch": 0.7017543859649122,
-      "grad_norm": 0.8274004459381104,
       "learning_rate": 4.928761361302269e-05,
-      "loss": 1.3719,
       "step": 100
     },
     {
       "epoch": 0.7368421052631579,
-      "grad_norm": 0.7905752062797546,
       "learning_rate": 3.904211802492922e-05,
-      "loss": 1.3677,
       "step": 105
     },
     {
       "epoch": 0.7719298245614035,
-      "grad_norm": 0.7010822892189026,
       "learning_rate": 2.9727962875101e-05,
-      "loss": 1.3647,
       "step": 110
     },
     {
       "epoch": 0.8070175438596491,
-      "grad_norm": 0.7270281910896301,
       "learning_rate": 2.1487453786014512e-05,
-      "loss": 1.3591,
       "step": 115
     },
     {
       "epoch": 0.8421052631578947,
-      "grad_norm": 0.770898163318634,
       "learning_rate": 1.4446492759148411e-05,
-      "loss": 1.3728,
       "step": 120
     },
     {
       "epoch": 0.8771929824561403,
-      "grad_norm": 0.7640476822853088,
       "learning_rate": 8.712654590675085e-06,
-      "loss": 1.3588,
       "step": 125
     },
     {
       "epoch": 0.9122807017543859,
-      "grad_norm": 0.7663669586181641,
       "learning_rate": 4.37354329798726e-06,
-      "loss": 1.3641,
       "step": 130
     },
     {
       "epoch": 0.9473684210526315,
-      "grad_norm": 0.7269485592842102,
       "learning_rate": 1.4954536682736719e-06,
-      "loss": 1.3634,
       "step": 135
     },
     {
       "epoch": 0.9824561403508771,
-      "grad_norm": 0.8241817355155945,
       "learning_rate": 1.2235837857387246e-07,
-      "loss": 1.3639,
       "step": 140
     },
     {
       "epoch": 0.9964912280701754,
-      "eval_loss": 2.01587176322937,
-      "eval_runtime": 1.5396,
-      "eval_samples_per_second": 15.588,
-      "eval_steps_per_second": 0.65,
       "step": 142
     },
     {
       "epoch": 0.9964912280701754,
       "step": 142,
       "total_flos": 6.954534912540017e+17,
-      "train_loss": 1.4601248418781119,
-      "train_runtime": 2408.4577,
-      "train_samples_per_second": 13.235,
-      "train_steps_per_second": 0.059
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.007017543859649123,
+      "grad_norm": 4.463099479675293,
       "learning_rate": 1.3333333333333333e-05,
+      "loss": 2.0875,
       "step": 1
     },
     {
       "epoch": 0.03508771929824561,
+      "grad_norm": 3.755190134048462,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 2.0705,
       "step": 5
     },
     {
       "epoch": 0.07017543859649122,
+      "grad_norm": 2.5210607051849365,
       "learning_rate": 0.00013333333333333334,
+      "loss": 1.9436,
       "step": 10
     },
     {
       "epoch": 0.10526315789473684,
+      "grad_norm": 2.3114030361175537,
       "learning_rate": 0.0002,
+      "loss": 1.8117,
       "step": 15
     },
     {
       "epoch": 0.14035087719298245,
+      "grad_norm": 2.0034232139587402,
       "learning_rate": 0.00019923607874151032,
+      "loss": 1.6473,
       "step": 20
     },
     {
       "epoch": 0.17543859649122806,
+      "grad_norm": 1.9196051359176636,
       "learning_rate": 0.00019695598647982468,
+      "loss": 1.5117,
       "step": 25
     },
     {
       "epoch": 0.21052631578947367,
+      "grad_norm": 1.0466196537017822,
       "learning_rate": 0.00019319455943394347,
+      "loss": 1.4862,
       "step": 30
     },
     {
       "epoch": 0.24561403508771928,
+      "grad_norm": 1.0164800882339478,
       "learning_rate": 0.00018800926628551886,
+      "loss": 1.4486,
       "step": 35
     },
     {
       "epoch": 0.2807017543859649,
+      "grad_norm": 0.8062431216239929,
       "learning_rate": 0.00018147933014790244,
+      "loss": 1.4254,
       "step": 40
     },
     {
       "epoch": 0.3157894736842105,
+      "grad_norm": 0.7738965749740601,
       "learning_rate": 0.0001737045181617364,
+      "loss": 1.4183,
       "step": 45
     },
     {
       "epoch": 0.3508771929824561,
+      "grad_norm": 0.8346546292304993,
       "learning_rate": 0.00016480361721016054,
+      "loss": 1.4114,
       "step": 50
     },
     {
       "epoch": 0.38596491228070173,
+      "grad_norm": 0.8058141469955444,
       "learning_rate": 0.00015491261904230727,
+      "loss": 1.4009,
       "step": 55
     },
     {
       "epoch": 0.42105263157894735,
+      "grad_norm": 0.802452564239502,
       "learning_rate": 0.0001441826425335387,
+      "loss": 1.4026,
       "step": 60
     },
     {
       "epoch": 0.45614035087719296,
+      "grad_norm": 0.8057828545570374,
       "learning_rate": 0.00013277762482701767,
+      "loss": 1.3857,
       "step": 65
     },
     {
       "epoch": 0.49122807017543857,
+      "grad_norm": 0.794191837310791,
       "learning_rate": 0.00012087181663233354,
+      "loss": 1.3823,
       "step": 70
     },
     {
       "epoch": 0.5263157894736842,
+      "grad_norm": 0.7871180176734924,
       "learning_rate": 0.00010864711994907458,
+      "loss": 1.3851,
       "step": 75
     },
     {
       "epoch": 0.5614035087719298,
+      "grad_norm": 0.7190406322479248,
       "learning_rate": 9.629030889073949e-05,
+      "loss": 1.3743,
       "step": 80
     },
     {
       "epoch": 0.5964912280701754,
+      "grad_norm": 0.7476623058319092,
       "learning_rate": 8.399017607042025e-05,
+      "loss": 1.3684,
       "step": 85
     },
     {
       "epoch": 0.631578947368421,
+      "grad_norm": 0.8211018443107605,
       "learning_rate": 7.193464814699073e-05,
+      "loss": 1.367,
       "step": 90
     },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 0.824474036693573,
       "learning_rate": 6.0307914601711305e-05,
+      "loss": 1.3609,
       "step": 95
     },
     {
       "epoch": 0.7017543859649122,
+      "grad_norm": 0.7797313928604126,
       "learning_rate": 4.928761361302269e-05,
+      "loss": 1.3703,
       "step": 100
     },
     {
       "epoch": 0.7368421052631579,
+      "grad_norm": 0.8079975247383118,
       "learning_rate": 3.904211802492922e-05,
+      "loss": 1.3666,
       "step": 105
     },
     {
       "epoch": 0.7719298245614035,
+      "grad_norm": 0.701257586479187,
       "learning_rate": 2.9727962875101e-05,
+      "loss": 1.3636,
       "step": 110
     },
     {
       "epoch": 0.8070175438596491,
+      "grad_norm": 0.7054150700569153,
       "learning_rate": 2.1487453786014512e-05,
+      "loss": 1.3577,
       "step": 115
     },
     {
       "epoch": 0.8421052631578947,
+      "grad_norm": 0.7800086736679077,
       "learning_rate": 1.4446492759148411e-05,
+      "loss": 1.3717,
       "step": 120
     },
     {
       "epoch": 0.8771929824561403,
+      "grad_norm": 0.7601162791252136,
       "learning_rate": 8.712654590675085e-06,
+      "loss": 1.3574,
       "step": 125
     },
     {
       "epoch": 0.9122807017543859,
+      "grad_norm": 0.7522596716880798,
       "learning_rate": 4.37354329798726e-06,
+      "loss": 1.3627,
       "step": 130
     },
     {
       "epoch": 0.9473684210526315,
+      "grad_norm": 0.7144069075584412,
       "learning_rate": 1.4954536682736719e-06,
+      "loss": 1.3619,
       "step": 135
     },
     {
       "epoch": 0.9824561403508771,
+      "grad_norm": 0.7889108657836914,
       "learning_rate": 1.2235837857387246e-07,
+      "loss": 1.3624,
       "step": 140
     },
     {
       "epoch": 0.9964912280701754,
+      "eval_loss": 2.0179381370544434,
+      "eval_runtime": 0.6745,
+      "eval_samples_per_second": 35.583,
+      "eval_steps_per_second": 1.483,
       "step": 142
     },
     {
       "epoch": 0.9964912280701754,
       "step": 142,
       "total_flos": 6.954534912540017e+17,
+      "train_loss": 1.4586160669864063,
+      "train_runtime": 560.2403,
+      "train_samples_per_second": 56.899,
+      "train_steps_per_second": 0.253
     }
   ],
   "logging_steps": 5,