Training in progress, step 12800

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +396 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3534b21a9d71b06b546ecc6ba241087afa924d79943ae4cb2e5b919101580a6
-size 6318359

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f77e87a0cf433d10838fb68e0ab0a000fe769bd6530dd014fc549fab4e8769
+size 745634697

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e210335ae54f28517a7a0c91ac6bca45b40e0d16b5ed6c70d7f1bdfd3bb21c47
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:e369ec99ab61a02ee5a324cbae60bfddfa49210663a3dc92314e7fd8027b7e1c
 size 372832803

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:402f4fb235771e1a788e3ce5b339b64bdc56a41d7760bbee78cf69d0ca1ad3d3
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:545fcebd225c2fbcaaae084db32b315ff159bcb9f66f876ced049afa99cb2632
 size 15523

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:841a158b0d212253f125ebf1f87bda4797e00292f1d39571b4724f0ab5ed90ad
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a63c18679f872f561021a84d9bfcd3fad0c807bcef87d1a807b9818f9895c1f
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1,
-  "global_step": 6400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -399,11 +399,404 @@
       "eval_samples_per_second": 22.53,
       "eval_steps_per_second": 1.408,
       "step": 6400
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 6.76983528751104e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2,
+  "global_step": 12800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.53,
       "eval_steps_per_second": 1.408,
       "step": 6400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.3018,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.0897,
+      "step": 6600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.0611,
+      "step": 6700
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0538,
+      "step": 6800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0351,
+      "step": 6900
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0364,
+      "step": 7000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0244,
+      "step": 7100
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0338,
+      "step": 7200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0224,
+      "step": 7300
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0215,
+      "step": 7400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0214,
+      "step": 7500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0183,
+      "step": 7600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0246,
+      "step": 7700
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0169,
+      "step": 7800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0206,
+      "step": 7900
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.012,
+      "step": 8000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0098,
+      "step": 8100
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0122,
+      "step": 8200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 7.997,
+      "step": 8300
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 7.9958,
+      "step": 8400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0232,
+      "step": 8500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 7.9921,
+      "step": 8600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 7.9862,
+      "step": 8700
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0073,
+      "step": 8800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 7.9879,
+      "step": 8900
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0064,
+      "step": 9000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0153,
+      "step": 9100
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0111,
+      "step": 9200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 7.986,
+      "step": 9300
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0042,
+      "step": 9400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0028,
+      "step": 9500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 7.9986,
+      "step": 9600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0031,
+      "step": 9700
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0015,
+      "step": 9800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.015,
+      "step": 9900
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0086,
+      "step": 10000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 7.9976,
+      "step": 10100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0013,
+      "step": 10200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0002,
+      "step": 10300
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0142,
+      "step": 10400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0136,
+      "step": 10500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 7.9931,
+      "step": 10600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0043,
+      "step": 10700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0092,
+      "step": 10800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 7.9803,
+      "step": 10900
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.011,
+      "step": 11000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 7.9888,
+      "step": 11100
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0009,
+      "step": 11200
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0118,
+      "step": 11300
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 7.9928,
+      "step": 11400
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0043,
+      "step": 11500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 7.9995,
+      "step": 11600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0006,
+      "step": 11700
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0018,
+      "step": 11800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 7.9999,
+      "step": 11900
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0084,
+      "step": 12000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 7.9975,
+      "step": 12100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 7.9834,
+      "step": 12200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0164,
+      "step": 12300
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0209,
+      "step": 12400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0044,
+      "step": 12500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0032,
+      "step": 12600
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0112,
+      "step": 12700
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0055,
+      "step": 12800
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.034224256973106555,
+      "eval_loss": 7.999759674072266,
+      "eval_runtime": 14321.7563,
+      "eval_samples_per_second": 22.892,
+      "eval_steps_per_second": 1.431,
+      "step": 12800
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.353967057502208e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e210335ae54f28517a7a0c91ac6bca45b40e0d16b5ed6c70d7f1bdfd3bb21c47
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:e369ec99ab61a02ee5a324cbae60bfddfa49210663a3dc92314e7fd8027b7e1c
 size 372832803