Training in progress, step 12800

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +396 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eeb147a8b52f2362925faab169fbd56947857b46695d0ad6318718dd8abd09eb
-size 6318359

 version https://git-lfs.github.com/spec/v1
+oid sha256:383875ed49bab0b3a07e77766efb44191fb9f1834ccf4e7c6e4692b925b1a4d5
+size 745634697

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11917ced3abb253bddb97b54dc3bded52162c226089de58b40c05546c838aae2
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9161e0e47a64c5b65b5d9cdc06273c036dd388860216eaa3c16c2c8bd9536ef
 size 372832803

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:402f4fb235771e1a788e3ce5b339b64bdc56a41d7760bbee78cf69d0ca1ad3d3
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:545fcebd225c2fbcaaae084db32b315ff159bcb9f66f876ced049afa99cb2632
 size 15523

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:841a158b0d212253f125ebf1f87bda4797e00292f1d39571b4724f0ab5ed90ad
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a63c18679f872f561021a84d9bfcd3fad0c807bcef87d1a807b9818f9895c1f
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1,
-  "global_step": 6400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -399,11 +399,404 @@
       "eval_samples_per_second": 28.861,
       "eval_steps_per_second": 1.804,
       "step": 6400
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 6.76983528751104e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2,
+  "global_step": 12800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 28.861,
       "eval_steps_per_second": 1.804,
       "step": 6400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.2989,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.0898,
+      "step": 6600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 8.0602,
+      "step": 6700
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0533,
+      "step": 6800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.035,
+      "step": 6900
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0363,
+      "step": 7000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0243,
+      "step": 7100
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0337,
+      "step": 7200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.001,
+      "loss": 8.0223,
+      "step": 7300
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0214,
+      "step": 7400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0214,
+      "step": 7500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0183,
+      "step": 7600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0246,
+      "step": 7700
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0169,
+      "step": 7800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0206,
+      "step": 7900
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.001,
+      "loss": 8.0119,
+      "step": 8000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0098,
+      "step": 8100
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0122,
+      "step": 8200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 7.9969,
+      "step": 8300
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 7.9958,
+      "step": 8400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 8.0233,
+      "step": 8500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.001,
+      "loss": 7.992,
+      "step": 8600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 7.9863,
+      "step": 8700
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0073,
+      "step": 8800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 7.988,
+      "step": 8900
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0064,
+      "step": 9000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0152,
+      "step": 9100
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 8.0111,
+      "step": 9200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 7.9859,
+      "step": 9300
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0041,
+      "step": 9400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0028,
+      "step": 9500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 7.9986,
+      "step": 9600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0031,
+      "step": 9700
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.0014,
+      "step": 9800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.001,
+      "loss": 8.015,
+      "step": 9900
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0085,
+      "step": 10000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 7.9976,
+      "step": 10100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0013,
+      "step": 10200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0002,
+      "step": 10300
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0142,
+      "step": 10400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.001,
+      "loss": 8.0135,
+      "step": 10500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 7.9931,
+      "step": 10600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0043,
+      "step": 10700
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0092,
+      "step": 10800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 7.9803,
+      "step": 10900
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.011,
+      "step": 11000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 7.9887,
+      "step": 11100
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.001,
+      "loss": 8.0008,
+      "step": 11200
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0118,
+      "step": 11300
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 7.9928,
+      "step": 11400
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0043,
+      "step": 11500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 7.9995,
+      "step": 11600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0006,
+      "step": 11700
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.001,
+      "loss": 8.0017,
+      "step": 11800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 7.9999,
+      "step": 11900
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0084,
+      "step": 12000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 7.9976,
+      "step": 12100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 7.9833,
+      "step": 12200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0164,
+      "step": 12300
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.001,
+      "loss": 8.0209,
+      "step": 12400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0044,
+      "step": 12500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0032,
+      "step": 12600
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0112,
+      "step": 12700
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0055,
+      "step": 12800
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.034224256973106555,
+      "eval_loss": 7.999633312225342,
+      "eval_runtime": 9037.3044,
+      "eval_samples_per_second": 36.278,
+      "eval_steps_per_second": 2.267,
+      "step": 12800
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.353967057502208e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11917ced3abb253bddb97b54dc3bded52162c226089de58b40c05546c838aae2
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9161e0e47a64c5b65b5d9cdc06273c036dd388860216eaa3c16c2c8bd9536ef
 size 372832803