Training in progress, step 19200

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +396 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:383875ed49bab0b3a07e77766efb44191fb9f1834ccf4e7c6e4692b925b1a4d5
 size 745634697

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb7d70d52e6f6ba52d1887214633df22322169aae41b2ab9790870f7cc9779d8
 size 745634697

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9161e0e47a64c5b65b5d9cdc06273c036dd388860216eaa3c16c2c8bd9536ef
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:55326f8f5fa73d8cae36ee1024b1ca50073bb54f266592786e9989158b712f06
 size 372832803

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:545fcebd225c2fbcaaae084db32b315ff159bcb9f66f876ced049afa99cb2632
 size 15523

 version https://git-lfs.github.com/spec/v1
+oid sha256:284fe99a435cf0024e2dad7b8f41c11dc1317cc722e9161cea9c17f8c2b38610
 size 15523

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a63c18679f872f561021a84d9bfcd3fad0c807bcef87d1a807b9818f9895c1f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:12a6154fa53f0286557ec7a9b6bf6b9f5b2fb01f4345510fa7b96c5e44005857
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2,
-  "global_step": 12800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -792,11 +792,404 @@
       "eval_samples_per_second": 36.278,
       "eval_steps_per_second": 2.267,
       "step": 12800
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.353967057502208e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3,
+  "global_step": 19200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 36.278,
       "eval_steps_per_second": 2.267,
       "step": 12800
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 7.9998,
+      "step": 12900
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 7.9955,
+      "step": 13000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 8.0036,
+      "step": 13100
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0021,
+      "step": 13200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0031,
+      "step": 13300
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0115,
+      "step": 13400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 7.994,
+      "step": 13500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 8.0121,
+      "step": 13600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.001,
+      "loss": 7.9854,
+      "step": 13700
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 7.9859,
+      "step": 13800
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0162,
+      "step": 13900
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 7.9942,
+      "step": 14000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0182,
+      "step": 14100
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0064,
+      "step": 14200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.001,
+      "loss": 8.0209,
+      "step": 14300
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 7.9981,
+      "step": 14400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 7.988,
+      "step": 14500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 7.9834,
+      "step": 14600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0015,
+      "step": 14700
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 7.9767,
+      "step": 14800
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0057,
+      "step": 14900
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.001,
+      "loss": 8.0191,
+      "step": 15000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 7.9998,
+      "step": 15100
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 7.9991,
+      "step": 15200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0132,
+      "step": 15300
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0015,
+      "step": 15400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0014,
+      "step": 15500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.001,
+      "loss": 8.0031,
+      "step": 15600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 7.9966,
+      "step": 15700
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 7.9944,
+      "step": 15800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 8.0058,
+      "step": 15900
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 7.99,
+      "step": 16000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 7.9863,
+      "step": 16100
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 7.988,
+      "step": 16200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.001,
+      "loss": 7.988,
+      "step": 16300
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.02,
+      "step": 16400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 7.9965,
+      "step": 16500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 7.98,
+      "step": 16600
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.0019,
+      "step": 16700
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 8.0005,
+      "step": 16800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.001,
+      "loss": 7.9963,
+      "step": 16900
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0074,
+      "step": 17000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0089,
+      "step": 17100
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 7.973,
+      "step": 17200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 7.9994,
+      "step": 17300
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 8.0098,
+      "step": 17400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.001,
+      "loss": 7.9892,
+      "step": 17500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0076,
+      "step": 17600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0125,
+      "step": 17700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 8.0044,
+      "step": 17800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 7.9869,
+      "step": 17900
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 7.9981,
+      "step": 18000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 7.9865,
+      "step": 18100
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 7.9937,
+      "step": 18200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 7.9856,
+      "step": 18300
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 7.9883,
+      "step": 18400
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 7.9876,
+      "step": 18500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 8.0041,
+      "step": 18600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 7.9864,
+      "step": 18700
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.001,
+      "loss": 7.966,
+      "step": 18800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 7.9774,
+      "step": 18900
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 8.0118,
+      "step": 19000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 7.9959,
+      "step": 19100
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 7.9961,
+      "step": 19200
+    },
+    {
+      "epoch": 0.3,
+      "eval_accuracy": 0.03346063723302363,
+      "eval_loss": 7.996260643005371,
+      "eval_runtime": 9873.4515,
+      "eval_samples_per_second": 33.206,
+      "eval_steps_per_second": 2.075,
+      "step": 19200
     }
   ],
   "max_steps": 64000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 2.030950586253312e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9161e0e47a64c5b65b5d9cdc06273c036dd388860216eaa3c16c2c8bd9536ef
 size 372832803

 version https://git-lfs.github.com/spec/v1
+oid sha256:55326f8f5fa73d8cae36ee1024b1ca50073bb54f266592786e9989158b712f06
 size 372832803