Add checkpoint at step 3800

Browse files

Files changed (14) hide show

checkpoints/checkpoint-step-3800/config.json +39 -0
checkpoints/checkpoint-step-3800/generation_config.json +9 -0
checkpoints/checkpoint-step-3800/merges.txt +0 -0
checkpoints/checkpoint-step-3800/model.safetensors +3 -0
checkpoints/checkpoint-step-3800/optimizer.pt +3 -0
checkpoints/checkpoint-step-3800/rng_state.pth +3 -0
checkpoints/checkpoint-step-3800/scaler.pt +3 -0
checkpoints/checkpoint-step-3800/scheduler.pt +3 -0
checkpoints/checkpoint-step-3800/special_tokens_map.json +12 -0
checkpoints/checkpoint-step-3800/tokenizer.json +0 -0
checkpoints/checkpoint-step-3800/tokenizer_config.json +21 -0
checkpoints/checkpoint-step-3800/trainer_state.json +718 -0
checkpoints/checkpoint-step-3800/training_args.bin +3 -0
checkpoints/checkpoint-step-3800/vocab.json +0 -0

checkpoints/checkpoint-step-3800/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoints/checkpoint-step-3800/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": [
+    50256
+  ],
+  "pad_token_id": 50256,
+  "transformers_version": "4.56.1"
+}

checkpoints/checkpoint-step-3800/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-step-3800/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:422a2721f583adeb4fcd526a221351b2a934adba9a1ef6d7c71252d180754284
+size 497774208

checkpoints/checkpoint-step-3800/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8deac502a961c15fd488b5fded73368d93661e7246b1721fbe8a7ba49e0f5cdf
+size 995644811

checkpoints/checkpoint-step-3800/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a621cb270f2b965f728cbab5d5078e1f0c88507cdf0f7b599a7f43d4fea470b
+size 14645

checkpoints/checkpoint-step-3800/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8190bf4320db3ed8a3c941c3e905b8c663d78f90b5f6779890d8de842b74eee
+size 1383

checkpoints/checkpoint-step-3800/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2de1834892de2e93c62657a6533cbdcde4cd4cdb55324be7ef696f2acab4f51e
+size 1465

checkpoints/checkpoint-step-3800/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": "<|endoftext|>"
+}

checkpoints/checkpoint-step-3800/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-step-3800/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/checkpoint-step-3800/trainer_state.json ADDED Viewed

	@@ -0,0 +1,718 @@

+{
+  "best_global_step": 3800,
+  "best_metric": 0.03279593959450722,
+  "best_model_checkpoint": "checkpoints/checkpoint-3800",
+  "epoch": 1.034013605442177,
+  "eval_steps": 200,
+  "global_step": 3800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013605442176870748,
+      "grad_norm": 4.6472649574279785,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 2.8759,
+      "step": 50
+    },
+    {
+      "epoch": 0.027210884353741496,
+      "grad_norm": 3.089015245437622,
+      "learning_rate": 9.900000000000002e-06,
+      "loss": 1.7949,
+      "step": 100
+    },
+    {
+      "epoch": 0.04081632653061224,
+      "grad_norm": 2.3650102615356445,
+      "learning_rate": 1.49e-05,
+      "loss": 0.6938,
+      "step": 150
+    },
+    {
+      "epoch": 0.05442176870748299,
+      "grad_norm": 1.4423813819885254,
+      "learning_rate": 1.9900000000000003e-05,
+      "loss": 0.2987,
+      "step": 200
+    },
+    {
+      "epoch": 0.05442176870748299,
+      "eval_loss": 0.18158380687236786,
+      "eval_runtime": 10.2028,
+      "eval_samples_per_second": 58.808,
+      "eval_steps_per_second": 7.351,
+      "step": 200
+    },
+    {
+      "epoch": 0.06802721088435375,
+      "grad_norm": 0.9667473435401917,
+      "learning_rate": 2.4900000000000002e-05,
+      "loss": 0.2009,
+      "step": 250
+    },
+    {
+      "epoch": 0.08163265306122448,
+      "grad_norm": 1.2099648714065552,
+      "learning_rate": 2.9900000000000002e-05,
+      "loss": 0.1613,
+      "step": 300
+    },
+    {
+      "epoch": 0.09523809523809523,
+      "grad_norm": 1.036044955253601,
+      "learning_rate": 3.49e-05,
+      "loss": 0.1397,
+      "step": 350
+    },
+    {
+      "epoch": 0.10884353741496598,
+      "grad_norm": 0.7627539038658142,
+      "learning_rate": 3.99e-05,
+      "loss": 0.1236,
+      "step": 400
+    },
+    {
+      "epoch": 0.10884353741496598,
+      "eval_loss": 0.09973898530006409,
+      "eval_runtime": 10.2069,
+      "eval_samples_per_second": 58.784,
+      "eval_steps_per_second": 7.348,
+      "step": 400
+    },
+    {
+      "epoch": 0.12244897959183673,
+      "grad_norm": 1.1398504972457886,
+      "learning_rate": 4.49e-05,
+      "loss": 0.1149,
+      "step": 450
+    },
+    {
+      "epoch": 0.1360544217687075,
+      "grad_norm": 0.7201138734817505,
+      "learning_rate": 4.99e-05,
+      "loss": 0.1004,
+      "step": 500
+    },
+    {
+      "epoch": 0.14965986394557823,
+      "grad_norm": 0.6430326700210571,
+      "learning_rate": 4.9642335766423356e-05,
+      "loss": 0.0926,
+      "step": 550
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": 0.8617527484893799,
+      "learning_rate": 4.9277372262773724e-05,
+      "loss": 0.0876,
+      "step": 600
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "eval_loss": 0.06922342628240585,
+      "eval_runtime": 10.155,
+      "eval_samples_per_second": 59.084,
+      "eval_steps_per_second": 7.386,
+      "step": 600
+    },
+    {
+      "epoch": 0.17687074829931973,
+      "grad_norm": 0.7790252566337585,
+      "learning_rate": 4.891240875912409e-05,
+      "loss": 0.0813,
+      "step": 650
+    },
+    {
+      "epoch": 0.19047619047619047,
+      "grad_norm": 0.6242516040802002,
+      "learning_rate": 4.854744525547445e-05,
+      "loss": 0.0778,
+      "step": 700
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 0.5622245073318481,
+      "learning_rate": 4.818248175182482e-05,
+      "loss": 0.0733,
+      "step": 750
+    },
+    {
+      "epoch": 0.21768707482993196,
+      "grad_norm": 0.6843573451042175,
+      "learning_rate": 4.781751824817519e-05,
+      "loss": 0.0703,
+      "step": 800
+    },
+    {
+      "epoch": 0.21768707482993196,
+      "eval_loss": 0.055413372814655304,
+      "eval_runtime": 10.1991,
+      "eval_samples_per_second": 58.829,
+      "eval_steps_per_second": 7.354,
+      "step": 800
+    },
+    {
+      "epoch": 0.23129251700680273,
+      "grad_norm": 0.611773669719696,
+      "learning_rate": 4.745255474452555e-05,
+      "loss": 0.0668,
+      "step": 850
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 0.622644305229187,
+      "learning_rate": 4.708759124087592e-05,
+      "loss": 0.0649,
+      "step": 900
+    },
+    {
+      "epoch": 0.2585034013605442,
+      "grad_norm": 0.4426730275154114,
+      "learning_rate": 4.6722627737226286e-05,
+      "loss": 0.0637,
+      "step": 950
+    },
+    {
+      "epoch": 0.272108843537415,
+      "grad_norm": 0.8717305660247803,
+      "learning_rate": 4.635766423357664e-05,
+      "loss": 0.0601,
+      "step": 1000
+    },
+    {
+      "epoch": 0.272108843537415,
+      "eval_loss": 0.05313626304268837,
+      "eval_runtime": 10.1979,
+      "eval_samples_per_second": 58.836,
+      "eval_steps_per_second": 7.354,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.5126848220825195,
+      "learning_rate": 4.599270072992701e-05,
+      "loss": 0.0578,
+      "step": 1050
+    },
+    {
+      "epoch": 0.29931972789115646,
+      "grad_norm": 0.5319710373878479,
+      "learning_rate": 4.5627737226277376e-05,
+      "loss": 0.0574,
+      "step": 1100
+    },
+    {
+      "epoch": 0.3129251700680272,
+      "grad_norm": 0.7722771167755127,
+      "learning_rate": 4.526277372262774e-05,
+      "loss": 0.0564,
+      "step": 1150
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.4977850317955017,
+      "learning_rate": 4.4897810218978105e-05,
+      "loss": 0.0553,
+      "step": 1200
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "eval_loss": 0.0452888123691082,
+      "eval_runtime": 10.1684,
+      "eval_samples_per_second": 59.006,
+      "eval_steps_per_second": 7.376,
+      "step": 1200
+    },
+    {
+      "epoch": 0.3401360544217687,
+      "grad_norm": 0.5616284608840942,
+      "learning_rate": 4.4532846715328466e-05,
+      "loss": 0.0529,
+      "step": 1250
+    },
+    {
+      "epoch": 0.35374149659863946,
+      "grad_norm": 0.41897886991500854,
+      "learning_rate": 4.4167883211678834e-05,
+      "loss": 0.0527,
+      "step": 1300
+    },
+    {
+      "epoch": 0.3673469387755102,
+      "grad_norm": 0.526966392993927,
+      "learning_rate": 4.38029197080292e-05,
+      "loss": 0.0518,
+      "step": 1350
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.7886810898780823,
+      "learning_rate": 4.343795620437956e-05,
+      "loss": 0.0514,
+      "step": 1400
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "eval_loss": 0.042705778032541275,
+      "eval_runtime": 10.1958,
+      "eval_samples_per_second": 58.848,
+      "eval_steps_per_second": 7.356,
+      "step": 1400
+    },
+    {
+      "epoch": 0.3945578231292517,
+      "grad_norm": 0.38092342019081116,
+      "learning_rate": 4.307299270072993e-05,
+      "loss": 0.0507,
+      "step": 1450
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.47930657863616943,
+      "learning_rate": 4.27080291970803e-05,
+      "loss": 0.0517,
+      "step": 1500
+    },
+    {
+      "epoch": 0.4217687074829932,
+      "grad_norm": 0.529920220375061,
+      "learning_rate": 4.234306569343066e-05,
+      "loss": 0.0494,
+      "step": 1550
+    },
+    {
+      "epoch": 0.43537414965986393,
+      "grad_norm": 0.5892526507377625,
+      "learning_rate": 4.197810218978102e-05,
+      "loss": 0.0473,
+      "step": 1600
+    },
+    {
+      "epoch": 0.43537414965986393,
+      "eval_loss": 0.04030081257224083,
+      "eval_runtime": 10.1867,
+      "eval_samples_per_second": 58.9,
+      "eval_steps_per_second": 7.363,
+      "step": 1600
+    },
+    {
+      "epoch": 0.4489795918367347,
+      "grad_norm": 0.8671649098396301,
+      "learning_rate": 4.161313868613139e-05,
+      "loss": 0.047,
+      "step": 1650
+    },
+    {
+      "epoch": 0.46258503401360546,
+      "grad_norm": 0.6588522791862488,
+      "learning_rate": 4.124817518248175e-05,
+      "loss": 0.0481,
+      "step": 1700
+    },
+    {
+      "epoch": 0.47619047619047616,
+      "grad_norm": 0.502729594707489,
+      "learning_rate": 4.088321167883212e-05,
+      "loss": 0.0456,
+      "step": 1750
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "grad_norm": 0.5965167284011841,
+      "learning_rate": 4.0518248175182486e-05,
+      "loss": 0.0463,
+      "step": 1800
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "eval_loss": 0.040413301438093185,
+      "eval_runtime": 10.2208,
+      "eval_samples_per_second": 58.704,
+      "eval_steps_per_second": 7.338,
+      "step": 1800
+    },
+    {
+      "epoch": 0.5034013605442177,
+      "grad_norm": 0.38793548941612244,
+      "learning_rate": 4.015328467153285e-05,
+      "loss": 0.0451,
+      "step": 1850
+    },
+    {
+      "epoch": 0.5170068027210885,
+      "grad_norm": 0.3949367105960846,
+      "learning_rate": 3.9788321167883215e-05,
+      "loss": 0.0468,
+      "step": 1900
+    },
+    {
+      "epoch": 0.5306122448979592,
+      "grad_norm": 0.5778154134750366,
+      "learning_rate": 3.9423357664233576e-05,
+      "loss": 0.0454,
+      "step": 1950
+    },
+    {
+      "epoch": 0.54421768707483,
+      "grad_norm": 0.3722288906574249,
+      "learning_rate": 3.9058394160583944e-05,
+      "loss": 0.0461,
+      "step": 2000
+    },
+    {
+      "epoch": 0.54421768707483,
+      "eval_loss": 0.03860794007778168,
+      "eval_runtime": 10.1795,
+      "eval_samples_per_second": 58.942,
+      "eval_steps_per_second": 7.368,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5578231292517006,
+      "grad_norm": 0.5253990292549133,
+      "learning_rate": 3.869343065693431e-05,
+      "loss": 0.0445,
+      "step": 2050
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.41715025901794434,
+      "learning_rate": 3.832846715328467e-05,
+      "loss": 0.042,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5850340136054422,
+      "grad_norm": 0.567323625087738,
+      "learning_rate": 3.796350364963504e-05,
+      "loss": 0.0423,
+      "step": 2150
+    },
+    {
+      "epoch": 0.5986394557823129,
+      "grad_norm": 0.6290739178657532,
+      "learning_rate": 3.759854014598541e-05,
+      "loss": 0.0428,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5986394557823129,
+      "eval_loss": 0.037571050226688385,
+      "eval_runtime": 10.1846,
+      "eval_samples_per_second": 58.913,
+      "eval_steps_per_second": 7.364,
+      "step": 2200
+    },
+    {
+      "epoch": 0.6122448979591837,
+      "grad_norm": 0.40591228008270264,
+      "learning_rate": 3.723357664233576e-05,
+      "loss": 0.043,
+      "step": 2250
+    },
+    {
+      "epoch": 0.6258503401360545,
+      "grad_norm": 0.45446255803108215,
+      "learning_rate": 3.686861313868613e-05,
+      "loss": 0.0423,
+      "step": 2300
+    },
+    {
+      "epoch": 0.6394557823129252,
+      "grad_norm": 0.41105887293815613,
+      "learning_rate": 3.65036496350365e-05,
+      "loss": 0.0413,
+      "step": 2350
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.4538460671901703,
+      "learning_rate": 3.613868613138686e-05,
+      "loss": 0.0428,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "eval_loss": 0.036736100912094116,
+      "eval_runtime": 10.1735,
+      "eval_samples_per_second": 58.977,
+      "eval_steps_per_second": 7.372,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.42337286472320557,
+      "learning_rate": 3.577372262773723e-05,
+      "loss": 0.0406,
+      "step": 2450
+    },
+    {
+      "epoch": 0.6802721088435374,
+      "grad_norm": 0.3924243450164795,
+      "learning_rate": 3.5408759124087596e-05,
+      "loss": 0.0412,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6938775510204082,
+      "grad_norm": 0.3243819773197174,
+      "learning_rate": 3.504379562043796e-05,
+      "loss": 0.0416,
+      "step": 2550
+    },
+    {
+      "epoch": 0.7074829931972789,
+      "grad_norm": 0.3431473970413208,
+      "learning_rate": 3.4678832116788325e-05,
+      "loss": 0.0395,
+      "step": 2600
+    },
+    {
+      "epoch": 0.7074829931972789,
+      "eval_loss": 0.035297442227602005,
+      "eval_runtime": 10.181,
+      "eval_samples_per_second": 58.933,
+      "eval_steps_per_second": 7.367,
+      "step": 2600
+    },
+    {
+      "epoch": 0.7210884353741497,
+      "grad_norm": 0.4607592821121216,
+      "learning_rate": 3.4313868613138686e-05,
+      "loss": 0.0392,
+      "step": 2650
+    },
+    {
+      "epoch": 0.7346938775510204,
+      "grad_norm": 0.5089300870895386,
+      "learning_rate": 3.3948905109489054e-05,
+      "loss": 0.0409,
+      "step": 2700
+    },
+    {
+      "epoch": 0.7482993197278912,
+      "grad_norm": 0.42247381806373596,
+      "learning_rate": 3.358394160583942e-05,
+      "loss": 0.041,
+      "step": 2750
+    },
+    {
+      "epoch": 0.7619047619047619,
+      "grad_norm": 0.5103944540023804,
+      "learning_rate": 3.321897810218978e-05,
+      "loss": 0.0396,
+      "step": 2800
+    },
+    {
+      "epoch": 0.7619047619047619,
+      "eval_loss": 0.03508320823311806,
+      "eval_runtime": 10.1991,
+      "eval_samples_per_second": 58.829,
+      "eval_steps_per_second": 7.354,
+      "step": 2800
+    },
+    {
+      "epoch": 0.7755102040816326,
+      "grad_norm": 0.4671725928783417,
+      "learning_rate": 3.2854014598540144e-05,
+      "loss": 0.0401,
+      "step": 2850
+    },
+    {
+      "epoch": 0.7891156462585034,
+      "grad_norm": 0.39482733607292175,
+      "learning_rate": 3.248905109489051e-05,
+      "loss": 0.0413,
+      "step": 2900
+    },
+    {
+      "epoch": 0.8027210884353742,
+      "grad_norm": 0.6017800569534302,
+      "learning_rate": 3.212408759124087e-05,
+      "loss": 0.039,
+      "step": 2950
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 0.3402301073074341,
+      "learning_rate": 3.175912408759124e-05,
+      "loss": 0.0388,
+      "step": 3000
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.03466026484966278,
+      "eval_runtime": 10.1801,
+      "eval_samples_per_second": 58.938,
+      "eval_steps_per_second": 7.367,
+      "step": 3000
+    },
+    {
+      "epoch": 0.8299319727891157,
+      "grad_norm": 0.31006762385368347,
+      "learning_rate": 3.139416058394161e-05,
+      "loss": 0.0372,
+      "step": 3050
+    },
+    {
+      "epoch": 0.8435374149659864,
+      "grad_norm": 0.6701622605323792,
+      "learning_rate": 3.102919708029197e-05,
+      "loss": 0.0393,
+      "step": 3100
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.398631751537323,
+      "learning_rate": 3.066423357664234e-05,
+      "loss": 0.0396,
+      "step": 3150
+    },
+    {
+      "epoch": 0.8707482993197279,
+      "grad_norm": 0.3951578140258789,
+      "learning_rate": 3.0299270072992703e-05,
+      "loss": 0.0383,
+      "step": 3200
+    },
+    {
+      "epoch": 0.8707482993197279,
+      "eval_loss": 0.03498370572924614,
+      "eval_runtime": 10.1869,
+      "eval_samples_per_second": 58.899,
+      "eval_steps_per_second": 7.362,
+      "step": 3200
+    },
+    {
+      "epoch": 0.8843537414965986,
+      "grad_norm": 0.45307376980781555,
+      "learning_rate": 2.9934306569343067e-05,
+      "loss": 0.039,
+      "step": 3250
+    },
+    {
+      "epoch": 0.8979591836734694,
+      "grad_norm": 0.46504005789756775,
+      "learning_rate": 2.9569343065693432e-05,
+      "loss": 0.0372,
+      "step": 3300
+    },
+    {
+      "epoch": 0.9115646258503401,
+      "grad_norm": 0.3962818682193756,
+      "learning_rate": 2.92043795620438e-05,
+      "loss": 0.0388,
+      "step": 3350
+    },
+    {
+      "epoch": 0.9251700680272109,
+      "grad_norm": 0.5040358901023865,
+      "learning_rate": 2.8839416058394164e-05,
+      "loss": 0.038,
+      "step": 3400
+    },
+    {
+      "epoch": 0.9251700680272109,
+      "eval_loss": 0.03590795397758484,
+      "eval_runtime": 10.1999,
+      "eval_samples_per_second": 58.824,
+      "eval_steps_per_second": 7.353,
+      "step": 3400
+    },
+    {
+      "epoch": 0.9387755102040817,
+      "grad_norm": 0.8045864701271057,
+      "learning_rate": 2.847445255474453e-05,
+      "loss": 0.0364,
+      "step": 3450
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.9472477436065674,
+      "learning_rate": 2.810948905109489e-05,
+      "loss": 0.0365,
+      "step": 3500
+    },
+    {
+      "epoch": 0.9659863945578231,
+      "grad_norm": 0.5935471057891846,
+      "learning_rate": 2.7744525547445254e-05,
+      "loss": 0.0358,
+      "step": 3550
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.42011234164237976,
+      "learning_rate": 2.737956204379562e-05,
+      "loss": 0.0371,
+      "step": 3600
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "eval_loss": 0.034322191029787064,
+      "eval_runtime": 10.2002,
+      "eval_samples_per_second": 58.823,
+      "eval_steps_per_second": 7.353,
+      "step": 3600
+    },
+    {
+      "epoch": 0.9931972789115646,
+      "grad_norm": 0.757950484752655,
+      "learning_rate": 2.7014598540145987e-05,
+      "loss": 0.0367,
+      "step": 3650
+    },
+    {
+      "epoch": 1.0068027210884354,
+      "grad_norm": 0.37888622283935547,
+      "learning_rate": 2.664963503649635e-05,
+      "loss": 0.0376,
+      "step": 3700
+    },
+    {
+      "epoch": 1.0204081632653061,
+      "grad_norm": 0.4423586428165436,
+      "learning_rate": 2.6284671532846716e-05,
+      "loss": 0.0363,
+      "step": 3750
+    },
+    {
+      "epoch": 1.034013605442177,
+      "grad_norm": 0.526573896408081,
+      "learning_rate": 2.591970802919708e-05,
+      "loss": 0.0364,
+      "step": 3800
+    },
+    {
+      "epoch": 1.034013605442177,
+      "eval_loss": 0.03279593959450722,
+      "eval_runtime": 10.1819,
+      "eval_samples_per_second": 58.928,
+      "eval_steps_per_second": 7.366,
+      "step": 3800
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 7350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.58865555456e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-step-3800/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65f11e00edb82d09a337df334551a2d5eac2eb0f7f94aaa44d3be5e86cc7a7
+size 5777

checkpoints/checkpoint-step-3800/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff