Add checkpoint at step 7000

Browse files

Files changed (14) hide show

checkpoints/checkpoint-step-7000/config.json +39 -0
checkpoints/checkpoint-step-7000/generation_config.json +9 -0
checkpoints/checkpoint-step-7000/merges.txt +0 -0
checkpoints/checkpoint-step-7000/model.safetensors +3 -0
checkpoints/checkpoint-step-7000/optimizer.pt +3 -0
checkpoints/checkpoint-step-7000/rng_state.pth +3 -0
checkpoints/checkpoint-step-7000/scaler.pt +3 -0
checkpoints/checkpoint-step-7000/scheduler.pt +3 -0
checkpoints/checkpoint-step-7000/special_tokens_map.json +12 -0
checkpoints/checkpoint-step-7000/tokenizer.json +0 -0
checkpoints/checkpoint-step-7000/tokenizer_config.json +21 -0
checkpoints/checkpoint-step-7000/trainer_state.json +1294 -0
checkpoints/checkpoint-step-7000/training_args.bin +3 -0
checkpoints/checkpoint-step-7000/vocab.json +0 -0

checkpoints/checkpoint-step-7000/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "transformers_version": "4.56.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoints/checkpoint-step-7000/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": [
+    50256
+  ],
+  "pad_token_id": 50256,
+  "transformers_version": "4.56.1"
+}

checkpoints/checkpoint-step-7000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-step-7000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:784db0bf710b7d2f5d21db4bd60e429a12dc79d0c719e202a19c550528b87388
+size 497774208

checkpoints/checkpoint-step-7000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e014ded9d6c452586406e663e6e8d5de9894ed6a94b32a9d69f78f025778dc8
+size 995644811

checkpoints/checkpoint-step-7000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16466d0333028c482007aea45193f9e1865b181a1c01becd71015d19745e9d94
+size 14645

checkpoints/checkpoint-step-7000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a68ceae7165f4c88c8c4809f6ef958049408efc4229565cd13a1f7800728538
+size 1383

checkpoints/checkpoint-step-7000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a19aa3c3e9956335a914b5072c3c48bed5d0544441ba0da1a5c689d79593efb
+size 1465

checkpoints/checkpoint-step-7000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": "<|endoftext|>"
+}

checkpoints/checkpoint-step-7000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/checkpoint-step-7000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoints/checkpoint-step-7000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1294 @@

+{
+  "best_global_step": 6800,
+  "best_metric": 0.029951954260468483,
+  "best_model_checkpoint": "checkpoints/checkpoint-6800",
+  "epoch": 1.9047619047619047,
+  "eval_steps": 200,
+  "global_step": 7000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013605442176870748,
+      "grad_norm": 4.6472649574279785,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 2.8759,
+      "step": 50
+    },
+    {
+      "epoch": 0.027210884353741496,
+      "grad_norm": 3.089015245437622,
+      "learning_rate": 9.900000000000002e-06,
+      "loss": 1.7949,
+      "step": 100
+    },
+    {
+      "epoch": 0.04081632653061224,
+      "grad_norm": 2.3650102615356445,
+      "learning_rate": 1.49e-05,
+      "loss": 0.6938,
+      "step": 150
+    },
+    {
+      "epoch": 0.05442176870748299,
+      "grad_norm": 1.4423813819885254,
+      "learning_rate": 1.9900000000000003e-05,
+      "loss": 0.2987,
+      "step": 200
+    },
+    {
+      "epoch": 0.05442176870748299,
+      "eval_loss": 0.18158380687236786,
+      "eval_runtime": 10.2028,
+      "eval_samples_per_second": 58.808,
+      "eval_steps_per_second": 7.351,
+      "step": 200
+    },
+    {
+      "epoch": 0.06802721088435375,
+      "grad_norm": 0.9667473435401917,
+      "learning_rate": 2.4900000000000002e-05,
+      "loss": 0.2009,
+      "step": 250
+    },
+    {
+      "epoch": 0.08163265306122448,
+      "grad_norm": 1.2099648714065552,
+      "learning_rate": 2.9900000000000002e-05,
+      "loss": 0.1613,
+      "step": 300
+    },
+    {
+      "epoch": 0.09523809523809523,
+      "grad_norm": 1.036044955253601,
+      "learning_rate": 3.49e-05,
+      "loss": 0.1397,
+      "step": 350
+    },
+    {
+      "epoch": 0.10884353741496598,
+      "grad_norm": 0.7627539038658142,
+      "learning_rate": 3.99e-05,
+      "loss": 0.1236,
+      "step": 400
+    },
+    {
+      "epoch": 0.10884353741496598,
+      "eval_loss": 0.09973898530006409,
+      "eval_runtime": 10.2069,
+      "eval_samples_per_second": 58.784,
+      "eval_steps_per_second": 7.348,
+      "step": 400
+    },
+    {
+      "epoch": 0.12244897959183673,
+      "grad_norm": 1.1398504972457886,
+      "learning_rate": 4.49e-05,
+      "loss": 0.1149,
+      "step": 450
+    },
+    {
+      "epoch": 0.1360544217687075,
+      "grad_norm": 0.7201138734817505,
+      "learning_rate": 4.99e-05,
+      "loss": 0.1004,
+      "step": 500
+    },
+    {
+      "epoch": 0.14965986394557823,
+      "grad_norm": 0.6430326700210571,
+      "learning_rate": 4.9642335766423356e-05,
+      "loss": 0.0926,
+      "step": 550
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "grad_norm": 0.8617527484893799,
+      "learning_rate": 4.9277372262773724e-05,
+      "loss": 0.0876,
+      "step": 600
+    },
+    {
+      "epoch": 0.16326530612244897,
+      "eval_loss": 0.06922342628240585,
+      "eval_runtime": 10.155,
+      "eval_samples_per_second": 59.084,
+      "eval_steps_per_second": 7.386,
+      "step": 600
+    },
+    {
+      "epoch": 0.17687074829931973,
+      "grad_norm": 0.7790252566337585,
+      "learning_rate": 4.891240875912409e-05,
+      "loss": 0.0813,
+      "step": 650
+    },
+    {
+      "epoch": 0.19047619047619047,
+      "grad_norm": 0.6242516040802002,
+      "learning_rate": 4.854744525547445e-05,
+      "loss": 0.0778,
+      "step": 700
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 0.5622245073318481,
+      "learning_rate": 4.818248175182482e-05,
+      "loss": 0.0733,
+      "step": 750
+    },
+    {
+      "epoch": 0.21768707482993196,
+      "grad_norm": 0.6843573451042175,
+      "learning_rate": 4.781751824817519e-05,
+      "loss": 0.0703,
+      "step": 800
+    },
+    {
+      "epoch": 0.21768707482993196,
+      "eval_loss": 0.055413372814655304,
+      "eval_runtime": 10.1991,
+      "eval_samples_per_second": 58.829,
+      "eval_steps_per_second": 7.354,
+      "step": 800
+    },
+    {
+      "epoch": 0.23129251700680273,
+      "grad_norm": 0.611773669719696,
+      "learning_rate": 4.745255474452555e-05,
+      "loss": 0.0668,
+      "step": 850
+    },
+    {
+      "epoch": 0.24489795918367346,
+      "grad_norm": 0.622644305229187,
+      "learning_rate": 4.708759124087592e-05,
+      "loss": 0.0649,
+      "step": 900
+    },
+    {
+      "epoch": 0.2585034013605442,
+      "grad_norm": 0.4426730275154114,
+      "learning_rate": 4.6722627737226286e-05,
+      "loss": 0.0637,
+      "step": 950
+    },
+    {
+      "epoch": 0.272108843537415,
+      "grad_norm": 0.8717305660247803,
+      "learning_rate": 4.635766423357664e-05,
+      "loss": 0.0601,
+      "step": 1000
+    },
+    {
+      "epoch": 0.272108843537415,
+      "eval_loss": 0.05313626304268837,
+      "eval_runtime": 10.1979,
+      "eval_samples_per_second": 58.836,
+      "eval_steps_per_second": 7.354,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.5126848220825195,
+      "learning_rate": 4.599270072992701e-05,
+      "loss": 0.0578,
+      "step": 1050
+    },
+    {
+      "epoch": 0.29931972789115646,
+      "grad_norm": 0.5319710373878479,
+      "learning_rate": 4.5627737226277376e-05,
+      "loss": 0.0574,
+      "step": 1100
+    },
+    {
+      "epoch": 0.3129251700680272,
+      "grad_norm": 0.7722771167755127,
+      "learning_rate": 4.526277372262774e-05,
+      "loss": 0.0564,
+      "step": 1150
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "grad_norm": 0.4977850317955017,
+      "learning_rate": 4.4897810218978105e-05,
+      "loss": 0.0553,
+      "step": 1200
+    },
+    {
+      "epoch": 0.32653061224489793,
+      "eval_loss": 0.0452888123691082,
+      "eval_runtime": 10.1684,
+      "eval_samples_per_second": 59.006,
+      "eval_steps_per_second": 7.376,
+      "step": 1200
+    },
+    {
+      "epoch": 0.3401360544217687,
+      "grad_norm": 0.5616284608840942,
+      "learning_rate": 4.4532846715328466e-05,
+      "loss": 0.0529,
+      "step": 1250
+    },
+    {
+      "epoch": 0.35374149659863946,
+      "grad_norm": 0.41897886991500854,
+      "learning_rate": 4.4167883211678834e-05,
+      "loss": 0.0527,
+      "step": 1300
+    },
+    {
+      "epoch": 0.3673469387755102,
+      "grad_norm": 0.526966392993927,
+      "learning_rate": 4.38029197080292e-05,
+      "loss": 0.0518,
+      "step": 1350
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "grad_norm": 0.7886810898780823,
+      "learning_rate": 4.343795620437956e-05,
+      "loss": 0.0514,
+      "step": 1400
+    },
+    {
+      "epoch": 0.38095238095238093,
+      "eval_loss": 0.042705778032541275,
+      "eval_runtime": 10.1958,
+      "eval_samples_per_second": 58.848,
+      "eval_steps_per_second": 7.356,
+      "step": 1400
+    },
+    {
+      "epoch": 0.3945578231292517,
+      "grad_norm": 0.38092342019081116,
+      "learning_rate": 4.307299270072993e-05,
+      "loss": 0.0507,
+      "step": 1450
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.47930657863616943,
+      "learning_rate": 4.27080291970803e-05,
+      "loss": 0.0517,
+      "step": 1500
+    },
+    {
+      "epoch": 0.4217687074829932,
+      "grad_norm": 0.529920220375061,
+      "learning_rate": 4.234306569343066e-05,
+      "loss": 0.0494,
+      "step": 1550
+    },
+    {
+      "epoch": 0.43537414965986393,
+      "grad_norm": 0.5892526507377625,
+      "learning_rate": 4.197810218978102e-05,
+      "loss": 0.0473,
+      "step": 1600
+    },
+    {
+      "epoch": 0.43537414965986393,
+      "eval_loss": 0.04030081257224083,
+      "eval_runtime": 10.1867,
+      "eval_samples_per_second": 58.9,
+      "eval_steps_per_second": 7.363,
+      "step": 1600
+    },
+    {
+      "epoch": 0.4489795918367347,
+      "grad_norm": 0.8671649098396301,
+      "learning_rate": 4.161313868613139e-05,
+      "loss": 0.047,
+      "step": 1650
+    },
+    {
+      "epoch": 0.46258503401360546,
+      "grad_norm": 0.6588522791862488,
+      "learning_rate": 4.124817518248175e-05,
+      "loss": 0.0481,
+      "step": 1700
+    },
+    {
+      "epoch": 0.47619047619047616,
+      "grad_norm": 0.502729594707489,
+      "learning_rate": 4.088321167883212e-05,
+      "loss": 0.0456,
+      "step": 1750
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "grad_norm": 0.5965167284011841,
+      "learning_rate": 4.0518248175182486e-05,
+      "loss": 0.0463,
+      "step": 1800
+    },
+    {
+      "epoch": 0.4897959183673469,
+      "eval_loss": 0.040413301438093185,
+      "eval_runtime": 10.2208,
+      "eval_samples_per_second": 58.704,
+      "eval_steps_per_second": 7.338,
+      "step": 1800
+    },
+    {
+      "epoch": 0.5034013605442177,
+      "grad_norm": 0.38793548941612244,
+      "learning_rate": 4.015328467153285e-05,
+      "loss": 0.0451,
+      "step": 1850
+    },
+    {
+      "epoch": 0.5170068027210885,
+      "grad_norm": 0.3949367105960846,
+      "learning_rate": 3.9788321167883215e-05,
+      "loss": 0.0468,
+      "step": 1900
+    },
+    {
+      "epoch": 0.5306122448979592,
+      "grad_norm": 0.5778154134750366,
+      "learning_rate": 3.9423357664233576e-05,
+      "loss": 0.0454,
+      "step": 1950
+    },
+    {
+      "epoch": 0.54421768707483,
+      "grad_norm": 0.3722288906574249,
+      "learning_rate": 3.9058394160583944e-05,
+      "loss": 0.0461,
+      "step": 2000
+    },
+    {
+      "epoch": 0.54421768707483,
+      "eval_loss": 0.03860794007778168,
+      "eval_runtime": 10.1795,
+      "eval_samples_per_second": 58.942,
+      "eval_steps_per_second": 7.368,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5578231292517006,
+      "grad_norm": 0.5253990292549133,
+      "learning_rate": 3.869343065693431e-05,
+      "loss": 0.0445,
+      "step": 2050
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.41715025901794434,
+      "learning_rate": 3.832846715328467e-05,
+      "loss": 0.042,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5850340136054422,
+      "grad_norm": 0.567323625087738,
+      "learning_rate": 3.796350364963504e-05,
+      "loss": 0.0423,
+      "step": 2150
+    },
+    {
+      "epoch": 0.5986394557823129,
+      "grad_norm": 0.6290739178657532,
+      "learning_rate": 3.759854014598541e-05,
+      "loss": 0.0428,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5986394557823129,
+      "eval_loss": 0.037571050226688385,
+      "eval_runtime": 10.1846,
+      "eval_samples_per_second": 58.913,
+      "eval_steps_per_second": 7.364,
+      "step": 2200
+    },
+    {
+      "epoch": 0.6122448979591837,
+      "grad_norm": 0.40591228008270264,
+      "learning_rate": 3.723357664233576e-05,
+      "loss": 0.043,
+      "step": 2250
+    },
+    {
+      "epoch": 0.6258503401360545,
+      "grad_norm": 0.45446255803108215,
+      "learning_rate": 3.686861313868613e-05,
+      "loss": 0.0423,
+      "step": 2300
+    },
+    {
+      "epoch": 0.6394557823129252,
+      "grad_norm": 0.41105887293815613,
+      "learning_rate": 3.65036496350365e-05,
+      "loss": 0.0413,
+      "step": 2350
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "grad_norm": 0.4538460671901703,
+      "learning_rate": 3.613868613138686e-05,
+      "loss": 0.0428,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6530612244897959,
+      "eval_loss": 0.036736100912094116,
+      "eval_runtime": 10.1735,
+      "eval_samples_per_second": 58.977,
+      "eval_steps_per_second": 7.372,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.42337286472320557,
+      "learning_rate": 3.577372262773723e-05,
+      "loss": 0.0406,
+      "step": 2450
+    },
+    {
+      "epoch": 0.6802721088435374,
+      "grad_norm": 0.3924243450164795,
+      "learning_rate": 3.5408759124087596e-05,
+      "loss": 0.0412,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6938775510204082,
+      "grad_norm": 0.3243819773197174,
+      "learning_rate": 3.504379562043796e-05,
+      "loss": 0.0416,
+      "step": 2550
+    },
+    {
+      "epoch": 0.7074829931972789,
+      "grad_norm": 0.3431473970413208,
+      "learning_rate": 3.4678832116788325e-05,
+      "loss": 0.0395,
+      "step": 2600
+    },
+    {
+      "epoch": 0.7074829931972789,
+      "eval_loss": 0.035297442227602005,
+      "eval_runtime": 10.181,
+      "eval_samples_per_second": 58.933,
+      "eval_steps_per_second": 7.367,
+      "step": 2600
+    },
+    {
+      "epoch": 0.7210884353741497,
+      "grad_norm": 0.4607592821121216,
+      "learning_rate": 3.4313868613138686e-05,
+      "loss": 0.0392,
+      "step": 2650
+    },
+    {
+      "epoch": 0.7346938775510204,
+      "grad_norm": 0.5089300870895386,
+      "learning_rate": 3.3948905109489054e-05,
+      "loss": 0.0409,
+      "step": 2700
+    },
+    {
+      "epoch": 0.7482993197278912,
+      "grad_norm": 0.42247381806373596,
+      "learning_rate": 3.358394160583942e-05,
+      "loss": 0.041,
+      "step": 2750
+    },
+    {
+      "epoch": 0.7619047619047619,
+      "grad_norm": 0.5103944540023804,
+      "learning_rate": 3.321897810218978e-05,
+      "loss": 0.0396,
+      "step": 2800
+    },
+    {
+      "epoch": 0.7619047619047619,
+      "eval_loss": 0.03508320823311806,
+      "eval_runtime": 10.1991,
+      "eval_samples_per_second": 58.829,
+      "eval_steps_per_second": 7.354,
+      "step": 2800
+    },
+    {
+      "epoch": 0.7755102040816326,
+      "grad_norm": 0.4671725928783417,
+      "learning_rate": 3.2854014598540144e-05,
+      "loss": 0.0401,
+      "step": 2850
+    },
+    {
+      "epoch": 0.7891156462585034,
+      "grad_norm": 0.39482733607292175,
+      "learning_rate": 3.248905109489051e-05,
+      "loss": 0.0413,
+      "step": 2900
+    },
+    {
+      "epoch": 0.8027210884353742,
+      "grad_norm": 0.6017800569534302,
+      "learning_rate": 3.212408759124087e-05,
+      "loss": 0.039,
+      "step": 2950
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 0.3402301073074341,
+      "learning_rate": 3.175912408759124e-05,
+      "loss": 0.0388,
+      "step": 3000
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "eval_loss": 0.03466026484966278,
+      "eval_runtime": 10.1801,
+      "eval_samples_per_second": 58.938,
+      "eval_steps_per_second": 7.367,
+      "step": 3000
+    },
+    {
+      "epoch": 0.8299319727891157,
+      "grad_norm": 0.31006762385368347,
+      "learning_rate": 3.139416058394161e-05,
+      "loss": 0.0372,
+      "step": 3050
+    },
+    {
+      "epoch": 0.8435374149659864,
+      "grad_norm": 0.6701622605323792,
+      "learning_rate": 3.102919708029197e-05,
+      "loss": 0.0393,
+      "step": 3100
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.398631751537323,
+      "learning_rate": 3.066423357664234e-05,
+      "loss": 0.0396,
+      "step": 3150
+    },
+    {
+      "epoch": 0.8707482993197279,
+      "grad_norm": 0.3951578140258789,
+      "learning_rate": 3.0299270072992703e-05,
+      "loss": 0.0383,
+      "step": 3200
+    },
+    {
+      "epoch": 0.8707482993197279,
+      "eval_loss": 0.03498370572924614,
+      "eval_runtime": 10.1869,
+      "eval_samples_per_second": 58.899,
+      "eval_steps_per_second": 7.362,
+      "step": 3200
+    },
+    {
+      "epoch": 0.8843537414965986,
+      "grad_norm": 0.45307376980781555,
+      "learning_rate": 2.9934306569343067e-05,
+      "loss": 0.039,
+      "step": 3250
+    },
+    {
+      "epoch": 0.8979591836734694,
+      "grad_norm": 0.46504005789756775,
+      "learning_rate": 2.9569343065693432e-05,
+      "loss": 0.0372,
+      "step": 3300
+    },
+    {
+      "epoch": 0.9115646258503401,
+      "grad_norm": 0.3962818682193756,
+      "learning_rate": 2.92043795620438e-05,
+      "loss": 0.0388,
+      "step": 3350
+    },
+    {
+      "epoch": 0.9251700680272109,
+      "grad_norm": 0.5040358901023865,
+      "learning_rate": 2.8839416058394164e-05,
+      "loss": 0.038,
+      "step": 3400
+    },
+    {
+      "epoch": 0.9251700680272109,
+      "eval_loss": 0.03590795397758484,
+      "eval_runtime": 10.1999,
+      "eval_samples_per_second": 58.824,
+      "eval_steps_per_second": 7.353,
+      "step": 3400
+    },
+    {
+      "epoch": 0.9387755102040817,
+      "grad_norm": 0.8045864701271057,
+      "learning_rate": 2.847445255474453e-05,
+      "loss": 0.0364,
+      "step": 3450
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 0.9472477436065674,
+      "learning_rate": 2.810948905109489e-05,
+      "loss": 0.0365,
+      "step": 3500
+    },
+    {
+      "epoch": 0.9659863945578231,
+      "grad_norm": 0.5935471057891846,
+      "learning_rate": 2.7744525547445254e-05,
+      "loss": 0.0358,
+      "step": 3550
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "grad_norm": 0.42011234164237976,
+      "learning_rate": 2.737956204379562e-05,
+      "loss": 0.0371,
+      "step": 3600
+    },
+    {
+      "epoch": 0.9795918367346939,
+      "eval_loss": 0.034322191029787064,
+      "eval_runtime": 10.2002,
+      "eval_samples_per_second": 58.823,
+      "eval_steps_per_second": 7.353,
+      "step": 3600
+    },
+    {
+      "epoch": 0.9931972789115646,
+      "grad_norm": 0.757950484752655,
+      "learning_rate": 2.7014598540145987e-05,
+      "loss": 0.0367,
+      "step": 3650
+    },
+    {
+      "epoch": 1.0068027210884354,
+      "grad_norm": 0.37888622283935547,
+      "learning_rate": 2.664963503649635e-05,
+      "loss": 0.0376,
+      "step": 3700
+    },
+    {
+      "epoch": 1.0204081632653061,
+      "grad_norm": 0.4423586428165436,
+      "learning_rate": 2.6284671532846716e-05,
+      "loss": 0.0363,
+      "step": 3750
+    },
+    {
+      "epoch": 1.034013605442177,
+      "grad_norm": 0.526573896408081,
+      "learning_rate": 2.591970802919708e-05,
+      "loss": 0.0364,
+      "step": 3800
+    },
+    {
+      "epoch": 1.034013605442177,
+      "eval_loss": 0.03279593959450722,
+      "eval_runtime": 10.1819,
+      "eval_samples_per_second": 58.928,
+      "eval_steps_per_second": 7.366,
+      "step": 3800
+    },
+    {
+      "epoch": 1.0476190476190477,
+      "grad_norm": 0.32934117317199707,
+      "learning_rate": 2.555474452554745e-05,
+      "loss": 0.0359,
+      "step": 3850
+    },
+    {
+      "epoch": 1.0612244897959184,
+      "grad_norm": 0.33360642194747925,
+      "learning_rate": 2.5189781021897813e-05,
+      "loss": 0.0376,
+      "step": 3900
+    },
+    {
+      "epoch": 1.0748299319727892,
+      "grad_norm": 0.6703974604606628,
+      "learning_rate": 2.4824817518248174e-05,
+      "loss": 0.0369,
+      "step": 3950
+    },
+    {
+      "epoch": 1.08843537414966,
+      "grad_norm": 0.3145996034145355,
+      "learning_rate": 2.4459854014598542e-05,
+      "loss": 0.0372,
+      "step": 4000
+    },
+    {
+      "epoch": 1.08843537414966,
+      "eval_loss": 0.0330994687974453,
+      "eval_runtime": 10.1837,
+      "eval_samples_per_second": 58.918,
+      "eval_steps_per_second": 7.365,
+      "step": 4000
+    },
+    {
+      "epoch": 1.1020408163265305,
+      "grad_norm": 0.5301318168640137,
+      "learning_rate": 2.4094890510948906e-05,
+      "loss": 0.0365,
+      "step": 4050
+    },
+    {
+      "epoch": 1.1156462585034013,
+      "grad_norm": 0.7140094637870789,
+      "learning_rate": 2.372992700729927e-05,
+      "loss": 0.0358,
+      "step": 4100
+    },
+    {
+      "epoch": 1.129251700680272,
+      "grad_norm": 0.3584352433681488,
+      "learning_rate": 2.3364963503649635e-05,
+      "loss": 0.0356,
+      "step": 4150
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.32996875047683716,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.0363,
+      "step": 4200
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.03242386505007744,
+      "eval_runtime": 10.2256,
+      "eval_samples_per_second": 58.676,
+      "eval_steps_per_second": 7.335,
+      "step": 4200
+    },
+    {
+      "epoch": 1.1564625850340136,
+      "grad_norm": 0.3712214231491089,
+      "learning_rate": 2.2635036496350365e-05,
+      "loss": 0.0355,
+      "step": 4250
+    },
+    {
+      "epoch": 1.1700680272108843,
+      "grad_norm": 0.4751546084880829,
+      "learning_rate": 2.227007299270073e-05,
+      "loss": 0.0347,
+      "step": 4300
+    },
+    {
+      "epoch": 1.183673469387755,
+      "grad_norm": 0.49500930309295654,
+      "learning_rate": 2.1905109489051097e-05,
+      "loss": 0.0362,
+      "step": 4350
+    },
+    {
+      "epoch": 1.1972789115646258,
+      "grad_norm": 0.4981195032596588,
+      "learning_rate": 2.154014598540146e-05,
+      "loss": 0.0351,
+      "step": 4400
+    },
+    {
+      "epoch": 1.1972789115646258,
+      "eval_loss": 0.033444974571466446,
+      "eval_runtime": 10.2088,
+      "eval_samples_per_second": 58.773,
+      "eval_steps_per_second": 7.347,
+      "step": 4400
+    },
+    {
+      "epoch": 1.2108843537414966,
+      "grad_norm": 0.30703791975975037,
+      "learning_rate": 2.1175182481751826e-05,
+      "loss": 0.0348,
+      "step": 4450
+    },
+    {
+      "epoch": 1.2244897959183674,
+      "grad_norm": 0.40786242485046387,
+      "learning_rate": 2.081021897810219e-05,
+      "loss": 0.0348,
+      "step": 4500
+    },
+    {
+      "epoch": 1.2380952380952381,
+      "grad_norm": 0.33420053124427795,
+      "learning_rate": 2.044525547445256e-05,
+      "loss": 0.0349,
+      "step": 4550
+    },
+    {
+      "epoch": 1.251700680272109,
+      "grad_norm": 0.39799734950065613,
+      "learning_rate": 2.008029197080292e-05,
+      "loss": 0.0347,
+      "step": 4600
+    },
+    {
+      "epoch": 1.251700680272109,
+      "eval_loss": 0.03165949881076813,
+      "eval_runtime": 10.4306,
+      "eval_samples_per_second": 57.523,
+      "eval_steps_per_second": 7.19,
+      "step": 4600
+    },
+    {
+      "epoch": 1.2653061224489797,
+      "grad_norm": 0.5049504637718201,
+      "learning_rate": 1.9715328467153284e-05,
+      "loss": 0.0358,
+      "step": 4650
+    },
+    {
+      "epoch": 1.2789115646258504,
+      "grad_norm": 0.41933709383010864,
+      "learning_rate": 1.9350364963503652e-05,
+      "loss": 0.0338,
+      "step": 4700
+    },
+    {
+      "epoch": 1.2925170068027212,
+      "grad_norm": 0.6357618570327759,
+      "learning_rate": 1.8985401459854017e-05,
+      "loss": 0.0351,
+      "step": 4750
+    },
+    {
+      "epoch": 1.306122448979592,
+      "grad_norm": 0.34428149461746216,
+      "learning_rate": 1.862043795620438e-05,
+      "loss": 0.0342,
+      "step": 4800
+    },
+    {
+      "epoch": 1.306122448979592,
+      "eval_loss": 0.03147235885262489,
+      "eval_runtime": 10.2354,
+      "eval_samples_per_second": 58.62,
+      "eval_steps_per_second": 7.327,
+      "step": 4800
+    },
+    {
+      "epoch": 1.3197278911564627,
+      "grad_norm": 0.3444003760814667,
+      "learning_rate": 1.8255474452554746e-05,
+      "loss": 0.035,
+      "step": 4850
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.3341350853443146,
+      "learning_rate": 1.789051094890511e-05,
+      "loss": 0.0352,
+      "step": 4900
+    },
+    {
+      "epoch": 1.346938775510204,
+      "grad_norm": 0.3407929241657257,
+      "learning_rate": 1.7525547445255475e-05,
+      "loss": 0.0343,
+      "step": 4950
+    },
+    {
+      "epoch": 1.3605442176870748,
+      "grad_norm": 0.5530718564987183,
+      "learning_rate": 1.716058394160584e-05,
+      "loss": 0.0344,
+      "step": 5000
+    },
+    {
+      "epoch": 1.3605442176870748,
+      "eval_loss": 0.031369421631097794,
+      "eval_runtime": 10.1936,
+      "eval_samples_per_second": 58.86,
+      "eval_steps_per_second": 7.358,
+      "step": 5000
+    },
+    {
+      "epoch": 1.3741496598639455,
+      "grad_norm": 0.43771809339523315,
+      "learning_rate": 1.6795620437956207e-05,
+      "loss": 0.0359,
+      "step": 5050
+    },
+    {
+      "epoch": 1.3877551020408163,
+      "grad_norm": 0.3095148503780365,
+      "learning_rate": 1.643065693430657e-05,
+      "loss": 0.0339,
+      "step": 5100
+    },
+    {
+      "epoch": 1.401360544217687,
+      "grad_norm": 0.35238730907440186,
+      "learning_rate": 1.6065693430656936e-05,
+      "loss": 0.0344,
+      "step": 5150
+    },
+    {
+      "epoch": 1.4149659863945578,
+      "grad_norm": 0.5534179210662842,
+      "learning_rate": 1.5700729927007297e-05,
+      "loss": 0.0337,
+      "step": 5200
+    },
+    {
+      "epoch": 1.4149659863945578,
+      "eval_loss": 0.030900483950972557,
+      "eval_runtime": 10.2164,
+      "eval_samples_per_second": 58.729,
+      "eval_steps_per_second": 7.341,
+      "step": 5200
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 0.3276965916156769,
+      "learning_rate": 1.5335766423357665e-05,
+      "loss": 0.0347,
+      "step": 5250
+    },
+    {
+      "epoch": 1.4421768707482994,
+      "grad_norm": 0.421546071767807,
+      "learning_rate": 1.497080291970803e-05,
+      "loss": 0.0328,
+      "step": 5300
+    },
+    {
+      "epoch": 1.4557823129251701,
+      "grad_norm": 0.33375367522239685,
+      "learning_rate": 1.4605839416058394e-05,
+      "loss": 0.0338,
+      "step": 5350
+    },
+    {
+      "epoch": 1.469387755102041,
+      "grad_norm": 0.28487250208854675,
+      "learning_rate": 1.424087591240876e-05,
+      "loss": 0.0338,
+      "step": 5400
+    },
+    {
+      "epoch": 1.469387755102041,
+      "eval_loss": 0.030995788052678108,
+      "eval_runtime": 10.198,
+      "eval_samples_per_second": 58.835,
+      "eval_steps_per_second": 7.354,
+      "step": 5400
+    },
+    {
+      "epoch": 1.4829931972789114,
+      "grad_norm": 0.4164125919342041,
+      "learning_rate": 1.3875912408759125e-05,
+      "loss": 0.0347,
+      "step": 5450
+    },
+    {
+      "epoch": 1.4965986394557822,
+      "grad_norm": 0.5844776630401611,
+      "learning_rate": 1.3510948905109488e-05,
+      "loss": 0.0342,
+      "step": 5500
+    },
+    {
+      "epoch": 1.510204081632653,
+      "grad_norm": 0.4449387490749359,
+      "learning_rate": 1.3145985401459854e-05,
+      "loss": 0.0329,
+      "step": 5550
+    },
+    {
+      "epoch": 1.5238095238095237,
+      "grad_norm": 0.351698100566864,
+      "learning_rate": 1.2781021897810219e-05,
+      "loss": 0.0334,
+      "step": 5600
+    },
+    {
+      "epoch": 1.5238095238095237,
+      "eval_loss": 0.030806375667452812,
+      "eval_runtime": 10.1839,
+      "eval_samples_per_second": 58.917,
+      "eval_steps_per_second": 7.365,
+      "step": 5600
+    },
+    {
+      "epoch": 1.5374149659863945,
+      "grad_norm": 0.32961511611938477,
+      "learning_rate": 1.2416058394160585e-05,
+      "loss": 0.0332,
+      "step": 5650
+    },
+    {
+      "epoch": 1.5510204081632653,
+      "grad_norm": 0.39127564430236816,
+      "learning_rate": 1.205109489051095e-05,
+      "loss": 0.0329,
+      "step": 5700
+    },
+    {
+      "epoch": 1.564625850340136,
+      "grad_norm": 0.47163116931915283,
+      "learning_rate": 1.1686131386861314e-05,
+      "loss": 0.0328,
+      "step": 5750
+    },
+    {
+      "epoch": 1.5782312925170068,
+      "grad_norm": 0.34902673959732056,
+      "learning_rate": 1.132116788321168e-05,
+      "loss": 0.0341,
+      "step": 5800
+    },
+    {
+      "epoch": 1.5782312925170068,
+      "eval_loss": 0.030648473650217056,
+      "eval_runtime": 10.232,
+      "eval_samples_per_second": 58.639,
+      "eval_steps_per_second": 7.33,
+      "step": 5800
+    },
+    {
+      "epoch": 1.5918367346938775,
+      "grad_norm": 0.34722593426704407,
+      "learning_rate": 1.0956204379562045e-05,
+      "loss": 0.0336,
+      "step": 5850
+    },
+    {
+      "epoch": 1.6054421768707483,
+      "grad_norm": 0.3117406964302063,
+      "learning_rate": 1.0591240875912409e-05,
+      "loss": 0.0325,
+      "step": 5900
+    },
+    {
+      "epoch": 1.619047619047619,
+      "grad_norm": 0.38354817032814026,
+      "learning_rate": 1.0226277372262774e-05,
+      "loss": 0.0337,
+      "step": 5950
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "grad_norm": 0.4977235794067383,
+      "learning_rate": 9.86131386861314e-06,
+      "loss": 0.033,
+      "step": 6000
+    },
+    {
+      "epoch": 1.6326530612244898,
+      "eval_loss": 0.03188992664217949,
+      "eval_runtime": 10.1863,
+      "eval_samples_per_second": 58.903,
+      "eval_steps_per_second": 7.363,
+      "step": 6000
+    },
+    {
+      "epoch": 1.6462585034013606,
+      "grad_norm": 0.3820977509021759,
+      "learning_rate": 9.496350364963503e-06,
+      "loss": 0.034,
+      "step": 6050
+    },
+    {
+      "epoch": 1.6598639455782314,
+      "grad_norm": 0.32841384410858154,
+      "learning_rate": 9.131386861313869e-06,
+      "loss": 0.0332,
+      "step": 6100
+    },
+    {
+      "epoch": 1.6734693877551021,
+      "grad_norm": 0.31902793049812317,
+      "learning_rate": 8.766423357664235e-06,
+      "loss": 0.0327,
+      "step": 6150
+    },
+    {
+      "epoch": 1.6870748299319729,
+      "grad_norm": 0.35828185081481934,
+      "learning_rate": 8.401459854014598e-06,
+      "loss": 0.0335,
+      "step": 6200
+    },
+    {
+      "epoch": 1.6870748299319729,
+      "eval_loss": 0.03037342056632042,
+      "eval_runtime": 10.2013,
+      "eval_samples_per_second": 58.816,
+      "eval_steps_per_second": 7.352,
+      "step": 6200
+    },
+    {
+      "epoch": 1.7006802721088436,
+      "grad_norm": 0.3647211790084839,
+      "learning_rate": 8.036496350364964e-06,
+      "loss": 0.0331,
+      "step": 6250
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.34833037853240967,
+      "learning_rate": 7.671532846715329e-06,
+      "loss": 0.0344,
+      "step": 6300
+    },
+    {
+      "epoch": 1.7278911564625852,
+      "grad_norm": 0.35880446434020996,
+      "learning_rate": 7.306569343065693e-06,
+      "loss": 0.0326,
+      "step": 6350
+    },
+    {
+      "epoch": 1.741496598639456,
+      "grad_norm": 0.31057825684547424,
+      "learning_rate": 6.941605839416059e-06,
+      "loss": 0.0322,
+      "step": 6400
+    },
+    {
+      "epoch": 1.741496598639456,
+      "eval_loss": 0.030219364911317825,
+      "eval_runtime": 10.2032,
+      "eval_samples_per_second": 58.805,
+      "eval_steps_per_second": 7.351,
+      "step": 6400
+    },
+    {
+      "epoch": 1.7551020408163265,
+      "grad_norm": 0.3011321723461151,
+      "learning_rate": 6.576642335766424e-06,
+      "loss": 0.0325,
+      "step": 6450
+    },
+    {
+      "epoch": 1.7687074829931972,
+      "grad_norm": 0.26797881722450256,
+      "learning_rate": 6.2116788321167885e-06,
+      "loss": 0.0322,
+      "step": 6500
+    },
+    {
+      "epoch": 1.782312925170068,
+      "grad_norm": 0.4549163579940796,
+      "learning_rate": 5.846715328467153e-06,
+      "loss": 0.0325,
+      "step": 6550
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "grad_norm": 0.3827670216560364,
+      "learning_rate": 5.481751824817518e-06,
+      "loss": 0.0329,
+      "step": 6600
+    },
+    {
+      "epoch": 1.7959183673469388,
+      "eval_loss": 0.030094588175415993,
+      "eval_runtime": 10.1718,
+      "eval_samples_per_second": 58.987,
+      "eval_steps_per_second": 7.373,
+      "step": 6600
+    },
+    {
+      "epoch": 1.8095238095238095,
+      "grad_norm": 0.7711276412010193,
+      "learning_rate": 5.116788321167884e-06,
+      "loss": 0.0327,
+      "step": 6650
+    },
+    {
+      "epoch": 1.8231292517006803,
+      "grad_norm": 0.4340929388999939,
+      "learning_rate": 4.751824817518248e-06,
+      "loss": 0.0326,
+      "step": 6700
+    },
+    {
+      "epoch": 1.836734693877551,
+      "grad_norm": 0.46433642506599426,
+      "learning_rate": 4.386861313868614e-06,
+      "loss": 0.0331,
+      "step": 6750
+    },
+    {
+      "epoch": 1.8503401360544216,
+      "grad_norm": 0.5542903542518616,
+      "learning_rate": 4.021897810218978e-06,
+      "loss": 0.0336,
+      "step": 6800
+    },
+    {
+      "epoch": 1.8503401360544216,
+      "eval_loss": 0.029951954260468483,
+      "eval_runtime": 10.1915,
+      "eval_samples_per_second": 58.872,
+      "eval_steps_per_second": 7.359,
+      "step": 6800
+    },
+    {
+      "epoch": 1.8639455782312924,
+      "grad_norm": 0.3692566156387329,
+      "learning_rate": 3.6569343065693436e-06,
+      "loss": 0.0322,
+      "step": 6850
+    },
+    {
+      "epoch": 1.8775510204081631,
+      "grad_norm": 0.25918880105018616,
+      "learning_rate": 3.291970802919708e-06,
+      "loss": 0.0325,
+      "step": 6900
+    },
+    {
+      "epoch": 1.891156462585034,
+      "grad_norm": 0.32452937960624695,
+      "learning_rate": 2.927007299270073e-06,
+      "loss": 0.0321,
+      "step": 6950
+    },
+    {
+      "epoch": 1.9047619047619047,
+      "grad_norm": 0.3027072250843048,
+      "learning_rate": 2.562043795620438e-06,
+      "loss": 0.0328,
+      "step": 7000
+    },
+    {
+      "epoch": 1.9047619047619047,
+      "eval_loss": 0.029974693432450294,
+      "eval_runtime": 10.1955,
+      "eval_samples_per_second": 58.849,
+      "eval_steps_per_second": 7.356,
+      "step": 7000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 7350,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.9264707584e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/checkpoint-step-7000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e65f11e00edb82d09a337df334551a2d5eac2eb0f7f94aaa44d3be5e86cc7a7
+size 5777

checkpoints/checkpoint-step-7000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff