bobox
/

DeBERTaV3-small-GeneralSentenceTransformer-v2-checkpoints-tmp

@@ -775,6 +775,16 @@ You can finetune this model on your own dataset.
 | 0.8   | 3768 | 0.9259        | 0.3853         | 0.1646                | 0.2819                 |
 | 0.9   | 4239 | 0.8709        | 0.3749         | 0.1157                | 0.2912                 |
 | 1.0   | 4710 | 0.8686        | 0.3636         | 0.0961                | 0.3109                 |
 ### Framework Versions

 | 0.8   | 3768 | 0.9259        | 0.3853         | 0.1646                | 0.2819                 |
 | 0.9   | 4239 | 0.8709        | 0.3749         | 0.1157                | 0.2912                 |
 | 1.0   | 4710 | 0.8686        | 0.3636         | 0.0961                | 0.3109                 |
+| 1.1   | 5181 | 0.726         | 0.3744         | 0.0453                | 0.3424                 |
+| 1.2   | 5652 | 0.8151        | 0.3502         | 0.1835                | 0.2602                 |
+| 1.3   | 6123 | 0.7127        | 0.3362         | 0.1089                | 0.2460                 |
+| 1.4   | 6594 | 0.8408        | 0.3184         | 0.0701                | 0.2784                 |
+| 1.5   | 7065 | 0.7845        | 0.3191         | 0.0318                | 0.2822                 |
+| 1.6   | 7536 | 0.5766        | 0.3056         | 0.0566                | 0.2774                 |
+| 1.7   | 8007 | 0.7304        | 0.2991         | 0.0542                | 0.2736                 |
+| 1.8   | 8478 | 0.6639        | 0.2949         | 0.0515                | 0.2694                 |
+| 1.9   | 8949 | 0.6153        | 0.2938         | 0.0589                | 0.2718                 |
+| 2.0   | 9420 | 0.6665        | 0.2937         | 0.0569                | 0.2724                 |
 ### Framework Versions

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24a991a022791dbad68bcccfc1a822f0a523b0d0033cb55ebbbb7278fa749813
 size 1130520122

 version https://git-lfs.github.com/spec/v1
+oid sha256:89cf03dc9085ffef97e239bba9d281185e9db1fd4e0da8fb9ed67d08da8d63ed
 size 1130520122

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2ad0a254872f555e16b4825539b2ed51a358095478594397a27f095a144279b
 size 565251810

 version https://git-lfs.github.com/spec/v1
+oid sha256:cad5f2f78e52ff86b9024a77895dae5ac7daf09ebac038d6b7e6d7a109b7fab1
 size 565251810

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c341d87b21e7e32706eb595f0f035e1e0247fe56c8c298f72c6e286fd8ab0e20
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc3e6bd6964335e97fd00e4ed99553574e6a0c29df42723a319985da7eb09a2c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:072f295cd9400d44a23f01cc82ad8c9b8b89be4ef3aba1d3b8e750e9883aec90
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c0b1665ad9a994274278193da377d00cc0a72d4cbeda48768b256548dcea6f9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 471,
-  "global_step": 4710,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -317,6 +317,316 @@
       "eval_qnli-contrastive_samples_per_second": 347.537,
       "eval_qnli-contrastive_steps_per_second": 21.757,
       "step": 4710
     }
   ],
   "logging_steps": 471,
@@ -331,7 +641,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 471,
+  "global_step": 9420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_qnli-contrastive_samples_per_second": 347.537,
       "eval_qnli-contrastive_steps_per_second": 21.757,
       "step": 4710
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 17.123151779174805,
+      "learning_rate": 1.5161494182199708e-05,
+      "loss": 0.726,
+      "step": 5181
+    },
+    {
+      "epoch": 1.1,
+      "eval_nli-pairs_loss": 0.37437891960144043,
+      "eval_nli-pairs_runtime": 14.6826,
+      "eval_nli-pairs_samples_per_second": 463.677,
+      "eval_nli-pairs_steps_per_second": 29.014,
+      "step": 5181
+    },
+    {
+      "epoch": 1.1,
+      "eval_scitail-pairs-pos_loss": 0.34239521622657776,
+      "eval_scitail-pairs-pos_runtime": 3.4343,
+      "eval_scitail-pairs-pos_samples_per_second": 379.703,
+      "eval_scitail-pairs-pos_steps_per_second": 23.877,
+      "step": 5181
+    },
+    {
+      "epoch": 1.1,
+      "eval_qnli-contrastive_loss": 0.04533466696739197,
+      "eval_qnli-contrastive_runtime": 15.5919,
+      "eval_qnli-contrastive_samples_per_second": 350.374,
+      "eval_qnli-contrastive_steps_per_second": 21.934,
+      "step": 5181
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 4.296922206878662,
+      "learning_rate": 1.3030457061862642e-05,
+      "loss": 0.8151,
+      "step": 5652
+    },
+    {
+      "epoch": 1.2,
+      "eval_nli-pairs_loss": 0.3501867353916168,
+      "eval_nli-pairs_runtime": 14.648,
+      "eval_nli-pairs_samples_per_second": 464.772,
+      "eval_nli-pairs_steps_per_second": 29.082,
+      "step": 5652
+    },
+    {
+      "epoch": 1.2,
+      "eval_scitail-pairs-pos_loss": 0.26023754477500916,
+      "eval_scitail-pairs-pos_runtime": 3.3385,
+      "eval_scitail-pairs-pos_samples_per_second": 390.589,
+      "eval_scitail-pairs-pos_steps_per_second": 24.562,
+      "step": 5652
+    },
+    {
+      "epoch": 1.2,
+      "eval_qnli-contrastive_loss": 0.18350932002067566,
+      "eval_qnli-contrastive_runtime": 15.5173,
+      "eval_qnli-contrastive_samples_per_second": 352.059,
+      "eval_qnli-contrastive_steps_per_second": 22.04,
+      "step": 5652
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 5.370415210723877,
+      "learning_rate": 1.0733590017323587e-05,
+      "loss": 0.7127,
+      "step": 6123
+    },
+    {
+      "epoch": 1.3,
+      "eval_nli-pairs_loss": 0.33619123697280884,
+      "eval_nli-pairs_runtime": 14.5016,
+      "eval_nli-pairs_samples_per_second": 469.464,
+      "eval_nli-pairs_steps_per_second": 29.376,
+      "step": 6123
+    },
+    {
+      "epoch": 1.3,
+      "eval_scitail-pairs-pos_loss": 0.24599790573120117,
+      "eval_scitail-pairs-pos_runtime": 3.3041,
+      "eval_scitail-pairs-pos_samples_per_second": 394.666,
+      "eval_scitail-pairs-pos_steps_per_second": 24.818,
+      "step": 6123
+    },
+    {
+      "epoch": 1.3,
+      "eval_qnli-contrastive_loss": 0.10889358073472977,
+      "eval_qnli-contrastive_runtime": 15.451,
+      "eval_qnli-contrastive_samples_per_second": 353.569,
+      "eval_qnli-contrastive_steps_per_second": 22.134,
+      "step": 6123
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 105.34712219238281,
+      "learning_rate": 8.401493879376199e-06,
+      "loss": 0.8408,
+      "step": 6594
+    },
+    {
+      "epoch": 1.4,
+      "eval_nli-pairs_loss": 0.3184218406677246,
+      "eval_nli-pairs_runtime": 14.4863,
+      "eval_nli-pairs_samples_per_second": 469.961,
+      "eval_nli-pairs_steps_per_second": 29.407,
+      "step": 6594
+    },
+    {
+      "epoch": 1.4,
+      "eval_scitail-pairs-pos_loss": 0.27837762236595154,
+      "eval_scitail-pairs-pos_runtime": 3.3858,
+      "eval_scitail-pairs-pos_samples_per_second": 385.134,
+      "eval_scitail-pairs-pos_steps_per_second": 24.219,
+      "step": 6594
+    },
+    {
+      "epoch": 1.4,
+      "eval_qnli-contrastive_loss": 0.07013922929763794,
+      "eval_qnli-contrastive_runtime": 15.4468,
+      "eval_qnli-contrastive_samples_per_second": 353.666,
+      "eval_qnli-contrastive_steps_per_second": 22.141,
+      "step": 6594
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 1.1197956800460815,
+      "learning_rate": 6.15190528470631e-06,
+      "loss": 0.7845,
+      "step": 7065
+    },
+    {
+      "epoch": 1.5,
+      "eval_nli-pairs_loss": 0.3191192150115967,
+      "eval_nli-pairs_runtime": 14.505,
+      "eval_nli-pairs_samples_per_second": 469.355,
+      "eval_nli-pairs_steps_per_second": 29.369,
+      "step": 7065
+    },
+    {
+      "epoch": 1.5,
+      "eval_scitail-pairs-pos_loss": 0.2821648120880127,
+      "eval_scitail-pairs-pos_runtime": 3.3778,
+      "eval_scitail-pairs-pos_samples_per_second": 386.049,
+      "eval_scitail-pairs-pos_steps_per_second": 24.276,
+      "step": 7065
+    },
+    {
+      "epoch": 1.5,
+      "eval_qnli-contrastive_loss": 0.03179321065545082,
+      "eval_qnli-contrastive_runtime": 15.41,
+      "eval_qnli-contrastive_samples_per_second": 354.509,
+      "eval_qnli-contrastive_steps_per_second": 22.193,
+      "step": 7065
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 3.4374799728393555,
+      "learning_rate": 4.1128886407133994e-06,
+      "loss": 0.5766,
+      "step": 7536
+    },
+    {
+      "epoch": 1.6,
+      "eval_nli-pairs_loss": 0.30556315183639526,
+      "eval_nli-pairs_runtime": 14.4825,
+      "eval_nli-pairs_samples_per_second": 470.083,
+      "eval_nli-pairs_steps_per_second": 29.415,
+      "step": 7536
+    },
+    {
+      "epoch": 1.6,
+      "eval_scitail-pairs-pos_loss": 0.277355819940567,
+      "eval_scitail-pairs-pos_runtime": 3.3048,
+      "eval_scitail-pairs-pos_samples_per_second": 394.581,
+      "eval_scitail-pairs-pos_steps_per_second": 24.813,
+      "step": 7536
+    },
+    {
+      "epoch": 1.6,
+      "eval_qnli-contrastive_loss": 0.056649066507816315,
+      "eval_qnli-contrastive_runtime": 15.5222,
+      "eval_qnli-contrastive_samples_per_second": 351.949,
+      "eval_qnli-contrastive_steps_per_second": 22.033,
+      "step": 7536
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 5.434581279754639,
+      "learning_rate": 2.3960211678026622e-06,
+      "loss": 0.7304,
+      "step": 8007
+    },
+    {
+      "epoch": 1.7,
+      "eval_nli-pairs_loss": 0.29907679557800293,
+      "eval_nli-pairs_runtime": 14.5118,
+      "eval_nli-pairs_samples_per_second": 469.136,
+      "eval_nli-pairs_steps_per_second": 29.355,
+      "step": 8007
+    },
+    {
+      "epoch": 1.7,
+      "eval_scitail-pairs-pos_loss": 0.2736453711986542,
+      "eval_scitail-pairs-pos_runtime": 3.2966,
+      "eval_scitail-pairs-pos_samples_per_second": 395.561,
+      "eval_scitail-pairs-pos_steps_per_second": 24.874,
+      "step": 8007
+    },
+    {
+      "epoch": 1.7,
+      "eval_qnli-contrastive_loss": 0.0541638545691967,
+      "eval_qnli-contrastive_runtime": 15.4865,
+      "eval_qnli-contrastive_samples_per_second": 352.758,
+      "eval_qnli-contrastive_steps_per_second": 22.084,
+      "step": 8007
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 17.071992874145508,
+      "learning_rate": 1.0952517314705368e-06,
+      "loss": 0.6639,
+      "step": 8478
+    },
+    {
+      "epoch": 1.8,
+      "eval_nli-pairs_loss": 0.29488247632980347,
+      "eval_nli-pairs_runtime": 14.521,
+      "eval_nli-pairs_samples_per_second": 468.837,
+      "eval_nli-pairs_steps_per_second": 29.337,
+      "step": 8478
+    },
+    {
+      "epoch": 1.8,
+      "eval_scitail-pairs-pos_loss": 0.26940035820007324,
+      "eval_scitail-pairs-pos_runtime": 3.3511,
+      "eval_scitail-pairs-pos_samples_per_second": 389.126,
+      "eval_scitail-pairs-pos_steps_per_second": 24.47,
+      "step": 8478
+    },
+    {
+      "epoch": 1.8,
+      "eval_qnli-contrastive_loss": 0.05149933323264122,
+      "eval_qnli-contrastive_runtime": 15.4893,
+      "eval_qnli-contrastive_samples_per_second": 352.694,
+      "eval_qnli-contrastive_steps_per_second": 22.08,
+      "step": 8478
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 4.333444118499756,
+      "learning_rate": 2.817598576525049e-07,
+      "loss": 0.6153,
+      "step": 8949
+    },
+    {
+      "epoch": 1.9,
+      "eval_nli-pairs_loss": 0.29380860924720764,
+      "eval_nli-pairs_runtime": 14.6947,
+      "eval_nli-pairs_samples_per_second": 463.296,
+      "eval_nli-pairs_steps_per_second": 28.99,
+      "step": 8949
+    },
+    {
+      "epoch": 1.9,
+      "eval_scitail-pairs-pos_loss": 0.27175840735435486,
+      "eval_scitail-pairs-pos_runtime": 3.3734,
+      "eval_scitail-pairs-pos_samples_per_second": 386.557,
+      "eval_scitail-pairs-pos_steps_per_second": 24.308,
+      "step": 8949
+    },
+    {
+      "epoch": 1.9,
+      "eval_qnli-contrastive_loss": 0.05886112153530121,
+      "eval_qnli-contrastive_runtime": 15.7063,
+      "eval_qnli-contrastive_samples_per_second": 347.823,
+      "eval_qnli-contrastive_steps_per_second": 21.775,
+      "step": 8949
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 17.020780563354492,
+      "learning_rate": 7.929627552805131e-11,
+      "loss": 0.6665,
+      "step": 9420
+    },
+    {
+      "epoch": 2.0,
+      "eval_nli-pairs_loss": 0.2937406301498413,
+      "eval_nli-pairs_runtime": 14.6591,
+      "eval_nli-pairs_samples_per_second": 464.421,
+      "eval_nli-pairs_steps_per_second": 29.06,
+      "step": 9420
+    },
+    {
+      "epoch": 2.0,
+      "eval_scitail-pairs-pos_loss": 0.27235355973243713,
+      "eval_scitail-pairs-pos_runtime": 3.3473,
+      "eval_scitail-pairs-pos_samples_per_second": 389.563,
+      "eval_scitail-pairs-pos_steps_per_second": 24.497,
+      "step": 9420
+    },
+    {
+      "epoch": 2.0,
+      "eval_qnli-contrastive_loss": 0.05692654103040695,
+      "eval_qnli-contrastive_runtime": 15.5164,
+      "eval_qnli-contrastive_samples_per_second": 352.078,
+      "eval_qnli-contrastive_steps_per_second": 22.041,
+      "step": 9420
     }
   ],
   "logging_steps": 471,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }