diff --git "a/wandb/run-20250515_192303-7xkscxrj/files/output.log" "b/wandb/run-20250515_192303-7xkscxrj/files/output.log"
new file mode 100644--- /dev/null
+++ "b/wandb/run-20250515_192303-7xkscxrj/files/output.log"
@@ -0,0 +1,6017 @@
+05/15/2025 19:23:04 - WARNING - __main__ - Using cache dir /home/azureuser/media-disk/mh_dp/preprocessed_dataset_voxpopuli for the datasets.
+Loading dataset from disk: 100%|████████████████████████████████████████████████████████████████████| 111/111 [00:00<00:00, 24856.79it/s]
+05/15/2025 19:23:04 - WARNING - __main__ - Loaded facebook/voxpopuli dataset
+05/15/2025 19:23:04 - WARNING - __main__ - Applied SpecAugment with mask_time_prob=0.25
+05/15/2025 19:23:06 - WARNING - __main__ - Applied SpecAugment with                     model_args.mask_time_prob=0.25,                     model_args.mask_time_length=30,                     model_args.mask_time_min_masks=2,                     model_args.mask_feature_prob=0.3,                     model_args.mask_feature_length=30,                     model_args.mask_feature_min_masks=1
+05/15/2025 19:23:06 - WARNING - __main__ - Number of trainable parameters - Encoder: 104,993,152, Decoder: 96,103,680, Total: 201,096,832
+05/15/2025 19:23:06 - WARNING - __main__ - Loaded model ./seq2seq_wav2vec2_bart-base_24k-en-voxpopuli
+05/15/2025 19:23:06 - WARNING - __main__ - Data preprocessing finished.
+  0%|                                                                                                          | 0/34820 [00:00<?, ?it/s][WARNING|modeling_utils.py:1299] 2025-05-15 19:23:21,899 >> Could not estimate the number of tokens of the input, floating-point operations will not be computed
+                                                                                                                                         
+{'loss': 10.9883, 'grad_norm': 6.055897235870361, 'learning_rate': 5.000000000000001e-07, 'epoch': 0.01}
+{'loss': 10.9223, 'grad_norm': 5.815479755401611, 'learning_rate': 1.0000000000000002e-06, 'epoch': 0.01}
+{'loss': 10.8304, 'grad_norm': 5.46067476272583, 'learning_rate': 1.5e-06, 'epoch': 0.02}
+{'loss': 10.6553, 'grad_norm': 5.2169952392578125, 'learning_rate': 2.0000000000000003e-06, 'epoch': 0.02}
+{'loss': 10.434, 'grad_norm': 5.73301362991333, 'learning_rate': 2.5e-06, 'epoch': 0.03}
+{'loss': 10.0886, 'grad_norm': 5.824595928192139, 'learning_rate': 3e-06, 'epoch': 0.03}
+{'loss': 9.7514, 'grad_norm': 5.168050765991211, 'learning_rate': 3.5000000000000004e-06, 'epoch': 0.04}
+{'loss': 9.4369, 'grad_norm': 4.594773769378662, 'learning_rate': 4.000000000000001e-06, 'epoch': 0.05}
+{'loss': 9.1625, 'grad_norm': 4.235531330108643, 'learning_rate': 4.5e-06, 'epoch': 0.05}
+{'loss': 8.9379, 'grad_norm': 4.006635665893555, 'learning_rate': 5e-06, 'epoch': 0.06}
+{'loss': 8.703, 'grad_norm': 3.3541603088378906, 'learning_rate': 5.500000000000001e-06, 'epoch': 0.06}
+{'loss': 8.5148, 'grad_norm': 3.289834499359131, 'learning_rate': 6e-06, 'epoch': 0.07}
+{'loss': 8.3209, 'grad_norm': 66.89250946044922, 'learning_rate': 6.5000000000000004e-06, 'epoch': 0.07}
+{'loss': 8.1789, 'grad_norm': 3.456878185272217, 'learning_rate': 7.000000000000001e-06, 'epoch': 0.08}
+{'loss': 8.0436, 'grad_norm': 2.5259904861450195, 'learning_rate': 7.5e-06, 'epoch': 0.09}
+{'loss': 7.9073, 'grad_norm': 2.7311551570892334, 'learning_rate': 8.000000000000001e-06, 'epoch': 0.09}
+{'loss': 7.761, 'grad_norm': 2.792020797729492, 'learning_rate': 8.500000000000002e-06, 'epoch': 0.1}
+{'loss': 7.6251, 'grad_norm': 2.549994468688965, 'learning_rate': 9e-06, 'epoch': 0.1}
+{'loss': 7.4803, 'grad_norm': 2.3393728733062744, 'learning_rate': 9.5e-06, 'epoch': 0.11}
+{'loss': 7.3186, 'grad_norm': 2.8744332790374756, 'learning_rate': 1e-05, 'epoch': 0.11}
+{'loss': 7.2298, 'grad_norm': 1.95337975025177, 'learning_rate': 1.05e-05, 'epoch': 0.12}
+{'loss': 7.136, 'grad_norm': 2.156261920928955, 'learning_rate': 1.1000000000000001e-05, 'epoch': 0.13}
+{'loss': 7.0287, 'grad_norm': 2.040726661682129, 'learning_rate': 1.1500000000000002e-05, 'epoch': 0.13}
+{'loss': 6.9376, 'grad_norm': 2.147550582885742, 'learning_rate': 1.2e-05, 'epoch': 0.14}
+{'loss': 6.8987, 'grad_norm': 2.419684648513794, 'learning_rate': 1.25e-05, 'epoch': 0.14}
+{'loss': 6.8369, 'grad_norm': 1.5293253660202026, 'learning_rate': 1.3000000000000001e-05, 'epoch': 0.15}
+{'loss': 6.7625, 'grad_norm': 2.4937326908111572, 'learning_rate': 1.3500000000000001e-05, 'epoch': 0.16}
+{'loss': 6.7237, 'grad_norm': 2.5087127685546875, 'learning_rate': 1.4000000000000001e-05, 'epoch': 0.16}
+{'loss': 6.7109, 'grad_norm': 1.5482823848724365, 'learning_rate': 1.45e-05, 'epoch': 0.17}
+{'loss': 6.6613, 'grad_norm': 2.4903125762939453, 'learning_rate': 1.5e-05, 'epoch': 0.17}
+{'loss': 6.6248, 'grad_norm': 3.5624024868011475, 'learning_rate': 1.55e-05, 'epoch': 0.18}
+{'loss': 6.606, 'grad_norm': 5.1260666847229, 'learning_rate': 1.6000000000000003e-05, 'epoch': 0.18}
+{'loss': 6.6266, 'grad_norm': 2.5122170448303223, 'learning_rate': 1.65e-05, 'epoch': 0.19}
+{'loss': 6.571, 'grad_norm': 2.002775192260742, 'learning_rate': 1.7000000000000003e-05, 'epoch': 0.2}
+{'loss': 6.5593, 'grad_norm': 1.6555070877075195, 'learning_rate': 1.75e-05, 'epoch': 0.2}
+{'loss': 6.5288, 'grad_norm': 5.010408401489258, 'learning_rate': 1.8e-05, 'epoch': 0.21}
+{'loss': 6.5213, 'grad_norm': 1.9755157232284546, 'learning_rate': 1.85e-05, 'epoch': 0.21}
+{'loss': 6.4629, 'grad_norm': 2.2749240398406982, 'learning_rate': 1.9e-05, 'epoch': 0.22}
+{'loss': 6.4937, 'grad_norm': 3.620232582092285, 'learning_rate': 1.9500000000000003e-05, 'epoch': 0.22}
+{'loss': 6.444, 'grad_norm': 2.032214641571045, 'learning_rate': 2e-05, 'epoch': 0.23}
+{'loss': 6.4267, 'grad_norm': 2.468402862548828, 'learning_rate': 2.05e-05, 'epoch': 0.24}
+{'loss': 6.4032, 'grad_norm': 2.084977388381958, 'learning_rate': 2.1e-05, 'epoch': 0.24}
+{'loss': 6.3946, 'grad_norm': 2.6172053813934326, 'learning_rate': 2.15e-05, 'epoch': 0.25}
+{'loss': 6.3789, 'grad_norm': 3.0039024353027344, 'learning_rate': 2.2000000000000003e-05, 'epoch': 0.25}
+{'loss': 6.3923, 'grad_norm': 1.6767144203186035, 'learning_rate': 2.25e-05, 'epoch': 0.26}
+{'loss': 6.3333, 'grad_norm': 4.074848651885986, 'learning_rate': 2.3000000000000003e-05, 'epoch': 0.26}
+{'loss': 6.3333, 'grad_norm': 2.885188341140747, 'learning_rate': 2.35e-05, 'epoch': 0.27}
+{'loss': 6.297, 'grad_norm': 2.0869805812835693, 'learning_rate': 2.4e-05, 'epoch': 0.28}
+{'loss': 6.2393, 'grad_norm': 2.609419345855713, 'learning_rate': 2.45e-05, 'epoch': 0.28}
+{'loss': 6.2737, 'grad_norm': 2.56186580657959, 'learning_rate': 2.5e-05, 'epoch': 0.29}
+{'loss': 6.2084, 'grad_norm': 1.8970677852630615, 'learning_rate': 2.5500000000000003e-05, 'epoch': 0.29}
+{'loss': 6.825, 'grad_norm': 72.05806732177734, 'learning_rate': 2.6000000000000002e-05, 'epoch': 0.3}
+{'loss': 6.3931, 'grad_norm': 1.9689005613327026, 'learning_rate': 2.6500000000000004e-05, 'epoch': 0.3}
+{'loss': 6.2246, 'grad_norm': 2.1896631717681885, 'learning_rate': 2.7000000000000002e-05, 'epoch': 0.31}
+{'loss': 6.1815, 'grad_norm': 4.583789825439453, 'learning_rate': 2.7500000000000004e-05, 'epoch': 0.32}
+{'loss': 6.1143, 'grad_norm': 3.7064321041107178, 'learning_rate': 2.8000000000000003e-05, 'epoch': 0.32}
+{'loss': 6.119, 'grad_norm': 1.6995564699172974, 'learning_rate': 2.8499999999999998e-05, 'epoch': 0.33}
+{'loss': 6.1435, 'grad_norm': 2.3913519382476807, 'learning_rate': 2.9e-05, 'epoch': 0.33}
+{'loss': 6.0587, 'grad_norm': 3.105802536010742, 'learning_rate': 2.95e-05, 'epoch': 0.34}
+{'loss': 6.1034, 'grad_norm': 1.9124610424041748, 'learning_rate': 3e-05, 'epoch': 0.34}
+{'loss': 6.0529, 'grad_norm': 2.707331657409668, 'learning_rate': 3.05e-05, 'epoch': 0.35}
+{'loss': 6.0769, 'grad_norm': 2.319321870803833, 'learning_rate': 3.1e-05, 'epoch': 0.36}
+{'loss': 6.0737, 'grad_norm': 1.970542073249817, 'learning_rate': 3.15e-05, 'epoch': 0.36}
+{'loss': 5.9737, 'grad_norm': 2.0732107162475586, 'learning_rate': 3.2000000000000005e-05, 'epoch': 0.37}
+{'loss': 5.9883, 'grad_norm': 4.50523042678833, 'learning_rate': 3.2500000000000004e-05, 'epoch': 0.37}
+{'loss': 5.9738, 'grad_norm': 1.6544623374938965, 'learning_rate': 3.3e-05, 'epoch': 0.38}
+{'loss': 5.9409, 'grad_norm': 1.7353025674819946, 'learning_rate': 3.35e-05, 'epoch': 0.38}
+{'loss': 5.8607, 'grad_norm': 2.4177908897399902, 'learning_rate': 3.4000000000000007e-05, 'epoch': 0.39}
+{'loss': 5.9205, 'grad_norm': 2.5148210525512695, 'learning_rate': 3.45e-05, 'epoch': 0.4}
+{'loss': 5.8985, 'grad_norm': 2.590613842010498, 'learning_rate': 3.5e-05, 'epoch': 0.4}
+{'loss': 5.8444, 'grad_norm': 1.9567346572875977, 'learning_rate': 3.55e-05, 'epoch': 0.41}
+{'loss': 5.8868, 'grad_norm': 3.8777434825897217, 'learning_rate': 3.6e-05, 'epoch': 0.41}
+{'loss': 5.7993, 'grad_norm': 3.3018198013305664, 'learning_rate': 3.65e-05, 'epoch': 0.42}
+{'loss': 5.7856, 'grad_norm': 2.752387523651123, 'learning_rate': 3.7e-05, 'epoch': 0.43}
+{'loss': 5.8193, 'grad_norm': 2.77730393409729, 'learning_rate': 3.7500000000000003e-05, 'epoch': 0.43}
+{'loss': 5.7811, 'grad_norm': 1.8536241054534912, 'learning_rate': 3.8e-05, 'epoch': 0.44}
+{'loss': 5.7732, 'grad_norm': 1.8928744792938232, 'learning_rate': 3.85e-05, 'epoch': 0.44}
+{'loss': 5.7638, 'grad_norm': 3.0804221630096436, 'learning_rate': 3.9000000000000006e-05, 'epoch': 0.45}
+{'loss': 5.7104, 'grad_norm': 2.771130323410034, 'learning_rate': 3.9500000000000005e-05, 'epoch': 0.45}
+{'loss': 5.6699, 'grad_norm': 3.3369624614715576, 'learning_rate': 4e-05, 'epoch': 0.46}
+{'loss': 5.7005, 'grad_norm': 2.156682252883911, 'learning_rate': 4.05e-05, 'epoch': 0.47}
+{'loss': 5.6653, 'grad_norm': 1.8618643283843994, 'learning_rate': 4.1e-05, 'epoch': 0.47}
+{'loss': 5.6899, 'grad_norm': 4.0401458740234375, 'learning_rate': 4.15e-05, 'epoch': 0.48}
+{'loss': 5.6509, 'grad_norm': 2.14341139793396, 'learning_rate': 4.2e-05, 'epoch': 0.48}
+{'loss': 5.6362, 'grad_norm': 2.8897228240966797, 'learning_rate': 4.25e-05, 'epoch': 0.49}
+{'loss': 5.6282, 'grad_norm': 2.2010457515716553, 'learning_rate': 4.3e-05, 'epoch': 0.49}
+{'loss': 5.6147, 'grad_norm': 2.02427077293396, 'learning_rate': 4.35e-05, 'epoch': 0.5}
+{'loss': 5.6123, 'grad_norm': 1.9486312866210938, 'learning_rate': 4.4000000000000006e-05, 'epoch': 0.51}
+{'loss': 5.6125, 'grad_norm': 1.9781122207641602, 'learning_rate': 4.4500000000000004e-05, 'epoch': 0.51}
+{'loss': 5.5844, 'grad_norm': 2.069385528564453, 'learning_rate': 4.5e-05, 'epoch': 0.52}
+{'loss': 5.6115, 'grad_norm': 52.123844146728516, 'learning_rate': 4.55e-05, 'epoch': 0.52}
+{'loss': 5.5356, 'grad_norm': 1.9142512083053589, 'learning_rate': 4.600000000000001e-05, 'epoch': 0.53}
+{'loss': 5.5443, 'grad_norm': 2.6590237617492676, 'learning_rate': 4.6500000000000005e-05, 'epoch': 0.53}
+{'loss': 5.5028, 'grad_norm': 1.7980990409851074, 'learning_rate': 4.7e-05, 'epoch': 0.54}
+{'loss': 5.4412, 'grad_norm': 2.1112303733825684, 'learning_rate': 4.75e-05, 'epoch': 0.55}
+{'loss': 5.4485, 'grad_norm': 3.2449238300323486, 'learning_rate': 4.8e-05, 'epoch': 0.55}
+{'loss': 5.4416, 'grad_norm': 2.456397771835327, 'learning_rate': 4.85e-05, 'epoch': 0.56}
+{'loss': 5.421, 'grad_norm': 2.243213653564453, 'learning_rate': 4.9e-05, 'epoch': 0.56}
+{'loss': 5.4488, 'grad_norm': 2.1592395305633545, 'learning_rate': 4.9500000000000004e-05, 'epoch': 0.57}
+{'loss': 5.457, 'grad_norm': 1.6209907531738281, 'learning_rate': 5e-05, 'epoch': 0.57}
+[WARNING|trainer.py:761] 2025-05-15 19:38:35,852 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:36,240 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:36,240 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:38:45,834 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:45,835 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:45,859 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:45,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:38:54,770 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:54,770 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:54,790 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:38:54,790 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:39:06,116 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:06,117 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:06,156 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:06,157 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:39:17,982 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:17,983 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:18,021 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:18,021 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:39:29,347 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:29,348 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:29,390 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:29,390 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:39:40,853 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:40,853 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:40,889 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:40,889 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:39:52,403 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:52,403 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:52,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:39:52,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:00,119 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:00,119 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:00,139 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:00,139 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:07,961 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:07,962 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:07,981 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:07,981 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:15,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:15,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:15,803 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:15,803 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:23,551 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:23,551 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:23,571 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:23,571 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:30,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:30,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:30,897 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:30,897 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:39,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:39,671 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:39,690 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:39,690 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:47,551 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:47,551 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:47,570 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:47,570 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:40:55,538 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:55,539 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:55,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:40:55,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:41:00,111 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:41:00,112 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:41:00,136 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:41:00,137 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 5.736476421356201, 'eval_wer': 1.0291275850378574, 'eval_runtime': 168.2098, 'eval_samples_per_second': 9.458, 'eval_steps_per_second': 0.101, 'epoch': 0.57}
+{'loss': 5.3579, 'grad_norm': 2.0220963954925537, 'learning_rate': 5.05e-05, 'epoch': 0.58}
+{'loss': 5.3937, 'grad_norm': 3.0556018352508545, 'learning_rate': 5.1000000000000006e-05, 'epoch': 0.59}
+{'loss': 5.3661, 'grad_norm': 2.5268030166625977, 'learning_rate': 5.1500000000000005e-05, 'epoch': 0.59}
+{'loss': 5.427, 'grad_norm': 6.735248565673828, 'learning_rate': 5.2000000000000004e-05, 'epoch': 0.6}
+{'loss': 5.5775, 'grad_norm': 5.201588153839111, 'learning_rate': 5.25e-05, 'epoch': 0.6}
+{'loss': 5.3778, 'grad_norm': 2.0221407413482666, 'learning_rate': 5.300000000000001e-05, 'epoch': 0.61}
+{'loss': 5.3581, 'grad_norm': 1.9622694253921509, 'learning_rate': 5.3500000000000006e-05, 'epoch': 0.61}
+{'loss': 5.3513, 'grad_norm': 1.7550222873687744, 'learning_rate': 5.4000000000000005e-05, 'epoch': 0.62}
+{'loss': 5.2855, 'grad_norm': 2.479619026184082, 'learning_rate': 5.45e-05, 'epoch': 0.63}
+{'loss': 5.3142, 'grad_norm': 2.534801959991455, 'learning_rate': 5.500000000000001e-05, 'epoch': 0.63}
+{'loss': 5.3408, 'grad_norm': 2.064847946166992, 'learning_rate': 5.550000000000001e-05, 'epoch': 0.64}
+{'loss': 5.2582, 'grad_norm': 1.9141936302185059, 'learning_rate': 5.6000000000000006e-05, 'epoch': 0.64}
+{'loss': 5.2712, 'grad_norm': 2.138089179992676, 'learning_rate': 5.65e-05, 'epoch': 0.65}
+{'loss': 5.2543, 'grad_norm': 1.825021743774414, 'learning_rate': 5.6999999999999996e-05, 'epoch': 0.65}
+{'loss': 5.2146, 'grad_norm': 1.7678310871124268, 'learning_rate': 5.7499999999999995e-05, 'epoch': 0.66}
+{'loss': 5.1643, 'grad_norm': 2.457432746887207, 'learning_rate': 5.8e-05, 'epoch': 0.67}
+{'loss': 5.2242, 'grad_norm': 2.418137550354004, 'learning_rate': 5.85e-05, 'epoch': 0.67}
+{'loss': 5.156, 'grad_norm': 1.7979555130004883, 'learning_rate': 5.9e-05, 'epoch': 0.68}
+{'loss': 5.1424, 'grad_norm': 2.3807952404022217, 'learning_rate': 5.95e-05, 'epoch': 0.68}
+{'loss': 5.2342, 'grad_norm': 2.2758312225341797, 'learning_rate': 6e-05, 'epoch': 0.69}
+{'loss': 5.1192, 'grad_norm': 1.9458492994308472, 'learning_rate': 6.05e-05, 'epoch': 0.7}
+{'loss': 5.0974, 'grad_norm': 2.064619302749634, 'learning_rate': 6.1e-05, 'epoch': 0.7}
+{'loss': 5.1274, 'grad_norm': 2.2566277980804443, 'learning_rate': 6.15e-05, 'epoch': 0.71}
+{'loss': 5.1261, 'grad_norm': 2.3915159702301025, 'learning_rate': 6.2e-05, 'epoch': 0.71}
+{'loss': 5.122, 'grad_norm': 2.568120002746582, 'learning_rate': 6.25e-05, 'epoch': 0.72}
+{'loss': 5.096, 'grad_norm': 2.387334108352661, 'learning_rate': 6.3e-05, 'epoch': 0.72}
+{'loss': 5.0988, 'grad_norm': 2.991128921508789, 'learning_rate': 6.35e-05, 'epoch': 0.73}
+{'loss': 5.0034, 'grad_norm': 1.900687575340271, 'learning_rate': 6.400000000000001e-05, 'epoch': 0.74}
+{'loss': 5.0093, 'grad_norm': 2.0494322776794434, 'learning_rate': 6.450000000000001e-05, 'epoch': 0.74}
+{'loss': 5.0134, 'grad_norm': 2.711444139480591, 'learning_rate': 6.500000000000001e-05, 'epoch': 0.75}
+{'loss': 4.9642, 'grad_norm': 2.2127387523651123, 'learning_rate': 6.55e-05, 'epoch': 0.75}
+{'loss': 5.0235, 'grad_norm': 1.9456676244735718, 'learning_rate': 6.6e-05, 'epoch': 0.76}
+{'loss': 4.9891, 'grad_norm': 1.8089032173156738, 'learning_rate': 6.65e-05, 'epoch': 0.76}
+{'loss': 4.9657, 'grad_norm': 2.4659690856933594, 'learning_rate': 6.7e-05, 'epoch': 0.77}
+{'loss': 5.0062, 'grad_norm': 2.3967230319976807, 'learning_rate': 6.750000000000001e-05, 'epoch': 0.78}
+{'loss': 4.9346, 'grad_norm': 2.1226890087127686, 'learning_rate': 6.800000000000001e-05, 'epoch': 0.78}
+{'loss': 4.9702, 'grad_norm': 1.9833396673202515, 'learning_rate': 6.850000000000001e-05, 'epoch': 0.79}
+{'loss': 4.9767, 'grad_norm': 1.912986397743225, 'learning_rate': 6.9e-05, 'epoch': 0.79}
+{'loss': 4.9779, 'grad_norm': 2.553302526473999, 'learning_rate': 6.95e-05, 'epoch': 0.8}
+{'loss': 4.9189, 'grad_norm': 2.2005956172943115, 'learning_rate': 7e-05, 'epoch': 0.8}
+{'loss': 4.9111, 'grad_norm': 2.284294366836548, 'learning_rate': 7.05e-05, 'epoch': 0.81}
+{'loss': 4.9468, 'grad_norm': 2.5295588970184326, 'learning_rate': 7.1e-05, 'epoch': 0.82}
+{'loss': 4.9011, 'grad_norm': 2.211534023284912, 'learning_rate': 7.15e-05, 'epoch': 0.82}
+{'loss': 4.8942, 'grad_norm': 2.135462760925293, 'learning_rate': 7.2e-05, 'epoch': 0.83}
+{'loss': 4.8801, 'grad_norm': 2.19386887550354, 'learning_rate': 7.25e-05, 'epoch': 0.83}
+{'loss': 4.8623, 'grad_norm': 2.6439120769500732, 'learning_rate': 7.3e-05, 'epoch': 0.84}
+{'loss': 4.8364, 'grad_norm': 2.874725580215454, 'learning_rate': 7.35e-05, 'epoch': 0.84}
+{'loss': 4.8381, 'grad_norm': 1.9559205770492554, 'learning_rate': 7.4e-05, 'epoch': 0.85}
+{'loss': 4.8564, 'grad_norm': 1.822804570198059, 'learning_rate': 7.450000000000001e-05, 'epoch': 0.86}
+{'loss': 4.869, 'grad_norm': 2.2507824897766113, 'learning_rate': 7.500000000000001e-05, 'epoch': 0.86}
+{'loss': 4.777, 'grad_norm': 2.1126718521118164, 'learning_rate': 7.55e-05, 'epoch': 0.87}
+{'loss': 4.7495, 'grad_norm': 2.6732213497161865, 'learning_rate': 7.6e-05, 'epoch': 0.87}
+{'loss': 4.7961, 'grad_norm': 2.125293731689453, 'learning_rate': 7.65e-05, 'epoch': 0.88}
+{'loss': 4.7528, 'grad_norm': 2.2320406436920166, 'learning_rate': 7.7e-05, 'epoch': 0.88}
+{'loss': 4.7833, 'grad_norm': 2.6552276611328125, 'learning_rate': 7.75e-05, 'epoch': 0.89}
+{'loss': 4.7246, 'grad_norm': 2.2076845169067383, 'learning_rate': 7.800000000000001e-05, 'epoch': 0.9}
+{'loss': 4.8091, 'grad_norm': 2.4645378589630127, 'learning_rate': 7.850000000000001e-05, 'epoch': 0.9}
+{'loss': 4.7109, 'grad_norm': 2.4692769050598145, 'learning_rate': 7.900000000000001e-05, 'epoch': 0.91}
+{'loss': 4.7533, 'grad_norm': 2.0135834217071533, 'learning_rate': 7.950000000000001e-05, 'epoch': 0.91}
+{'loss': 4.7149, 'grad_norm': 3.3233773708343506, 'learning_rate': 8e-05, 'epoch': 0.92}
+{'loss': 4.6994, 'grad_norm': 2.0522029399871826, 'learning_rate': 8.05e-05, 'epoch': 0.92}
+{'loss': 4.7063, 'grad_norm': 1.9845471382141113, 'learning_rate': 8.1e-05, 'epoch': 0.93}
+{'loss': 4.7315, 'grad_norm': 2.1543734073638916, 'learning_rate': 8.15e-05, 'epoch': 0.94}
+{'loss': 4.6213, 'grad_norm': 1.9925730228424072, 'learning_rate': 8.2e-05, 'epoch': 0.94}
+{'loss': 4.7162, 'grad_norm': 2.437191963195801, 'learning_rate': 8.25e-05, 'epoch': 0.95}
+{'loss': 4.6834, 'grad_norm': 2.6762571334838867, 'learning_rate': 8.3e-05, 'epoch': 0.95}
+{'loss': 4.6793, 'grad_norm': 2.2476072311401367, 'learning_rate': 8.35e-05, 'epoch': 0.96}
+{'loss': 4.6565, 'grad_norm': 2.2051050662994385, 'learning_rate': 8.4e-05, 'epoch': 0.96}
+{'loss': 4.6022, 'grad_norm': 2.049757242202759, 'learning_rate': 8.450000000000001e-05, 'epoch': 0.97}
+{'loss': 4.6523, 'grad_norm': 2.2780234813690186, 'learning_rate': 8.5e-05, 'epoch': 0.98}
+{'loss': 4.6201, 'grad_norm': 2.121629476547241, 'learning_rate': 8.55e-05, 'epoch': 0.98}
+{'loss': 4.5953, 'grad_norm': 2.312450885772705, 'learning_rate': 8.6e-05, 'epoch': 0.99}
+{'loss': 4.5872, 'grad_norm': 1.9780007600784302, 'learning_rate': 8.65e-05, 'epoch': 0.99}
+{'loss': 4.514, 'grad_norm': 2.257361888885498, 'learning_rate': 8.7e-05, 'epoch': 1.0}
+{'loss': 4.5915, 'grad_norm': 1.9719204902648926, 'learning_rate': 8.75e-05, 'epoch': 1.01}
+{'loss': 4.4911, 'grad_norm': 2.1014137268066406, 'learning_rate': 8.800000000000001e-05, 'epoch': 1.01}
+{'loss': 4.4604, 'grad_norm': 2.4287660121917725, 'learning_rate': 8.850000000000001e-05, 'epoch': 1.02}
+{'loss': 4.4405, 'grad_norm': 2.763195514678955, 'learning_rate': 8.900000000000001e-05, 'epoch': 1.02}
+{'loss': 4.4641, 'grad_norm': 2.200176477432251, 'learning_rate': 8.950000000000001e-05, 'epoch': 1.03}
+{'loss': 4.4463, 'grad_norm': 2.1211001873016357, 'learning_rate': 9e-05, 'epoch': 1.03}
+{'loss': 4.3736, 'grad_norm': 3.6094770431518555, 'learning_rate': 9.05e-05, 'epoch': 1.04}
+{'loss': 4.3319, 'grad_norm': 3.214155673980713, 'learning_rate': 9.1e-05, 'epoch': 1.05}
+{'loss': 4.2536, 'grad_norm': 3.0764145851135254, 'learning_rate': 9.15e-05, 'epoch': 1.05}
+{'loss': 4.1905, 'grad_norm': 2.361523389816284, 'learning_rate': 9.200000000000001e-05, 'epoch': 1.06}
+{'loss': 4.2394, 'grad_norm': 3.380676031112671, 'learning_rate': 9.250000000000001e-05, 'epoch': 1.06}
+{'loss': 4.2496, 'grad_norm': 2.218505859375, 'learning_rate': 9.300000000000001e-05, 'epoch': 1.07}
+{'loss': 4.0718, 'grad_norm': 2.547895908355713, 'learning_rate': 9.350000000000001e-05, 'epoch': 1.07}
+{'loss': 4.0825, 'grad_norm': 2.4427947998046875, 'learning_rate': 9.4e-05, 'epoch': 1.08}
+{'loss': 3.9951, 'grad_norm': 2.6170310974121094, 'learning_rate': 9.449999999999999e-05, 'epoch': 1.09}
+{'loss': 3.9702, 'grad_norm': 2.4050493240356445, 'learning_rate': 9.5e-05, 'epoch': 1.09}
+{'loss': 3.8448, 'grad_norm': 2.338259696960449, 'learning_rate': 9.55e-05, 'epoch': 1.1}
+{'loss': 3.8478, 'grad_norm': 3.197923183441162, 'learning_rate': 9.6e-05, 'epoch': 1.1}
+{'loss': 3.9211, 'grad_norm': 3.978116750717163, 'learning_rate': 9.65e-05, 'epoch': 1.11}
+{'loss': 3.9001, 'grad_norm': 5.024524211883545, 'learning_rate': 9.7e-05, 'epoch': 1.11}
+{'loss': 3.8398, 'grad_norm': 3.330965995788574, 'learning_rate': 9.75e-05, 'epoch': 1.12}
+{'loss': 3.73, 'grad_norm': 2.9635727405548096, 'learning_rate': 9.8e-05, 'epoch': 1.13}
+{'loss': 3.7353, 'grad_norm': 4.389112949371338, 'learning_rate': 9.850000000000001e-05, 'epoch': 1.13}
+{'loss': 3.6872, 'grad_norm': 4.017416477203369, 'learning_rate': 9.900000000000001e-05, 'epoch': 1.14}
+{'loss': 3.6201, 'grad_norm': 3.254038095474243, 'learning_rate': 9.95e-05, 'epoch': 1.14}
+{'loss': 3.556, 'grad_norm': 3.1984143257141113, 'learning_rate': 0.0001, 'epoch': 1.15}
+[WARNING|trainer.py:761] 2025-05-15 19:56:23,015 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:23,016 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:56:30,531 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:30,532 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:30,553 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:30,553 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:56:37,759 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:37,760 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:37,781 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:37,781 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:56:44,611 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:44,612 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:44,632 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:44,632 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:56:51,810 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:51,811 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:51,831 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:51,832 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:56:59,434 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:59,435 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:59,456 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:56:59,456 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:57:07,547 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:07,548 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:07,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:07,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:57:14,854 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:14,854 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:14,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:14,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:57:22,092 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:22,093 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:22,114 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:22,114 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:57:29,523 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:29,523 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:29,544 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:29,544 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:57:37,592 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:37,593 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:37,613 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:37,614 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:57:45,127 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:45,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:45,148 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:45,148 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:57:53,384 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:53,385 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:53,405 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:57:53,405 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:58:00,771 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:00,772 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:00,792 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:00,792 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:58:08,143 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:08,144 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:08,165 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:08,165 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:58:16,321 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:16,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:16,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:16,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 19:58:21,015 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:21,015 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:21,035 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 19:58:21,036 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 3.298543930053711, 'eval_wer': 0.6563736015368968, 'eval_runtime': 134.2343, 'eval_samples_per_second': 11.852, 'eval_steps_per_second': 0.127, 'epoch': 1.15}
+{'loss': 3.5628, 'grad_norm': 3.599515676498413, 'learning_rate': 9.999997709444327e-05, 'epoch': 1.15}
+{'loss': 3.4545, 'grad_norm': 3.7620060443878174, 'learning_rate': 9.999990837779402e-05, 'epoch': 1.16}
+{'loss': 3.4293, 'grad_norm': 3.044027805328369, 'learning_rate': 9.999979385011526e-05, 'epoch': 1.17}
+{'loss': 3.4216, 'grad_norm': 4.311574459075928, 'learning_rate': 9.999963351151187e-05, 'epoch': 1.17}
+{'loss': 3.4031, 'grad_norm': 3.8230364322662354, 'learning_rate': 9.999942736213082e-05, 'epoch': 1.18}
+{'loss': 3.3488, 'grad_norm': 2.7271487712860107, 'learning_rate': 9.999917540216097e-05, 'epoch': 1.18}
+{'loss': 3.3062, 'grad_norm': 3.1351821422576904, 'learning_rate': 9.999887763183321e-05, 'epoch': 1.19}
+{'loss': 3.2523, 'grad_norm': 3.5218021869659424, 'learning_rate': 9.999853405142033e-05, 'epoch': 1.19}
+{'loss': 3.2321, 'grad_norm': 3.355557680130005, 'learning_rate': 9.999814466123717e-05, 'epoch': 1.2}
+{'loss': 3.2167, 'grad_norm': 2.673678398132324, 'learning_rate': 9.999770946164053e-05, 'epoch': 1.21}
+{'loss': 3.1712, 'grad_norm': 2.6313750743865967, 'learning_rate': 9.999722845302913e-05, 'epoch': 1.21}
+{'loss': 3.1336, 'grad_norm': 2.699028491973877, 'learning_rate': 9.999670163584374e-05, 'epoch': 1.22}
+{'loss': 3.104, 'grad_norm': 3.1718649864196777, 'learning_rate': 9.999612901056704e-05, 'epoch': 1.22}
+{'loss': 3.0972, 'grad_norm': 3.0105576515197754, 'learning_rate': 9.999551057772373e-05, 'epoch': 1.23}
+{'loss': 3.052, 'grad_norm': 2.405269145965576, 'learning_rate': 9.999484633788044e-05, 'epoch': 1.23}
+{'loss': 3.0088, 'grad_norm': 2.575950860977173, 'learning_rate': 9.999413629164581e-05, 'epoch': 1.24}
+{'loss': 2.9572, 'grad_norm': 2.7079427242279053, 'learning_rate': 9.999338043967042e-05, 'epoch': 1.25}
+{'loss': 3.0007, 'grad_norm': 2.3106322288513184, 'learning_rate': 9.999257878264685e-05, 'epoch': 1.25}
+{'loss': 3.0284, 'grad_norm': 2.602318525314331, 'learning_rate': 9.999173132130961e-05, 'epoch': 1.26}
+{'loss': 2.8827, 'grad_norm': 2.740706205368042, 'learning_rate': 9.999083805643521e-05, 'epoch': 1.26}
+{'loss': 2.8553, 'grad_norm': 2.7976179122924805, 'learning_rate': 9.998989898884213e-05, 'epoch': 1.27}
+{'loss': 2.911, 'grad_norm': 2.7452118396759033, 'learning_rate': 9.998891411939077e-05, 'epoch': 1.28}
+{'loss': 2.8641, 'grad_norm': 2.7137744426727295, 'learning_rate': 9.99878834489836e-05, 'epoch': 1.28}
+{'loss': 2.7575, 'grad_norm': 2.503614664077759, 'learning_rate': 9.998680697856495e-05, 'epoch': 1.29}
+{'loss': 2.7739, 'grad_norm': 3.2327475547790527, 'learning_rate': 9.998568470912115e-05, 'epoch': 1.29}
+{'loss': 2.769, 'grad_norm': 3.1317138671875, 'learning_rate': 9.99845166416805e-05, 'epoch': 1.3}
+{'loss': 2.7254, 'grad_norm': 2.6516921520233154, 'learning_rate': 9.99833027773133e-05, 'epoch': 1.3}
+{'loss': 2.7846, 'grad_norm': 2.7394845485687256, 'learning_rate': 9.998204311713172e-05, 'epoch': 1.31}
+{'loss': 2.7072, 'grad_norm': 2.830819606781006, 'learning_rate': 9.998073766228999e-05, 'epoch': 1.32}
+{'loss': 2.733, 'grad_norm': 2.734186887741089, 'learning_rate': 9.997938641398424e-05, 'epoch': 1.32}
+{'loss': 2.6192, 'grad_norm': 2.7175474166870117, 'learning_rate': 9.997798937345256e-05, 'epoch': 1.33}
+{'loss': 2.7071, 'grad_norm': 3.526029586791992, 'learning_rate': 9.997654654197504e-05, 'epoch': 1.33}
+{'loss': 2.6703, 'grad_norm': 2.367809295654297, 'learning_rate': 9.997505792087371e-05, 'epoch': 1.34}
+{'loss': 2.6224, 'grad_norm': 2.6097769737243652, 'learning_rate': 9.99735235115125e-05, 'epoch': 1.34}
+{'loss': 2.571, 'grad_norm': 3.1089775562286377, 'learning_rate': 9.997194331529738e-05, 'epoch': 1.35}
+{'loss': 2.5765, 'grad_norm': 2.848905563354492, 'learning_rate': 9.997031733367622e-05, 'epoch': 1.36}
+{'loss': 2.5917, 'grad_norm': 2.7338247299194336, 'learning_rate': 9.996864556813884e-05, 'epoch': 1.36}
+{'loss': 2.5485, 'grad_norm': 2.7184884548187256, 'learning_rate': 9.996692802021705e-05, 'epoch': 1.37}
+{'loss': 2.5777, 'grad_norm': 2.4794275760650635, 'learning_rate': 9.99651646914846e-05, 'epoch': 1.37}
+{'loss': 2.4702, 'grad_norm': 2.6377339363098145, 'learning_rate': 9.996335558355711e-05, 'epoch': 1.38}
+{'loss': 2.5105, 'grad_norm': 2.6016781330108643, 'learning_rate': 9.996150069809225e-05, 'epoch': 1.38}
+{'loss': 2.4875, 'grad_norm': 2.295804738998413, 'learning_rate': 9.99596000367896e-05, 'epoch': 1.39}
+{'loss': 2.5321, 'grad_norm': 2.5935721397399902, 'learning_rate': 9.995765360139065e-05, 'epoch': 1.4}
+{'loss': 2.5063, 'grad_norm': 2.610018730163574, 'learning_rate': 9.99556613936789e-05, 'epoch': 1.4}
+{'loss': 2.4652, 'grad_norm': 2.441831588745117, 'learning_rate': 9.995362341547968e-05, 'epoch': 1.41}
+{'loss': 2.4431, 'grad_norm': 2.280978202819824, 'learning_rate': 9.995153966866038e-05, 'epoch': 1.41}
+{'loss': 2.4762, 'grad_norm': 2.8101091384887695, 'learning_rate': 9.994941015513024e-05, 'epoch': 1.42}
+{'loss': 2.4469, 'grad_norm': 2.2506802082061768, 'learning_rate': 9.994723487684047e-05, 'epoch': 1.42}
+{'loss': 2.3902, 'grad_norm': 2.431871175765991, 'learning_rate': 9.994501383578422e-05, 'epoch': 1.43}
+{'loss': 2.3476, 'grad_norm': 2.6454572677612305, 'learning_rate': 9.994274703399656e-05, 'epoch': 1.44}
+{'loss': 2.3861, 'grad_norm': 2.3911397457122803, 'learning_rate': 9.994043447355447e-05, 'epoch': 1.44}
+{'loss': 2.3384, 'grad_norm': 3.0244767665863037, 'learning_rate': 9.99380761565769e-05, 'epoch': 1.45}
+{'loss': 2.3815, 'grad_norm': 2.5775461196899414, 'learning_rate': 9.993567208522468e-05, 'epoch': 1.45}
+{'loss': 2.4184, 'grad_norm': 2.2212674617767334, 'learning_rate': 9.993322226170059e-05, 'epoch': 1.46}
+{'loss': 2.3448, 'grad_norm': 2.528367280960083, 'learning_rate': 9.993072668824933e-05, 'epoch': 1.46}
+{'loss': 2.334, 'grad_norm': 2.2349610328674316, 'learning_rate': 9.99281853671575e-05, 'epoch': 1.47}
+{'loss': 2.3842, 'grad_norm': 2.3622207641601562, 'learning_rate': 9.992559830075366e-05, 'epoch': 1.48}
+{'loss': 2.3045, 'grad_norm': 2.2977137565612793, 'learning_rate': 9.99229654914082e-05, 'epoch': 1.48}
+{'loss': 2.3059, 'grad_norm': 1.933606743812561, 'learning_rate': 9.992028694153354e-05, 'epoch': 1.49}
+{'loss': 2.2804, 'grad_norm': 2.331773519515991, 'learning_rate': 9.991756265358393e-05, 'epoch': 1.49}
+{'loss': 2.3432, 'grad_norm': 2.951323986053467, 'learning_rate': 9.991479263005554e-05, 'epoch': 1.5}
+{'loss': 2.281, 'grad_norm': 2.289476156234741, 'learning_rate': 9.991197687348648e-05, 'epoch': 1.5}
+{'loss': 2.2692, 'grad_norm': 2.394831895828247, 'learning_rate': 9.990911538645669e-05, 'epoch': 1.51}
+{'loss': 2.2815, 'grad_norm': 2.339203357696533, 'learning_rate': 9.99062081715881e-05, 'epoch': 1.52}
+{'loss': 2.2323, 'grad_norm': 2.315734624862671, 'learning_rate': 9.990325523154449e-05, 'epoch': 1.52}
+{'loss': 2.2553, 'grad_norm': 2.2262301445007324, 'learning_rate': 9.990025656903151e-05, 'epoch': 1.53}
+{'loss': 2.2106, 'grad_norm': 2.3424930572509766, 'learning_rate': 9.989721218679679e-05, 'epoch': 1.53}
+{'loss': 2.2682, 'grad_norm': 2.5576043128967285, 'learning_rate': 9.989412208762978e-05, 'epoch': 1.54}
+{'loss': 2.2304, 'grad_norm': 2.107931137084961, 'learning_rate': 9.989098627436182e-05, 'epoch': 1.55}
+{'loss': 2.2944, 'grad_norm': 2.4734134674072266, 'learning_rate': 9.988780474986619e-05, 'epoch': 1.55}
+{'loss': 2.2134, 'grad_norm': 2.3347787857055664, 'learning_rate': 9.988457751705799e-05, 'epoch': 1.56}
+{'loss': 2.2543, 'grad_norm': 2.101534366607666, 'learning_rate': 9.988130457889425e-05, 'epoch': 1.56}
+{'loss': 2.1982, 'grad_norm': 2.0245771408081055, 'learning_rate': 9.987798593837385e-05, 'epoch': 1.57}
+{'loss': 2.1985, 'grad_norm': 2.2531967163085938, 'learning_rate': 9.987462159853755e-05, 'epoch': 1.57}
+{'loss': 2.2326, 'grad_norm': 2.476135492324829, 'learning_rate': 9.9871211562468e-05, 'epoch': 1.58}
+{'loss': 2.2304, 'grad_norm': 2.1797146797180176, 'learning_rate': 9.986775583328971e-05, 'epoch': 1.59}
+{'loss': 2.1488, 'grad_norm': 2.2493717670440674, 'learning_rate': 9.986425441416902e-05, 'epoch': 1.59}
+{'loss': 2.2093, 'grad_norm': 2.4548563957214355, 'learning_rate': 9.986070730831422e-05, 'epoch': 1.6}
+{'loss': 2.1303, 'grad_norm': 2.227916955947876, 'learning_rate': 9.985711451897537e-05, 'epoch': 1.6}
+{'loss': 2.1631, 'grad_norm': 2.5574474334716797, 'learning_rate': 9.985347604944443e-05, 'epoch': 1.61}
+{'loss': 2.1326, 'grad_norm': 1.9754066467285156, 'learning_rate': 9.984979190305524e-05, 'epoch': 1.61}
+{'loss': 2.1867, 'grad_norm': 1.9048519134521484, 'learning_rate': 9.984606208318346e-05, 'epoch': 1.62}
+{'loss': 2.1223, 'grad_norm': 2.357179880142212, 'learning_rate': 9.984228659324658e-05, 'epoch': 1.63}
+{'loss': 2.2037, 'grad_norm': 2.1598963737487793, 'learning_rate': 9.983846543670398e-05, 'epoch': 1.63}
+{'loss': 2.1561, 'grad_norm': 2.0762202739715576, 'learning_rate': 9.983459861705686e-05, 'epoch': 1.64}
+{'loss': 2.1443, 'grad_norm': 2.152742862701416, 'learning_rate': 9.983068613784825e-05, 'epoch': 1.64}
+{'loss': 2.124, 'grad_norm': 2.111618995666504, 'learning_rate': 9.982672800266307e-05, 'epoch': 1.65}
+{'loss': 2.1186, 'grad_norm': 2.063375949859619, 'learning_rate': 9.982272421512799e-05, 'epoch': 1.65}
+{'loss': 2.1264, 'grad_norm': 2.5852835178375244, 'learning_rate': 9.981867477891157e-05, 'epoch': 1.66}
+{'loss': 2.1144, 'grad_norm': 2.230330467224121, 'learning_rate': 9.981457969772418e-05, 'epoch': 1.67}
+{'loss': 2.1473, 'grad_norm': 1.8338911533355713, 'learning_rate': 9.9810438975318e-05, 'epoch': 1.67}
+{'loss': 2.0594, 'grad_norm': 1.8844740390777588, 'learning_rate': 9.980625261548707e-05, 'epoch': 1.68}
+{'loss': 2.1078, 'grad_norm': 2.140822649002075, 'learning_rate': 9.98020206220672e-05, 'epoch': 1.68}
+{'loss': 2.1365, 'grad_norm': 2.2550313472747803, 'learning_rate': 9.979774299893601e-05, 'epoch': 1.69}
+{'loss': 2.1481, 'grad_norm': 2.161696434020996, 'learning_rate': 9.979341975001298e-05, 'epoch': 1.69}
+{'loss': 2.0848, 'grad_norm': 2.343641519546509, 'learning_rate': 9.978905087925936e-05, 'epoch': 1.7}
+{'loss': 2.0444, 'grad_norm': 1.7906761169433594, 'learning_rate': 9.97846363906782e-05, 'epoch': 1.71}
+{'loss': 2.063, 'grad_norm': 2.2159507274627686, 'learning_rate': 9.978017628831435e-05, 'epoch': 1.71}
+{'loss': 2.0772, 'grad_norm': 1.9609827995300293, 'learning_rate': 9.977567057625448e-05, 'epoch': 1.72}
+{'loss': 2.043, 'grad_norm': 2.187344789505005, 'learning_rate': 9.977111925862701e-05, 'epoch': 1.72}
+[WARNING|trainer.py:761] 2025-05-15 20:13:31,130 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:31,130 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:13:37,837 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:37,837 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:37,858 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:37,858 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:13:44,636 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:44,636 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:44,656 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:44,657 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:13:50,776 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:50,776 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:50,796 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:50,797 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:13:57,215 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:57,215 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:57,235 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:13:57,236 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:03,617 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:03,617 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:03,640 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:03,640 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:10,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:10,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:10,676 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:10,676 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:17,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:17,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:17,416 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:17,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:23,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:23,418 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:23,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:23,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:30,080 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:30,080 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:30,102 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:30,102 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:36,857 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:36,857 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:36,877 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:36,877 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:43,162 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:43,162 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:43,182 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:43,182 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:50,034 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:50,035 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:50,055 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:50,055 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:14:56,712 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:56,712 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:56,732 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:14:56,732 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:15:02,929 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:02,929 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:02,949 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:02,950 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:15:10,004 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:10,004 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:10,024 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:10,024 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:15:14,301 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:14,302 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:14,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:15:14,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.5376592874526978, 'eval_wer': 0.16281500734546275, 'eval_runtime': 118.538, 'eval_samples_per_second': 13.422, 'eval_steps_per_second': 0.143, 'epoch': 1.72}
+{'loss': 2.0608, 'grad_norm': 2.0185186862945557, 'learning_rate': 9.976652233960216e-05, 'epoch': 1.73}
+{'loss': 2.0297, 'grad_norm': 2.0478994846343994, 'learning_rate': 9.976187982339198e-05, 'epoch': 1.73}
+{'loss': 2.0616, 'grad_norm': 1.8286670446395874, 'learning_rate': 9.975719171425023e-05, 'epoch': 1.74}
+{'loss': 2.0619, 'grad_norm': 2.078399896621704, 'learning_rate': 9.975245801647246e-05, 'epoch': 1.75}
+{'loss': 1.9933, 'grad_norm': 1.829615831375122, 'learning_rate': 9.974767873439603e-05, 'epoch': 1.75}
+{'loss': 2.0745, 'grad_norm': 2.0238797664642334, 'learning_rate': 9.974285387240004e-05, 'epoch': 1.76}
+{'loss': 2.0614, 'grad_norm': 1.9021639823913574, 'learning_rate': 9.973798343490535e-05, 'epoch': 1.76}
+{'loss': 1.9981, 'grad_norm': 2.020947217941284, 'learning_rate': 9.97330674263746e-05, 'epoch': 1.77}
+{'loss': 1.9835, 'grad_norm': 2.1848363876342773, 'learning_rate': 9.972810585131218e-05, 'epoch': 1.77}
+{'loss': 2.0374, 'grad_norm': 1.9264791011810303, 'learning_rate': 9.972309871426417e-05, 'epoch': 1.78}
+{'loss': 2.0116, 'grad_norm': 1.9320201873779297, 'learning_rate': 9.971804601981851e-05, 'epoch': 1.79}
+{'loss': 2.0172, 'grad_norm': 2.040639877319336, 'learning_rate': 9.971294777260478e-05, 'epoch': 1.79}
+{'loss': 2.039, 'grad_norm': 1.878435730934143, 'learning_rate': 9.970780397729437e-05, 'epoch': 1.8}
+{'loss': 1.9758, 'grad_norm': 2.0855300426483154, 'learning_rate': 9.970261463860037e-05, 'epoch': 1.8}
+{'loss': 2.0312, 'grad_norm': 1.8565047979354858, 'learning_rate': 9.96973797612776e-05, 'epoch': 1.81}
+{'loss': 1.9775, 'grad_norm': 2.0382068157196045, 'learning_rate': 9.96920993501226e-05, 'epoch': 1.82}
+{'loss': 1.9888, 'grad_norm': 1.9754124879837036, 'learning_rate': 9.968677340997366e-05, 'epoch': 1.82}
+{'loss': 1.9683, 'grad_norm': 1.8170818090438843, 'learning_rate': 9.968140194571076e-05, 'epoch': 1.83}
+{'loss': 2.0482, 'grad_norm': 2.2989866733551025, 'learning_rate': 9.967598496225562e-05, 'epoch': 1.83}
+{'loss': 2.0328, 'grad_norm': 2.2369909286499023, 'learning_rate': 9.967052246457162e-05, 'epoch': 1.84}
+{'loss': 1.9906, 'grad_norm': 1.9546477794647217, 'learning_rate': 9.966501445766387e-05, 'epoch': 1.84}
+{'loss': 2.0246, 'grad_norm': 2.0692763328552246, 'learning_rate': 9.965946094657922e-05, 'epoch': 1.85}
+{'loss': 1.9528, 'grad_norm': 1.7040553092956543, 'learning_rate': 9.965386193640614e-05, 'epoch': 1.86}
+{'loss': 1.9443, 'grad_norm': 2.292430877685547, 'learning_rate': 9.964821743227483e-05, 'epoch': 1.86}
+{'loss': 1.9865, 'grad_norm': 1.714004397392273, 'learning_rate': 9.96425274393572e-05, 'epoch': 1.87}
+{'loss': 1.9863, 'grad_norm': 1.8055516481399536, 'learning_rate': 9.963679196286675e-05, 'epoch': 1.87}
+{'loss': 2.0021, 'grad_norm': 2.266010046005249, 'learning_rate': 9.963101100805877e-05, 'epoch': 1.88}
+{'loss': 1.9567, 'grad_norm': 2.031609058380127, 'learning_rate': 9.962518458023014e-05, 'epoch': 1.88}
+{'loss': 1.9666, 'grad_norm': 1.9392821788787842, 'learning_rate': 9.961931268471942e-05, 'epoch': 1.89}
+{'loss': 1.9543, 'grad_norm': 1.846899151802063, 'learning_rate': 9.961339532690685e-05, 'epoch': 1.9}
+{'loss': 1.981, 'grad_norm': 1.9800326824188232, 'learning_rate': 9.960743251221434e-05, 'epoch': 1.9}
+{'loss': 1.9292, 'grad_norm': 1.947850227355957, 'learning_rate': 9.960142424610539e-05, 'epoch': 1.91}
+{'loss': 1.9522, 'grad_norm': 1.733098030090332, 'learning_rate': 9.95953705340852e-05, 'epoch': 1.91}
+{'loss': 1.9055, 'grad_norm': 1.806164264678955, 'learning_rate': 9.958927138170058e-05, 'epoch': 1.92}
+{'loss': 1.919, 'grad_norm': 2.001389503479004, 'learning_rate': 9.958312679454002e-05, 'epoch': 1.92}
+{'loss': 1.9778, 'grad_norm': 2.0079329013824463, 'learning_rate': 9.957693677823358e-05, 'epoch': 1.93}
+{'loss': 1.949, 'grad_norm': 1.8081001043319702, 'learning_rate': 9.957070133845297e-05, 'epoch': 1.94}
+{'loss': 1.9185, 'grad_norm': 1.9634689092636108, 'learning_rate': 9.956442048091156e-05, 'epoch': 1.94}
+{'loss': 1.9137, 'grad_norm': 1.979411005973816, 'learning_rate': 9.955809421136427e-05, 'epoch': 1.95}
+{'loss': 1.9222, 'grad_norm': 1.906067132949829, 'learning_rate': 9.955172253560765e-05, 'epoch': 1.95}
+{'loss': 1.9434, 'grad_norm': 1.8121016025543213, 'learning_rate': 9.954530545947988e-05, 'epoch': 1.96}
+{'loss': 1.9087, 'grad_norm': 1.7773370742797852, 'learning_rate': 9.953884298886073e-05, 'epoch': 1.96}
+{'loss': 1.9061, 'grad_norm': 1.8535752296447754, 'learning_rate': 9.953233512967155e-05, 'epoch': 1.97}
+{'loss': 1.8902, 'grad_norm': 1.8436633348464966, 'learning_rate': 9.952578188787528e-05, 'epoch': 1.98}
+{'loss': 1.9193, 'grad_norm': 2.091872453689575, 'learning_rate': 9.951918326947642e-05, 'epoch': 1.98}
+{'loss': 1.9217, 'grad_norm': 1.865073561668396, 'learning_rate': 9.951253928052112e-05, 'epoch': 1.99}
+{'loss': 1.8917, 'grad_norm': 1.6477876901626587, 'learning_rate': 9.950584992709704e-05, 'epoch': 1.99}
+{'loss': 1.8995, 'grad_norm': 1.938935399055481, 'learning_rate': 9.949911521533341e-05, 'epoch': 2.0}
+{'loss': 1.9109, 'grad_norm': 1.6785749197006226, 'learning_rate': 9.949233515140105e-05, 'epoch': 2.0}
+{'loss': 1.8619, 'grad_norm': 1.6445651054382324, 'learning_rate': 9.948550974151228e-05, 'epoch': 2.01}
+{'loss': 1.863, 'grad_norm': 2.163782835006714, 'learning_rate': 9.947863899192105e-05, 'epoch': 2.02}
+{'loss': 1.8514, 'grad_norm': 1.6399071216583252, 'learning_rate': 9.947172290892277e-05, 'epoch': 2.02}
+{'loss': 1.8628, 'grad_norm': 1.8980154991149902, 'learning_rate': 9.946476149885443e-05, 'epoch': 2.03}
+{'loss': 1.8687, 'grad_norm': 1.7344228029251099, 'learning_rate': 9.945775476809459e-05, 'epoch': 2.03}
+{'loss': 1.8337, 'grad_norm': 1.8204574584960938, 'learning_rate': 9.945070272306326e-05, 'epoch': 2.04}
+{'loss': 1.8864, 'grad_norm': 1.9501166343688965, 'learning_rate': 9.9443605370222e-05, 'epoch': 2.04}
+{'loss': 1.8264, 'grad_norm': 1.8548567295074463, 'learning_rate': 9.94364627160739e-05, 'epoch': 2.05}
+{'loss': 1.8747, 'grad_norm': 1.9015278816223145, 'learning_rate': 9.942927476716353e-05, 'epoch': 2.06}
+{'loss': 1.849, 'grad_norm': 5.407815933227539, 'learning_rate': 9.942204153007701e-05, 'epoch': 2.06}
+{'loss': 1.8654, 'grad_norm': 2.2696824073791504, 'learning_rate': 9.94147630114419e-05, 'epoch': 2.07}
+{'loss': 1.8262, 'grad_norm': 2.291529893875122, 'learning_rate': 9.940743921792727e-05, 'epoch': 2.07}
+{'loss': 1.885, 'grad_norm': 1.9089547395706177, 'learning_rate': 9.940007015624368e-05, 'epoch': 2.08}
+{'loss': 1.7987, 'grad_norm': 1.8163701295852661, 'learning_rate': 9.939265583314319e-05, 'epoch': 2.09}
+{'loss': 1.8413, 'grad_norm': 2.1564691066741943, 'learning_rate': 9.938519625541929e-05, 'epoch': 2.09}
+{'loss': 1.8011, 'grad_norm': 1.8651676177978516, 'learning_rate': 9.937769142990695e-05, 'epoch': 2.1}
+{'loss': 1.8566, 'grad_norm': 2.2574386596679688, 'learning_rate': 9.937014136348261e-05, 'epoch': 2.1}
+{'loss': 1.867, 'grad_norm': 1.8635132312774658, 'learning_rate': 9.936254606306414e-05, 'epoch': 2.11}
+{'loss': 1.8858, 'grad_norm': 1.7160543203353882, 'learning_rate': 9.93549055356109e-05, 'epoch': 2.11}
+{'loss': 1.8533, 'grad_norm': 2.180222749710083, 'learning_rate': 9.934721978812364e-05, 'epoch': 2.12}
+{'loss': 1.8363, 'grad_norm': 1.6430362462997437, 'learning_rate': 9.933948882764456e-05, 'epoch': 2.13}
+{'loss': 1.8417, 'grad_norm': 2.0018839836120605, 'learning_rate': 9.933171266125729e-05, 'epoch': 2.13}
+{'loss': 1.8347, 'grad_norm': 1.5961920022964478, 'learning_rate': 9.932389129608693e-05, 'epoch': 2.14}
+{'loss': 1.8379, 'grad_norm': 1.927363395690918, 'learning_rate': 9.931602473929988e-05, 'epoch': 2.14}
+{'loss': 1.8172, 'grad_norm': 1.6899296045303345, 'learning_rate': 9.930811299810407e-05, 'epoch': 2.15}
+{'loss': 1.7898, 'grad_norm': 1.7401469945907593, 'learning_rate': 9.930015607974874e-05, 'epoch': 2.15}
+{'loss': 1.8134, 'grad_norm': 1.5379750728607178, 'learning_rate': 9.929215399152457e-05, 'epoch': 2.16}
+{'loss': 1.8462, 'grad_norm': 2.779557943344116, 'learning_rate': 9.92841067407636e-05, 'epoch': 2.17}
+{'loss': 1.8363, 'grad_norm': 2.0340523719787598, 'learning_rate': 9.927601433483932e-05, 'epoch': 2.17}
+{'loss': 1.8127, 'grad_norm': 2.0397660732269287, 'learning_rate': 9.92678767811665e-05, 'epoch': 2.18}
+{'loss': 1.807, 'grad_norm': 1.8008798360824585, 'learning_rate': 9.925969408720134e-05, 'epoch': 2.18}
+{'loss': 1.8112, 'grad_norm': 1.5582823753356934, 'learning_rate': 9.925146626044138e-05, 'epoch': 2.19}
+{'loss': 1.8477, 'grad_norm': 1.7653279304504395, 'learning_rate': 9.924319330842551e-05, 'epoch': 2.19}
+{'loss': 1.7837, 'grad_norm': 1.6408051252365112, 'learning_rate': 9.923487523873397e-05, 'epoch': 2.2}
+{'loss': 1.8259, 'grad_norm': 1.5557013750076294, 'learning_rate': 9.922651205898834e-05, 'epoch': 2.21}
+{'loss': 1.8289, 'grad_norm': 1.7891162633895874, 'learning_rate': 9.921810377685153e-05, 'epoch': 2.21}
+{'loss': 1.7728, 'grad_norm': 1.9197757244110107, 'learning_rate': 9.920965040002781e-05, 'epoch': 2.22}
+{'loss': 1.7889, 'grad_norm': 1.8888788223266602, 'learning_rate': 9.92011519362627e-05, 'epoch': 2.22}
+{'loss': 1.7782, 'grad_norm': 1.7249999046325684, 'learning_rate': 9.919260839334309e-05, 'epoch': 2.23}
+{'loss': 1.8266, 'grad_norm': 1.797751784324646, 'learning_rate': 9.918401977909716e-05, 'epoch': 2.23}
+{'loss': 1.8381, 'grad_norm': 1.8753774166107178, 'learning_rate': 9.917538610139438e-05, 'epoch': 2.24}
+{'loss': 1.7924, 'grad_norm': 1.7335102558135986, 'learning_rate': 9.916670736814552e-05, 'epoch': 2.25}
+{'loss': 1.8102, 'grad_norm': 1.8527804613113403, 'learning_rate': 9.91579835873026e-05, 'epoch': 2.25}
+{'loss': 1.7871, 'grad_norm': 1.818963885307312, 'learning_rate': 9.914921476685897e-05, 'epoch': 2.26}
+{'loss': 1.8068, 'grad_norm': 2.0059568881988525, 'learning_rate': 9.914040091484921e-05, 'epoch': 2.26}
+{'loss': 1.8109, 'grad_norm': 1.555553913116455, 'learning_rate': 9.913154203934917e-05, 'epoch': 2.27}
+{'loss': 1.8161, 'grad_norm': 1.7397311925888062, 'learning_rate': 9.912263814847596e-05, 'epoch': 2.27}
+{'loss': 1.7862, 'grad_norm': 1.7555936574935913, 'learning_rate': 9.911368925038792e-05, 'epoch': 2.28}
+{'loss': 1.8232, 'grad_norm': 1.83700430393219, 'learning_rate': 9.910469535328466e-05, 'epoch': 2.29}
+{'loss': 1.8019, 'grad_norm': 1.6713528633117676, 'learning_rate': 9.909565646540698e-05, 'epoch': 2.29}
+{'loss': 1.7877, 'grad_norm': 1.5632139444351196, 'learning_rate': 9.908657259503692e-05, 'epoch': 2.3}
+[WARNING|trainer.py:761] 2025-05-15 20:30:39,620 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:39,621 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:30:46,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:46,397 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:46,436 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:46,436 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:30:53,264 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:53,264 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:53,286 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:53,286 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:30:59,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:59,397 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:59,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:30:59,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:05,943 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:05,944 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:05,964 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:05,964 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:12,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:12,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:12,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:12,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:19,738 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:19,739 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:19,760 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:19,760 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:26,172 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:26,172 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:26,193 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:26,193 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:32,120 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:32,120 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:32,140 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:32,141 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:38,700 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:38,700 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:38,722 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:38,722 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:45,569 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:45,569 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:45,590 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:45,590 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:51,733 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:51,734 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:51,754 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:51,754 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:31:58,472 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:58,473 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:58,494 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:31:58,494 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:32:05,209 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:05,209 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:05,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:05,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:32:11,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:11,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:11,437 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:11,437 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:32:18,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:18,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:18,942 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:18,942 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:32:23,426 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:23,426 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:23,447 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:32:23,447 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.3252075910568237, 'eval_wer': 0.12863035371228387, 'eval_runtime': 118.8863, 'eval_samples_per_second': 13.383, 'eval_steps_per_second': 0.143, 'epoch': 2.3}
+{'loss': 1.8081, 'grad_norm': 1.6311732530593872, 'learning_rate': 9.907744375049777e-05, 'epoch': 2.3}
+{'loss': 1.8197, 'grad_norm': 1.7291101217269897, 'learning_rate': 9.906826994015398e-05, 'epoch': 2.31}
+{'loss': 1.8088, 'grad_norm': 1.5252999067306519, 'learning_rate': 9.905905117241123e-05, 'epoch': 2.31}
+{'loss': 1.8088, 'grad_norm': 1.73078453540802, 'learning_rate': 9.904978745571635e-05, 'epoch': 2.32}
+{'loss': 1.7625, 'grad_norm': 1.774350881576538, 'learning_rate': 9.904047879855742e-05, 'epoch': 2.33}
+{'loss': 1.7548, 'grad_norm': 1.5366252660751343, 'learning_rate': 9.903112520946365e-05, 'epoch': 2.33}
+{'loss': 1.8042, 'grad_norm': 2.1595780849456787, 'learning_rate': 9.902172669700545e-05, 'epoch': 2.34}
+{'loss': 1.782, 'grad_norm': 1.7477549314498901, 'learning_rate': 9.901228326979439e-05, 'epoch': 2.34}
+{'loss': 1.7851, 'grad_norm': 1.615454912185669, 'learning_rate': 9.900279493648313e-05, 'epoch': 2.35}
+{'loss': 1.8087, 'grad_norm': 1.691811203956604, 'learning_rate': 9.899326170576557e-05, 'epoch': 2.35}
+{'loss': 1.7835, 'grad_norm': 1.5970778465270996, 'learning_rate': 9.89836835863767e-05, 'epoch': 2.36}
+{'loss': 1.7658, 'grad_norm': 1.557707667350769, 'learning_rate': 9.897406058709263e-05, 'epoch': 2.37}
+{'loss': 1.7659, 'grad_norm': 1.424856424331665, 'learning_rate': 9.896439271673062e-05, 'epoch': 2.37}
+{'loss': 1.7797, 'grad_norm': 1.9639933109283447, 'learning_rate': 9.895467998414903e-05, 'epoch': 2.38}
+{'loss': 1.8025, 'grad_norm': 1.7225106954574585, 'learning_rate': 9.89449223982473e-05, 'epoch': 2.38}
+{'loss': 1.7508, 'grad_norm': 2.075155735015869, 'learning_rate': 9.893511996796604e-05, 'epoch': 2.39}
+{'loss': 1.7818, 'grad_norm': 1.6480848789215088, 'learning_rate': 9.892527270228688e-05, 'epoch': 2.4}
+{'loss': 1.767, 'grad_norm': 1.5570247173309326, 'learning_rate': 9.891538061023254e-05, 'epoch': 2.4}
+{'loss': 1.7814, 'grad_norm': 1.6227962970733643, 'learning_rate': 9.890544370086684e-05, 'epoch': 2.41}
+{'loss': 1.7697, 'grad_norm': 1.8115174770355225, 'learning_rate': 9.889546198329469e-05, 'epoch': 2.41}
+{'loss': 1.763, 'grad_norm': 1.9101393222808838, 'learning_rate': 9.888543546666196e-05, 'epoch': 2.42}
+{'loss': 1.7417, 'grad_norm': 1.8728480339050293, 'learning_rate': 9.887536416015565e-05, 'epoch': 2.42}
+{'loss': 1.7757, 'grad_norm': 1.5599184036254883, 'learning_rate': 9.88652480730038e-05, 'epoch': 2.43}
+{'loss': 1.7791, 'grad_norm': 1.5323339700698853, 'learning_rate': 9.885508721447544e-05, 'epoch': 2.44}
+{'loss': 1.742, 'grad_norm': 1.7740155458450317, 'learning_rate': 9.884488159388062e-05, 'epoch': 2.44}
+{'loss': 1.8082, 'grad_norm': 1.5832844972610474, 'learning_rate': 9.883463122057046e-05, 'epoch': 2.45}
+{'loss': 1.745, 'grad_norm': 1.515741229057312, 'learning_rate': 9.882433610393701e-05, 'epoch': 2.45}
+{'loss': 1.7197, 'grad_norm': 1.6691546440124512, 'learning_rate': 9.88139962534134e-05, 'epoch': 2.46}
+{'loss': 1.7331, 'grad_norm': 1.5105769634246826, 'learning_rate': 9.880361167847368e-05, 'epoch': 2.46}
+{'loss': 1.7437, 'grad_norm': 1.6371650695800781, 'learning_rate': 9.879318238863292e-05, 'epoch': 2.47}
+{'loss': 1.7572, 'grad_norm': 1.59730064868927, 'learning_rate': 9.878270839344712e-05, 'epoch': 2.48}
+{'loss': 1.7431, 'grad_norm': 1.6025923490524292, 'learning_rate': 9.877218970251328e-05, 'epoch': 2.48}
+{'loss': 1.7379, 'grad_norm': 1.5592079162597656, 'learning_rate': 9.876162632546937e-05, 'epoch': 2.49}
+{'loss': 1.7847, 'grad_norm': 1.7612663507461548, 'learning_rate': 9.875101827199422e-05, 'epoch': 2.49}
+{'loss': 1.788, 'grad_norm': 1.7232937812805176, 'learning_rate': 9.874036555180768e-05, 'epoch': 2.5}
+{'loss': 1.7413, 'grad_norm': 2.1759378910064697, 'learning_rate': 9.872966817467051e-05, 'epoch': 2.5}
+{'loss': 1.7487, 'grad_norm': 1.8792170286178589, 'learning_rate': 9.871892615038436e-05, 'epoch': 2.51}
+{'loss': 1.7151, 'grad_norm': 1.9813764095306396, 'learning_rate': 9.870813948879179e-05, 'epoch': 2.52}
+{'loss': 1.7605, 'grad_norm': 1.5582070350646973, 'learning_rate': 9.869730819977631e-05, 'epoch': 2.52}
+{'loss': 1.6946, 'grad_norm': 1.612741470336914, 'learning_rate': 9.868643229326226e-05, 'epoch': 2.53}
+{'loss': 1.7403, 'grad_norm': 1.4968715906143188, 'learning_rate': 9.867551177921489e-05, 'epoch': 2.53}
+{'loss': 1.7482, 'grad_norm': 2.0964488983154297, 'learning_rate': 9.86645466676403e-05, 'epoch': 2.54}
+{'loss': 1.7483, 'grad_norm': 1.4919378757476807, 'learning_rate': 9.86535369685855e-05, 'epoch': 2.54}
+{'loss': 1.7387, 'grad_norm': 1.7294507026672363, 'learning_rate': 9.864248269213833e-05, 'epoch': 2.55}
+{'loss': 1.7712, 'grad_norm': 1.449524164199829, 'learning_rate': 9.863138384842746e-05, 'epoch': 2.56}
+{'loss': 1.7172, 'grad_norm': 1.7336524724960327, 'learning_rate': 9.862024044762239e-05, 'epoch': 2.56}
+{'loss': 1.7152, 'grad_norm': 1.4938337802886963, 'learning_rate': 9.860905249993347e-05, 'epoch': 2.57}
+{'loss': 1.742, 'grad_norm': 1.5241613388061523, 'learning_rate': 9.859782001561187e-05, 'epoch': 2.57}
+{'loss': 1.7256, 'grad_norm': 2.017444133758545, 'learning_rate': 9.858654300494957e-05, 'epoch': 2.58}
+{'loss': 1.7367, 'grad_norm': 1.6224578619003296, 'learning_rate': 9.857522147827929e-05, 'epoch': 2.58}
+{'loss': 1.7262, 'grad_norm': 1.5634706020355225, 'learning_rate': 9.856385544597463e-05, 'epoch': 2.59}
+{'loss': 1.7694, 'grad_norm': 1.6724357604980469, 'learning_rate': 9.855244491844989e-05, 'epoch': 2.6}
+{'loss': 1.7129, 'grad_norm': 1.4197584390640259, 'learning_rate': 9.854098990616018e-05, 'epoch': 2.6}
+{'loss': 1.7153, 'grad_norm': 1.4949312210083008, 'learning_rate': 9.852949041960138e-05, 'epoch': 2.61}
+{'loss': 1.7437, 'grad_norm': 1.4707062244415283, 'learning_rate': 9.851794646931009e-05, 'epoch': 2.61}
+{'loss': 1.6803, 'grad_norm': 1.5612741708755493, 'learning_rate': 9.850635806586366e-05, 'epoch': 2.62}
+{'loss': 1.7291, 'grad_norm': 2.0915966033935547, 'learning_rate': 9.849472521988018e-05, 'epoch': 2.62}
+{'loss': 1.732, 'grad_norm': 1.6557848453521729, 'learning_rate': 9.848304794201845e-05, 'epoch': 2.63}
+{'loss': 1.694, 'grad_norm': 1.4456892013549805, 'learning_rate': 9.847132624297799e-05, 'epoch': 2.64}
+{'loss': 1.7224, 'grad_norm': 1.5064661502838135, 'learning_rate': 9.845956013349902e-05, 'epoch': 2.64}
+{'loss': 1.6923, 'grad_norm': 1.7379176616668701, 'learning_rate': 9.844774962436244e-05, 'epoch': 2.65}
+{'loss': 1.7385, 'grad_norm': 1.7334299087524414, 'learning_rate': 9.843589472638985e-05, 'epoch': 2.65}
+{'loss': 1.7113, 'grad_norm': 2.0103020668029785, 'learning_rate': 9.842399545044355e-05, 'epoch': 2.66}
+{'loss': 1.7217, 'grad_norm': 1.9990754127502441, 'learning_rate': 9.841205180742638e-05, 'epoch': 2.67}
+{'loss': 1.752, 'grad_norm': 1.6340017318725586, 'learning_rate': 9.840006380828202e-05, 'epoch': 2.67}
+{'loss': 1.7218, 'grad_norm': 1.720790147781372, 'learning_rate': 9.838803146399461e-05, 'epoch': 2.68}
+{'loss': 1.6949, 'grad_norm': 1.9331406354904175, 'learning_rate': 9.837595478558906e-05, 'epoch': 2.68}
+{'loss': 1.7186, 'grad_norm': 1.696510672569275, 'learning_rate': 9.836383378413082e-05, 'epoch': 2.69}
+{'loss': 1.7275, 'grad_norm': 1.6908689737319946, 'learning_rate': 9.835166847072595e-05, 'epoch': 2.69}
+{'loss': 1.657, 'grad_norm': 1.7099285125732422, 'learning_rate': 9.833945885652119e-05, 'epoch': 2.7}
+{'loss': 1.741, 'grad_norm': 1.8270260095596313, 'learning_rate': 9.832720495270378e-05, 'epoch': 2.71}
+{'loss': 1.728, 'grad_norm': 1.5068602561950684, 'learning_rate': 9.831490677050163e-05, 'epoch': 2.71}
+{'loss': 1.7005, 'grad_norm': 1.7136476039886475, 'learning_rate': 9.83025643211831e-05, 'epoch': 2.72}
+{'loss': 1.6879, 'grad_norm': 1.5944297313690186, 'learning_rate': 9.829017761605723e-05, 'epoch': 2.72}
+{'loss': 1.707, 'grad_norm': 1.8268508911132812, 'learning_rate': 9.827774666647357e-05, 'epoch': 2.73}
+{'loss': 1.7282, 'grad_norm': 1.5303763151168823, 'learning_rate': 9.826527148382218e-05, 'epoch': 2.73}
+{'loss': 1.7205, 'grad_norm': 1.5995979309082031, 'learning_rate': 9.825275207953367e-05, 'epoch': 2.74}
+{'loss': 1.7247, 'grad_norm': 1.5851478576660156, 'learning_rate': 9.824018846507919e-05, 'epoch': 2.75}
+{'loss': 1.7032, 'grad_norm': 1.6493960618972778, 'learning_rate': 9.822758065197036e-05, 'epoch': 2.75}
+{'loss': 1.7158, 'grad_norm': 1.381735920906067, 'learning_rate': 9.821492865175931e-05, 'epoch': 2.76}
+{'loss': 1.7101, 'grad_norm': 1.8293508291244507, 'learning_rate': 9.82022324760387e-05, 'epoch': 2.76}
+{'loss': 1.6721, 'grad_norm': 1.5041792392730713, 'learning_rate': 9.81894921364416e-05, 'epoch': 2.77}
+{'loss': 1.6853, 'grad_norm': 1.661577820777893, 'learning_rate': 9.817670764464159e-05, 'epoch': 2.77}
+{'loss': 1.6916, 'grad_norm': 1.6965444087982178, 'learning_rate': 9.816387901235267e-05, 'epoch': 2.78}
+{'loss': 1.7065, 'grad_norm': 1.4665067195892334, 'learning_rate': 9.815100625132935e-05, 'epoch': 2.79}
+{'loss': 1.72, 'grad_norm': 1.4456219673156738, 'learning_rate': 9.813808937336648e-05, 'epoch': 2.79}
+{'loss': 1.7002, 'grad_norm': 1.7180407047271729, 'learning_rate': 9.812512839029941e-05, 'epoch': 2.8}
+{'loss': 1.6886, 'grad_norm': 1.5545158386230469, 'learning_rate': 9.811212331400388e-05, 'epoch': 2.8}
+{'loss': 1.6949, 'grad_norm': 1.6606507301330566, 'learning_rate': 9.809907415639601e-05, 'epoch': 2.81}
+{'loss': 1.7195, 'grad_norm': 1.3799747228622437, 'learning_rate': 9.808598092943235e-05, 'epoch': 2.81}
+{'loss': 1.7192, 'grad_norm': 1.8167319297790527, 'learning_rate': 9.807284364510976e-05, 'epoch': 2.82}
+{'loss': 1.6955, 'grad_norm': 1.4204845428466797, 'learning_rate': 9.805966231546558e-05, 'epoch': 2.83}
+{'loss': 1.7277, 'grad_norm': 1.6783603429794312, 'learning_rate': 9.804643695257738e-05, 'epoch': 2.83}
+{'loss': 1.7599, 'grad_norm': 1.9263339042663574, 'learning_rate': 9.803316756856317e-05, 'epoch': 2.84}
+{'loss': 1.7167, 'grad_norm': 1.6194292306900024, 'learning_rate': 9.801985417558126e-05, 'epoch': 2.84}
+{'loss': 1.7194, 'grad_norm': 1.6685937643051147, 'learning_rate': 9.80064967858303e-05, 'epoch': 2.85}
+{'loss': 1.7196, 'grad_norm': 1.5313128232955933, 'learning_rate': 9.79930954115492e-05, 'epoch': 2.85}
+{'loss': 1.7082, 'grad_norm': 1.4977713823318481, 'learning_rate': 9.797965006501723e-05, 'epoch': 2.86}
+{'loss': 1.6943, 'grad_norm': 1.5906270742416382, 'learning_rate': 9.796616075855396e-05, 'epoch': 2.87}
+{'loss': 1.6818, 'grad_norm': 1.3928202390670776, 'learning_rate': 9.795262750451918e-05, 'epoch': 2.87}
+[WARNING|trainer.py:761] 2025-05-15 20:47:35,045 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:35,045 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:47:41,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:41,671 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:41,691 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:41,691 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:47:48,197 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:48,197 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:48,218 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:48,219 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:47:54,410 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:54,411 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:54,431 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:47:54,431 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:00,752 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:00,753 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:00,774 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:00,774 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:07,188 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:07,188 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:07,209 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:07,209 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:14,313 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:14,314 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:14,334 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:14,334 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:20,992 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:20,992 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:21,015 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:21,015 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:26,977 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:26,978 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:26,998 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:26,998 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:33,630 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:33,631 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:33,652 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:33,652 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:40,448 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:40,449 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:40,469 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:40,469 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:46,859 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:46,859 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:46,879 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:46,879 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:48:53,997 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:53,997 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:54,017 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:48:54,018 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:49:00,730 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:00,730 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:00,750 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:00,750 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:49:06,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:06,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:06,881 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:06,881 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:49:14,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:14,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:14,331 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:14,331 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 20:49:18,753 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:18,754 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:18,774 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 20:49:18,774 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.2614110708236694, 'eval_wer': 0.12450559385241271, 'eval_runtime': 119.2784, 'eval_samples_per_second': 13.339, 'eval_steps_per_second': 0.143, 'epoch': 2.87}
+{'loss': 1.6859, 'grad_norm': 1.3297574520111084, 'learning_rate': 9.793905031531299e-05, 'epoch': 2.88}
+{'loss': 1.6615, 'grad_norm': 1.8638650178909302, 'learning_rate': 9.792542920337573e-05, 'epoch': 2.88}
+{'loss': 1.6556, 'grad_norm': 1.5153930187225342, 'learning_rate': 9.791176418118799e-05, 'epoch': 2.89}
+{'loss': 1.7046, 'grad_norm': 1.579380989074707, 'learning_rate': 9.78980552612706e-05, 'epoch': 2.89}
+{'loss': 1.7131, 'grad_norm': 1.3421663045883179, 'learning_rate': 9.788430245618461e-05, 'epoch': 2.9}
+{'loss': 1.7261, 'grad_norm': 1.5661914348602295, 'learning_rate': 9.787050577853125e-05, 'epoch': 2.91}
+{'loss': 1.6815, 'grad_norm': 1.6113357543945312, 'learning_rate': 9.7856665240952e-05, 'epoch': 2.91}
+{'loss': 1.7075, 'grad_norm': 1.7786363363265991, 'learning_rate': 9.784278085612849e-05, 'epoch': 2.92}
+{'loss': 1.6817, 'grad_norm': 1.4313446283340454, 'learning_rate': 9.782885263678255e-05, 'epoch': 2.92}
+{'loss': 1.7082, 'grad_norm': 1.3281270265579224, 'learning_rate': 9.781488059567617e-05, 'epoch': 2.93}
+{'loss': 1.6916, 'grad_norm': 1.3985512256622314, 'learning_rate': 9.780086474561148e-05, 'epoch': 2.94}
+{'loss': 1.6988, 'grad_norm': 1.5001497268676758, 'learning_rate': 9.778680509943073e-05, 'epoch': 2.94}
+{'loss': 1.6701, 'grad_norm': 1.6843388080596924, 'learning_rate': 9.777270167001635e-05, 'epoch': 2.95}
+{'loss': 1.6859, 'grad_norm': 1.57426118850708, 'learning_rate': 9.775855447029086e-05, 'epoch': 2.95}
+{'loss': 1.6775, 'grad_norm': 1.5246561765670776, 'learning_rate': 9.774436351321687e-05, 'epoch': 2.96}
+{'loss': 1.6782, 'grad_norm': 1.5458987951278687, 'learning_rate': 9.773012881179713e-05, 'epoch': 2.96}
+{'loss': 1.7048, 'grad_norm': 1.5908442735671997, 'learning_rate': 9.771585037907443e-05, 'epoch': 2.97}
+{'loss': 1.6844, 'grad_norm': 1.4700584411621094, 'learning_rate': 9.770152822813164e-05, 'epoch': 2.98}
+{'loss': 1.6921, 'grad_norm': 1.525244116783142, 'learning_rate': 9.768716237209167e-05, 'epoch': 2.98}
+{'loss': 1.6903, 'grad_norm': 2.005902051925659, 'learning_rate': 9.767275282411755e-05, 'epoch': 2.99}
+{'loss': 1.7073, 'grad_norm': 1.7618675231933594, 'learning_rate': 9.765829959741223e-05, 'epoch': 2.99}
+{'loss': 1.6539, 'grad_norm': 1.535569429397583, 'learning_rate': 9.764380270521875e-05, 'epoch': 3.0}
+{'loss': 1.6324, 'grad_norm': 1.5486606359481812, 'learning_rate': 9.762926216082019e-05, 'epoch': 3.0}
+{'loss': 1.6459, 'grad_norm': 1.6515790224075317, 'learning_rate': 9.761467797753955e-05, 'epoch': 3.01}
+{'loss': 1.6255, 'grad_norm': 1.4425338506698608, 'learning_rate': 9.760005016873986e-05, 'epoch': 3.02}
+{'loss': 1.6324, 'grad_norm': 1.506661057472229, 'learning_rate': 9.758537874782413e-05, 'epoch': 3.02}
+{'loss': 1.6335, 'grad_norm': 1.499016523361206, 'learning_rate': 9.757066372823531e-05, 'epoch': 3.03}
+{'loss': 1.6821, 'grad_norm': 1.554861307144165, 'learning_rate': 9.755590512345627e-05, 'epoch': 3.03}
+{'loss': 1.6039, 'grad_norm': 1.625934362411499, 'learning_rate': 9.754110294700989e-05, 'epoch': 3.04}
+{'loss': 1.6067, 'grad_norm': 1.4130136966705322, 'learning_rate': 9.752625721245889e-05, 'epoch': 3.04}
+{'loss': 1.6318, 'grad_norm': 1.5291974544525146, 'learning_rate': 9.751136793340599e-05, 'epoch': 3.05}
+{'loss': 1.6217, 'grad_norm': 1.4778972864151, 'learning_rate': 9.749643512349373e-05, 'epoch': 3.06}
+{'loss': 1.6374, 'grad_norm': 1.6106590032577515, 'learning_rate': 9.748145879640458e-05, 'epoch': 3.06}
+{'loss': 1.637, 'grad_norm': 1.4123419523239136, 'learning_rate': 9.746643896586086e-05, 'epoch': 3.07}
+{'loss': 1.6072, 'grad_norm': 1.4393341541290283, 'learning_rate': 9.745137564562478e-05, 'epoch': 3.07}
+{'loss': 1.645, 'grad_norm': 1.5072475671768188, 'learning_rate': 9.743626884949838e-05, 'epoch': 3.08}
+{'loss': 1.6618, 'grad_norm': 1.4783241748809814, 'learning_rate': 9.742111859132349e-05, 'epoch': 3.08}
+{'loss': 1.6572, 'grad_norm': 1.487516164779663, 'learning_rate': 9.740592488498184e-05, 'epoch': 3.09}
+{'loss': 1.6485, 'grad_norm': 1.5002632141113281, 'learning_rate': 9.739068774439495e-05, 'epoch': 3.1}
+{'loss': 1.6368, 'grad_norm': 1.6059160232543945, 'learning_rate': 9.737540718352413e-05, 'epoch': 3.1}
+{'loss': 1.6145, 'grad_norm': 1.4255726337432861, 'learning_rate': 9.736008321637043e-05, 'epoch': 3.11}
+{'loss': 1.6283, 'grad_norm': 1.6063114404678345, 'learning_rate': 9.734471585697475e-05, 'epoch': 3.11}
+{'loss': 1.6381, 'grad_norm': 1.7552169561386108, 'learning_rate': 9.732930511941769e-05, 'epoch': 3.12}
+{'loss': 1.6371, 'grad_norm': 1.7182084321975708, 'learning_rate': 9.731385101781962e-05, 'epoch': 3.12}
+{'loss': 1.6204, 'grad_norm': 1.5302674770355225, 'learning_rate': 9.729835356634066e-05, 'epoch': 3.13}
+{'loss': 1.6038, 'grad_norm': 1.389792799949646, 'learning_rate': 9.728281277918061e-05, 'epoch': 3.14}
+{'loss': 1.6023, 'grad_norm': 1.3397209644317627, 'learning_rate': 9.726722867057899e-05, 'epoch': 3.14}
+{'loss': 1.6479, 'grad_norm': 1.5047202110290527, 'learning_rate': 9.725160125481504e-05, 'epoch': 3.15}
+{'loss': 1.6422, 'grad_norm': 1.6639615297317505, 'learning_rate': 9.723593054620765e-05, 'epoch': 3.15}
+{'loss': 1.651, 'grad_norm': 1.3791922330856323, 'learning_rate': 9.72202165591154e-05, 'epoch': 3.16}
+{'loss': 1.5932, 'grad_norm': 1.4571179151535034, 'learning_rate': 9.720445930793652e-05, 'epoch': 3.16}
+{'loss': 1.6057, 'grad_norm': 1.3366632461547852, 'learning_rate': 9.718865880710886e-05, 'epoch': 3.17}
+{'loss': 1.6433, 'grad_norm': 1.4677654504776, 'learning_rate': 9.717281507110991e-05, 'epoch': 3.18}
+{'loss': 1.6128, 'grad_norm': 1.6696430444717407, 'learning_rate': 9.71569281144568e-05, 'epoch': 3.18}
+{'loss': 1.6409, 'grad_norm': 1.5777435302734375, 'learning_rate': 9.714099795170624e-05, 'epoch': 3.19}
+{'loss': 1.6638, 'grad_norm': 1.5568597316741943, 'learning_rate': 9.712502459745451e-05, 'epoch': 3.19}
+{'loss': 1.6086, 'grad_norm': 1.3886417150497437, 'learning_rate': 9.710900806633751e-05, 'epoch': 3.2}
+{'loss': 1.6181, 'grad_norm': 1.7217527627944946, 'learning_rate': 9.709294837303066e-05, 'epoch': 3.21}
+{'loss': 1.6036, 'grad_norm': 2.0039329528808594, 'learning_rate': 9.707684553224892e-05, 'epoch': 3.21}
+{'loss': 1.6169, 'grad_norm': 1.3699754476547241, 'learning_rate': 9.706069955874686e-05, 'epoch': 3.22}
+{'loss': 1.6619, 'grad_norm': 1.5251069068908691, 'learning_rate': 9.70445104673185e-05, 'epoch': 3.22}
+{'loss': 1.607, 'grad_norm': 1.337915301322937, 'learning_rate': 9.702827827279738e-05, 'epoch': 3.23}
+{'loss': 1.6182, 'grad_norm': 1.662143349647522, 'learning_rate': 9.701200299005654e-05, 'epoch': 3.23}
+{'loss': 1.6406, 'grad_norm': 1.390687108039856, 'learning_rate': 9.69956846340085e-05, 'epoch': 3.24}
+{'loss': 1.6215, 'grad_norm': 1.4389570951461792, 'learning_rate': 9.697932321960529e-05, 'epoch': 3.25}
+{'loss': 1.5844, 'grad_norm': 1.3212333917617798, 'learning_rate': 9.696291876183828e-05, 'epoch': 3.25}
+{'loss': 1.6483, 'grad_norm': 1.5739758014678955, 'learning_rate': 9.694647127573842e-05, 'epoch': 3.26}
+{'loss': 1.6015, 'grad_norm': 1.3461438417434692, 'learning_rate': 9.692998077637597e-05, 'epoch': 3.26}
+{'loss': 1.5859, 'grad_norm': 1.708883285522461, 'learning_rate': 9.691344727886066e-05, 'epoch': 3.27}
+{'loss': 1.6333, 'grad_norm': 1.4918363094329834, 'learning_rate': 9.689687079834163e-05, 'epoch': 3.27}
+{'loss': 1.6456, 'grad_norm': 1.4630522727966309, 'learning_rate': 9.688025135000734e-05, 'epoch': 3.28}
+{'loss': 1.6083, 'grad_norm': 1.9295337200164795, 'learning_rate': 9.686358894908569e-05, 'epoch': 3.29}
+{'loss': 1.6384, 'grad_norm': 1.5182411670684814, 'learning_rate': 9.684688361084389e-05, 'epoch': 3.29}
+{'loss': 1.617, 'grad_norm': 1.3987635374069214, 'learning_rate': 9.683013535058853e-05, 'epoch': 3.3}
+{'loss': 1.5873, 'grad_norm': 1.5364372730255127, 'learning_rate': 9.681334418366548e-05, 'epoch': 3.3}
+{'loss': 1.6274, 'grad_norm': 1.5112583637237549, 'learning_rate': 9.679651012545997e-05, 'epoch': 3.31}
+{'loss': 1.5907, 'grad_norm': 1.4777523279190063, 'learning_rate': 9.677963319139651e-05, 'epoch': 3.31}
+{'loss': 1.5859, 'grad_norm': 1.6601784229278564, 'learning_rate': 9.676271339693886e-05, 'epoch': 3.32}
+{'loss': 1.6485, 'grad_norm': 1.6540298461914062, 'learning_rate': 9.674575075759014e-05, 'epoch': 3.33}
+{'loss': 1.6117, 'grad_norm': 1.3588889837265015, 'learning_rate': 9.672874528889263e-05, 'epoch': 3.33}
+{'loss': 1.6357, 'grad_norm': 1.6457010507583618, 'learning_rate': 9.671169700642793e-05, 'epoch': 3.34}
+{'loss': 1.6322, 'grad_norm': 1.555299162864685, 'learning_rate': 9.669460592581684e-05, 'epoch': 3.34}
+{'loss': 1.5684, 'grad_norm': 1.6192684173583984, 'learning_rate': 9.667747206271933e-05, 'epoch': 3.35}
+{'loss': 1.6093, 'grad_norm': 1.7383484840393066, 'learning_rate': 9.666029543283466e-05, 'epoch': 3.35}
+{'loss': 1.6204, 'grad_norm': 1.3070027828216553, 'learning_rate': 9.664307605190119e-05, 'epoch': 3.36}
+{'loss': 1.6233, 'grad_norm': 1.4149906635284424, 'learning_rate': 9.662581393569653e-05, 'epoch': 3.37}
+{'loss': 1.5876, 'grad_norm': 1.4312522411346436, 'learning_rate': 9.660850910003736e-05, 'epoch': 3.37}
+{'loss': 1.6019, 'grad_norm': 1.4669331312179565, 'learning_rate': 9.659116156077959e-05, 'epoch': 3.38}
+{'loss': 1.5871, 'grad_norm': 1.3660081624984741, 'learning_rate': 9.657377133381819e-05, 'epoch': 3.38}
+{'loss': 1.5998, 'grad_norm': 1.332747459411621, 'learning_rate': 9.655633843508728e-05, 'epoch': 3.39}
+{'loss': 1.6318, 'grad_norm': 1.8047428131103516, 'learning_rate': 9.653886288056006e-05, 'epoch': 3.39}
+{'loss': 1.6272, 'grad_norm': 1.4865713119506836, 'learning_rate': 9.652134468624882e-05, 'epoch': 3.4}
+{'loss': 1.5735, 'grad_norm': 1.5586755275726318, 'learning_rate': 9.650378386820496e-05, 'epoch': 3.41}
+{'loss': 1.6079, 'grad_norm': 1.378774881362915, 'learning_rate': 9.648618044251883e-05, 'epoch': 3.41}
+{'loss': 1.5863, 'grad_norm': 1.3385347127914429, 'learning_rate': 9.646853442531996e-05, 'epoch': 3.42}
+{'loss': 1.5968, 'grad_norm': 1.5953559875488281, 'learning_rate': 9.645084583277678e-05, 'epoch': 3.42}
+{'loss': 1.6139, 'grad_norm': 1.533825397491455, 'learning_rate': 9.643311468109682e-05, 'epoch': 3.43}
+{'loss': 1.6357, 'grad_norm': 1.7705518007278442, 'learning_rate': 9.641534098652652e-05, 'epoch': 3.43}
+{'loss': 1.5709, 'grad_norm': 1.2516279220581055, 'learning_rate': 9.63975247653514e-05, 'epoch': 3.44}
+{'loss': 1.5822, 'grad_norm': 1.3904739618301392, 'learning_rate': 9.637966603389588e-05, 'epoch': 3.45}
+[WARNING|trainer.py:761] 2025-05-15 21:04:45,262 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:04:45,262 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:04:51,854 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:04:51,855 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:04:51,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:04:51,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:04:58,893 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:04:58,894 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:04:58,914 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:04:58,914 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:05,040 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:05,040 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:05,061 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:05,061 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:11,453 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:11,453 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:11,473 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:11,473 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:17,901 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:17,902 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:17,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:17,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:25,316 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:25,317 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:25,338 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:25,338 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:32,053 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:32,054 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:32,076 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:32,077 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:38,049 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:38,050 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:38,070 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:38,070 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:44,764 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:44,765 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:44,785 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:44,786 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:51,371 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:51,372 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:51,393 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:51,393 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:05:57,718 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:57,718 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:57,739 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:05:57,740 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:06:04,604 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:04,604 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:04,625 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:04,625 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:06:11,659 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:11,659 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:11,680 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:11,680 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:06:17,664 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:17,665 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:17,685 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:17,685 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:06:25,195 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:25,195 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:25,215 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:25,216 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:06:29,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:29,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:29,588 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:06:29,589 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.2109429836273193, 'eval_wer': 0.11165103401514295, 'eval_runtime': 119.8261, 'eval_samples_per_second': 13.278, 'eval_steps_per_second': 0.142, 'epoch': 3.45}
+{'loss': 1.6092, 'grad_norm': 1.3731943368911743, 'learning_rate': 9.636176480852331e-05, 'epoch': 3.45}
+{'loss': 1.5977, 'grad_norm': 1.4693683385849, 'learning_rate': 9.634382110563606e-05, 'epoch': 3.46}
+{'loss': 1.585, 'grad_norm': 1.6020904779434204, 'learning_rate': 9.632583494167535e-05, 'epoch': 3.46}
+{'loss': 1.6078, 'grad_norm': 1.3191226720809937, 'learning_rate': 9.630780633312134e-05, 'epoch': 3.47}
+{'loss': 1.5996, 'grad_norm': 1.4400807619094849, 'learning_rate': 9.628973529649304e-05, 'epoch': 3.48}
+{'loss': 1.6015, 'grad_norm': 1.3734054565429688, 'learning_rate': 9.627162184834841e-05, 'epoch': 3.48}
+{'loss': 1.5986, 'grad_norm': 1.4475988149642944, 'learning_rate': 9.625346600528417e-05, 'epoch': 3.49}
+{'loss': 1.5943, 'grad_norm': 1.3220233917236328, 'learning_rate': 9.623526778393597e-05, 'epoch': 3.49}
+{'loss': 1.6039, 'grad_norm': 1.53400719165802, 'learning_rate': 9.621702720097828e-05, 'epoch': 3.5}
+{'loss': 1.6181, 'grad_norm': 1.5094637870788574, 'learning_rate': 9.619874427312432e-05, 'epoch': 3.5}
+{'loss': 1.5799, 'grad_norm': 1.5519062280654907, 'learning_rate': 9.618041901712616e-05, 'epoch': 3.51}
+{'loss': 1.5769, 'grad_norm': 1.5281223058700562, 'learning_rate': 9.616205144977469e-05, 'epoch': 3.52}
+{'loss': 1.5891, 'grad_norm': 1.6994590759277344, 'learning_rate': 9.614364158789948e-05, 'epoch': 3.52}
+{'loss': 1.5847, 'grad_norm': 1.571830153465271, 'learning_rate': 9.612518944836892e-05, 'epoch': 3.53}
+{'loss': 1.5947, 'grad_norm': 1.4372785091400146, 'learning_rate': 9.610669504809012e-05, 'epoch': 3.53}
+{'loss': 1.6079, 'grad_norm': 1.4658076763153076, 'learning_rate': 9.608815840400888e-05, 'epoch': 3.54}
+{'loss': 1.5642, 'grad_norm': 1.314266562461853, 'learning_rate': 9.606957953310978e-05, 'epoch': 3.54}
+{'loss': 1.6001, 'grad_norm': 1.5588135719299316, 'learning_rate': 9.6050958452416e-05, 'epoch': 3.55}
+{'loss': 1.6064, 'grad_norm': 1.5007277727127075, 'learning_rate': 9.603229517898948e-05, 'epoch': 3.56}
+{'loss': 1.5815, 'grad_norm': 1.3470954895019531, 'learning_rate': 9.601358972993077e-05, 'epoch': 3.56}
+{'loss': 1.6023, 'grad_norm': 1.5417461395263672, 'learning_rate': 9.599484212237906e-05, 'epoch': 3.57}
+{'loss': 1.5672, 'grad_norm': 1.2810810804367065, 'learning_rate': 9.59760523735122e-05, 'epoch': 3.57}
+{'loss': 1.5986, 'grad_norm': 7.572571754455566, 'learning_rate': 9.595722050054663e-05, 'epoch': 3.58}
+{'loss': 1.6105, 'grad_norm': 1.4589245319366455, 'learning_rate': 9.593834652073741e-05, 'epoch': 3.58}
+{'loss': 1.6008, 'grad_norm': 1.3294093608856201, 'learning_rate': 9.591943045137813e-05, 'epoch': 3.59}
+{'loss': 1.5593, 'grad_norm': 1.3746421337127686, 'learning_rate': 9.590047230980104e-05, 'epoch': 3.6}
+{'loss': 1.588, 'grad_norm': 1.3553591966629028, 'learning_rate': 9.588147211337681e-05, 'epoch': 3.6}
+{'loss': 1.587, 'grad_norm': 1.6245908737182617, 'learning_rate': 9.586242987951475e-05, 'epoch': 3.61}
+{'loss': 1.5621, 'grad_norm': 1.3594012260437012, 'learning_rate': 9.584334562566268e-05, 'epoch': 3.61}
+{'loss': 1.6121, 'grad_norm': 1.5187963247299194, 'learning_rate': 9.582421936930683e-05, 'epoch': 3.62}
+{'loss': 1.603, 'grad_norm': 1.6585781574249268, 'learning_rate': 9.580505112797201e-05, 'epoch': 3.62}
+{'loss': 1.6096, 'grad_norm': 1.6604756116867065, 'learning_rate': 9.57858409192215e-05, 'epoch': 3.63}
+{'loss': 1.5692, 'grad_norm': 1.3212215900421143, 'learning_rate': 9.576658876065693e-05, 'epoch': 3.64}
+{'loss': 1.5892, 'grad_norm': 1.4517269134521484, 'learning_rate': 9.574729466991849e-05, 'epoch': 3.64}
+{'loss': 1.5828, 'grad_norm': 1.3805903196334839, 'learning_rate': 9.572795866468472e-05, 'epoch': 3.65}
+{'loss': 1.576, 'grad_norm': 1.3964784145355225, 'learning_rate': 9.57085807626726e-05, 'epoch': 3.65}
+{'loss': 1.6137, 'grad_norm': 1.378891110420227, 'learning_rate': 9.568916098163747e-05, 'epoch': 3.66}
+{'loss': 1.6009, 'grad_norm': 1.4654159545898438, 'learning_rate': 9.566969933937305e-05, 'epoch': 3.66}
+{'loss': 1.5436, 'grad_norm': 1.304354190826416, 'learning_rate': 9.565019585371144e-05, 'epoch': 3.67}
+{'loss': 1.5791, 'grad_norm': 1.2430413961410522, 'learning_rate': 9.563065054252307e-05, 'epoch': 3.68}
+{'loss': 1.5863, 'grad_norm': 1.4539940357208252, 'learning_rate': 9.561106342371665e-05, 'epoch': 3.68}
+{'loss': 1.6033, 'grad_norm': 1.5169475078582764, 'learning_rate': 9.559143451523926e-05, 'epoch': 3.69}
+{'loss': 1.5799, 'grad_norm': 1.4534494876861572, 'learning_rate': 9.55717638350762e-05, 'epoch': 3.69}
+{'loss': 1.5943, 'grad_norm': 1.5747262239456177, 'learning_rate': 9.555205140125116e-05, 'epoch': 3.7}
+{'loss': 1.6031, 'grad_norm': 1.3716018199920654, 'learning_rate': 9.553229723182594e-05, 'epoch': 3.7}
+{'loss': 1.5593, 'grad_norm': 1.4669586420059204, 'learning_rate': 9.55125013449007e-05, 'epoch': 3.71}
+{'loss': 1.586, 'grad_norm': 1.4438790082931519, 'learning_rate': 9.549266375861376e-05, 'epoch': 3.72}
+{'loss': 1.6233, 'grad_norm': 1.3656120300292969, 'learning_rate': 9.547278449114168e-05, 'epoch': 3.72}
+{'loss': 1.6324, 'grad_norm': 1.6877834796905518, 'learning_rate': 9.545286356069919e-05, 'epoch': 3.73}
+{'loss': 1.5998, 'grad_norm': 1.4297900199890137, 'learning_rate': 9.543290098553919e-05, 'epoch': 3.73}
+{'loss': 1.5842, 'grad_norm': 1.3245452642440796, 'learning_rate': 9.541289678395279e-05, 'epoch': 3.74}
+{'loss': 1.5746, 'grad_norm': 1.408369541168213, 'learning_rate': 9.539285097426917e-05, 'epoch': 3.74}
+{'loss': 1.5814, 'grad_norm': 1.5135191679000854, 'learning_rate': 9.537276357485566e-05, 'epoch': 3.75}
+{'loss': 1.5794, 'grad_norm': 1.4139986038208008, 'learning_rate': 9.535263460411771e-05, 'epoch': 3.76}
+{'loss': 1.6052, 'grad_norm': 1.3048148155212402, 'learning_rate': 9.533246408049887e-05, 'epoch': 3.76}
+{'loss': 1.5797, 'grad_norm': 1.447126030921936, 'learning_rate': 9.531225202248074e-05, 'epoch': 3.77}
+{'loss': 1.6002, 'grad_norm': 1.2924034595489502, 'learning_rate': 9.529199844858297e-05, 'epoch': 3.77}
+{'loss': 1.608, 'grad_norm': 1.3542078733444214, 'learning_rate': 9.527170337736329e-05, 'epoch': 3.78}
+{'loss': 1.5571, 'grad_norm': 2.0147647857666016, 'learning_rate': 9.525136682741739e-05, 'epoch': 3.79}
+{'loss': 1.5959, 'grad_norm': 1.417090654373169, 'learning_rate': 9.523098881737902e-05, 'epoch': 3.79}
+{'loss': 1.5826, 'grad_norm': 1.436158299446106, 'learning_rate': 9.521056936591991e-05, 'epoch': 3.8}
+{'loss': 1.6176, 'grad_norm': 1.550160527229309, 'learning_rate': 9.519010849174972e-05, 'epoch': 3.8}
+{'loss': 1.5892, 'grad_norm': 1.4246094226837158, 'learning_rate': 9.516960621361614e-05, 'epoch': 3.81}
+{'loss': 1.5879, 'grad_norm': 1.5779341459274292, 'learning_rate': 9.514906255030472e-05, 'epoch': 3.81}
+{'loss': 1.5975, 'grad_norm': 1.5506840944290161, 'learning_rate': 9.512847752063897e-05, 'epoch': 3.82}
+{'loss': 1.5948, 'grad_norm': 1.2425625324249268, 'learning_rate': 9.51078511434803e-05, 'epoch': 3.83}
+{'loss': 1.5536, 'grad_norm': 2.2475855350494385, 'learning_rate': 9.508718343772803e-05, 'epoch': 3.83}
+{'loss': 1.5815, 'grad_norm': 1.6249672174453735, 'learning_rate': 9.506647442231926e-05, 'epoch': 3.84}
+{'loss': 1.5689, 'grad_norm': 1.2605689764022827, 'learning_rate': 9.504572411622902e-05, 'epoch': 3.84}
+{'loss': 1.5606, 'grad_norm': 1.3918836116790771, 'learning_rate': 9.502493253847021e-05, 'epoch': 3.85}
+{'loss': 1.6169, 'grad_norm': 1.6872825622558594, 'learning_rate': 9.500409970809339e-05, 'epoch': 3.85}
+{'loss': 1.5665, 'grad_norm': 1.3307108879089355, 'learning_rate': 9.498322564418709e-05, 'epoch': 3.86}
+{'loss': 1.6051, 'grad_norm': 1.5549707412719727, 'learning_rate': 9.496231036587753e-05, 'epoch': 3.87}
+{'loss': 1.5646, 'grad_norm': 1.525460124015808, 'learning_rate': 9.49413538923287e-05, 'epoch': 3.87}
+{'loss': 1.5807, 'grad_norm': 1.3676981925964355, 'learning_rate': 9.492035624274237e-05, 'epoch': 3.88}
+{'loss': 1.5683, 'grad_norm': 1.2008260488510132, 'learning_rate': 9.4899317436358e-05, 'epoch': 3.88}
+{'loss': 1.6136, 'grad_norm': 1.322078824043274, 'learning_rate': 9.487823749245278e-05, 'epoch': 3.89}
+{'loss': 1.5861, 'grad_norm': 1.2905033826828003, 'learning_rate': 9.485711643034158e-05, 'epoch': 3.89}
+{'loss': 1.5874, 'grad_norm': 1.4273862838745117, 'learning_rate': 9.483595426937697e-05, 'epoch': 3.9}
+{'loss': 1.5889, 'grad_norm': 1.2639853954315186, 'learning_rate': 9.481475102894917e-05, 'epoch': 3.91}
+{'loss': 1.5176, 'grad_norm': 1.4719356298446655, 'learning_rate': 9.479350672848602e-05, 'epoch': 3.91}
+{'loss': 1.5696, 'grad_norm': 1.5981605052947998, 'learning_rate': 9.477222138745297e-05, 'epoch': 3.92}
+{'loss': 1.5699, 'grad_norm': 1.9092198610305786, 'learning_rate': 9.475089502535315e-05, 'epoch': 3.92}
+{'loss': 1.5435, 'grad_norm': 1.3135465383529663, 'learning_rate': 9.472952766172719e-05, 'epoch': 3.93}
+{'loss': 1.5975, 'grad_norm': 1.4641355276107788, 'learning_rate': 9.470811931615334e-05, 'epoch': 3.93}
+{'loss': 1.5788, 'grad_norm': 1.576891303062439, 'learning_rate': 9.468667000824736e-05, 'epoch': 3.94}
+{'loss': 1.592, 'grad_norm': 1.4915142059326172, 'learning_rate': 9.466517975766259e-05, 'epoch': 3.95}
+{'loss': 1.5932, 'grad_norm': 1.2781870365142822, 'learning_rate': 9.464364858408985e-05, 'epoch': 3.95}
+{'loss': 1.5473, 'grad_norm': 1.2722479104995728, 'learning_rate': 9.462207650725748e-05, 'epoch': 3.96}
+{'loss': 1.5787, 'grad_norm': 1.3138319253921509, 'learning_rate': 9.460046354693126e-05, 'epoch': 3.96}
+{'loss': 1.5758, 'grad_norm': 1.5277183055877686, 'learning_rate': 9.457880972291448e-05, 'epoch': 3.97}
+{'loss': 1.5825, 'grad_norm': 1.7289197444915771, 'learning_rate': 9.455711505504784e-05, 'epoch': 3.97}
+{'loss': 1.6016, 'grad_norm': 1.3524231910705566, 'learning_rate': 9.453537956320948e-05, 'epoch': 3.98}
+{'loss': 1.5901, 'grad_norm': 1.3868252038955688, 'learning_rate': 9.45136032673149e-05, 'epoch': 3.99}
+{'loss': 1.5391, 'grad_norm': 1.3178081512451172, 'learning_rate': 9.449178618731707e-05, 'epoch': 3.99}
+{'loss': 1.5875, 'grad_norm': 1.525253176689148, 'learning_rate': 9.446992834320627e-05, 'epoch': 4.0}
+{'loss': 1.5807, 'grad_norm': 1.317173719406128, 'learning_rate': 9.444802975501014e-05, 'epoch': 4.0}
+{'loss': 1.5087, 'grad_norm': 1.2668205499649048, 'learning_rate': 9.442609044279364e-05, 'epoch': 4.01}
+{'loss': 1.5486, 'grad_norm': 1.7844841480255127, 'learning_rate': 9.440411042665911e-05, 'epoch': 4.01}
+{'loss': 1.546, 'grad_norm': 1.4545730352401733, 'learning_rate': 9.438208972674609e-05, 'epoch': 4.02}
+[WARNING|trainer.py:761] 2025-05-15 21:21:50,312 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:21:50,313 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:21:56,937 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:21:56,938 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:21:56,959 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:21:56,959 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:04,121 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:04,121 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:04,143 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:04,144 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:10,154 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:10,154 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:10,175 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:10,175 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:16,764 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:16,764 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:16,785 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:16,785 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:23,702 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:23,703 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:23,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:23,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:31,229 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:31,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:31,251 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:31,251 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:39,229 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:39,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:39,250 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:39,251 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:45,331 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:45,332 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:45,354 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:45,355 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:52,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:52,133 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:52,156 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:52,156 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:22:59,144 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:59,144 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:59,165 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:22:59,165 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:23:05,520 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:05,520 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:05,541 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:05,541 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:23:12,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:12,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:12,589 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:12,589 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:23:19,514 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:19,514 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:19,535 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:19,536 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:23:25,781 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:25,781 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:25,802 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:25,802 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:23:33,533 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:33,533 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:33,554 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:33,554 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:23:38,001 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:38,002 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:38,022 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:23:38,023 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.1895684003829956, 'eval_wer': 0.1069047349983049, 'eval_runtime': 123.2458, 'eval_samples_per_second': 12.909, 'eval_steps_per_second': 0.138, 'epoch': 4.02}
+{'loss': 1.5493, 'grad_norm': 1.2099732160568237, 'learning_rate': 9.436002836323147e-05, 'epoch': 4.03}
+{'loss': 1.522, 'grad_norm': 1.3350284099578857, 'learning_rate': 9.433792635632935e-05, 'epoch': 4.03}
+{'loss': 1.5382, 'grad_norm': 1.2830753326416016, 'learning_rate': 9.431578372629113e-05, 'epoch': 4.04}
+{'loss': 1.5319, 'grad_norm': 1.2033826112747192, 'learning_rate': 9.429360049340538e-05, 'epoch': 4.04}
+{'loss': 1.5623, 'grad_norm': 1.129206657409668, 'learning_rate': 9.427137667799785e-05, 'epoch': 4.05}
+{'loss': 1.5216, 'grad_norm': 1.4639811515808105, 'learning_rate': 9.424911230043157e-05, 'epoch': 4.06}
+{'loss': 1.5519, 'grad_norm': 1.346333622932434, 'learning_rate': 9.422680738110665e-05, 'epoch': 4.06}
+{'loss': 1.5248, 'grad_norm': 1.3707916736602783, 'learning_rate': 9.420446194046039e-05, 'epoch': 4.07}
+{'loss': 1.5058, 'grad_norm': 1.2147454023361206, 'learning_rate': 9.418207599896718e-05, 'epoch': 4.07}
+{'loss': 1.5309, 'grad_norm': 1.6157779693603516, 'learning_rate': 9.415964957713857e-05, 'epoch': 4.08}
+{'loss': 1.5221, 'grad_norm': 1.2559071779251099, 'learning_rate': 9.413718269552314e-05, 'epoch': 4.08}
+{'loss': 1.5216, 'grad_norm': 1.376235008239746, 'learning_rate': 9.41146753747066e-05, 'epoch': 4.09}
+{'loss': 1.5425, 'grad_norm': 1.3287769556045532, 'learning_rate': 9.409212763531171e-05, 'epoch': 4.1}
+{'loss': 1.5201, 'grad_norm': 1.2312625646591187, 'learning_rate': 9.406953949799822e-05, 'epoch': 4.1}
+{'loss': 1.527, 'grad_norm': 1.385913372039795, 'learning_rate': 9.40469109834629e-05, 'epoch': 4.11}
+{'loss': 1.4973, 'grad_norm': 1.3541021347045898, 'learning_rate': 9.402424211243957e-05, 'epoch': 4.11}
+{'loss': 1.5445, 'grad_norm': 1.348053216934204, 'learning_rate': 9.400153290569899e-05, 'epoch': 4.12}
+{'loss': 1.5196, 'grad_norm': 1.4380687475204468, 'learning_rate': 9.397878338404885e-05, 'epoch': 4.12}
+{'loss': 1.5304, 'grad_norm': 1.166715383529663, 'learning_rate': 9.395599356833385e-05, 'epoch': 4.13}
+{'loss': 1.5401, 'grad_norm': 1.2858169078826904, 'learning_rate': 9.393316347943555e-05, 'epoch': 4.14}
+{'loss': 1.5442, 'grad_norm': 1.3754222393035889, 'learning_rate': 9.391029313827242e-05, 'epoch': 4.14}
+{'loss': 1.5413, 'grad_norm': 1.3915207386016846, 'learning_rate': 9.388738256579986e-05, 'epoch': 4.15}
+{'loss': 1.5226, 'grad_norm': 1.2301234006881714, 'learning_rate': 9.386443178301006e-05, 'epoch': 4.15}
+{'loss': 1.5081, 'grad_norm': 1.268314242362976, 'learning_rate': 9.38414408109321e-05, 'epoch': 4.16}
+{'loss': 1.5311, 'grad_norm': 1.568034052848816, 'learning_rate': 9.381840967063189e-05, 'epoch': 4.16}
+{'loss': 1.5217, 'grad_norm': 1.3623104095458984, 'learning_rate': 9.379533838321212e-05, 'epoch': 4.17}
+{'loss': 1.5679, 'grad_norm': 1.3613442182540894, 'learning_rate': 9.377222696981227e-05, 'epoch': 4.18}
+{'loss': 1.5287, 'grad_norm': 1.4029641151428223, 'learning_rate': 9.374907545160858e-05, 'epoch': 4.18}
+{'loss': 1.5474, 'grad_norm': 1.2211167812347412, 'learning_rate': 9.372588384981407e-05, 'epoch': 4.19}
+{'loss': 1.5341, 'grad_norm': 1.4599618911743164, 'learning_rate': 9.370265218567845e-05, 'epoch': 4.19}
+{'loss': 1.5302, 'grad_norm': 1.3315317630767822, 'learning_rate': 9.367938048048815e-05, 'epoch': 4.2}
+{'loss': 1.5303, 'grad_norm': 1.2903155088424683, 'learning_rate': 9.365606875556629e-05, 'epoch': 4.2}
+{'loss': 1.5334, 'grad_norm': 1.3767284154891968, 'learning_rate': 9.363271703227268e-05, 'epoch': 4.21}
+{'loss': 1.5306, 'grad_norm': 1.417516827583313, 'learning_rate': 9.360932533200375e-05, 'epoch': 4.22}
+{'loss': 1.5377, 'grad_norm': 1.3683193922042847, 'learning_rate': 9.358589367619254e-05, 'epoch': 4.22}
+{'loss': 1.5137, 'grad_norm': 1.2844783067703247, 'learning_rate': 9.356242208630877e-05, 'epoch': 4.23}
+{'loss': 1.544, 'grad_norm': 1.2717255353927612, 'learning_rate': 9.35389105838587e-05, 'epoch': 4.23}
+{'loss': 1.532, 'grad_norm': 1.327446460723877, 'learning_rate': 9.351535919038515e-05, 'epoch': 4.24}
+{'loss': 1.5064, 'grad_norm': 1.3114255666732788, 'learning_rate': 9.349176792746752e-05, 'epoch': 4.24}
+{'loss': 1.5194, 'grad_norm': 1.3684145212173462, 'learning_rate': 9.346813681672172e-05, 'epoch': 4.25}
+{'loss': 1.5076, 'grad_norm': 1.2469003200531006, 'learning_rate': 9.34444658798002e-05, 'epoch': 4.26}
+{'loss': 1.5186, 'grad_norm': 1.403851866722107, 'learning_rate': 9.342075513839188e-05, 'epoch': 4.26}
+{'loss': 1.523, 'grad_norm': 1.2553436756134033, 'learning_rate': 9.339700461422216e-05, 'epoch': 4.27}
+{'loss': 1.548, 'grad_norm': 1.3078651428222656, 'learning_rate': 9.337321432905287e-05, 'epoch': 4.27}
+{'loss': 1.529, 'grad_norm': 1.4701987504959106, 'learning_rate': 9.33493843046823e-05, 'epoch': 4.28}
+{'loss': 1.5429, 'grad_norm': 1.34120774269104, 'learning_rate': 9.332551456294516e-05, 'epoch': 4.28}
+{'loss': 1.5212, 'grad_norm': 1.677347183227539, 'learning_rate': 9.330160512571248e-05, 'epoch': 4.29}
+{'loss': 1.5764, 'grad_norm': 1.3228180408477783, 'learning_rate': 9.327765601489175e-05, 'epoch': 4.3}
+{'loss': 1.5116, 'grad_norm': 1.332287311553955, 'learning_rate': 9.325366725242678e-05, 'epoch': 4.3}
+{'loss': 1.5421, 'grad_norm': 1.3975943326950073, 'learning_rate': 9.322963886029772e-05, 'epoch': 4.31}
+{'loss': 1.5279, 'grad_norm': 1.1974446773529053, 'learning_rate': 9.320557086052099e-05, 'epoch': 4.31}
+{'loss': 1.4998, 'grad_norm': 1.3052939176559448, 'learning_rate': 9.318146327514932e-05, 'epoch': 4.32}
+{'loss': 1.5499, 'grad_norm': 1.2235811948776245, 'learning_rate': 9.315731612627174e-05, 'epoch': 4.33}
+{'loss': 1.4997, 'grad_norm': 1.4126347303390503, 'learning_rate': 9.313312943601352e-05, 'epoch': 4.33}
+{'loss': 1.5437, 'grad_norm': 1.3158483505249023, 'learning_rate': 9.310890322653616e-05, 'epoch': 4.34}
+{'loss': 1.5319, 'grad_norm': 1.573512315750122, 'learning_rate': 9.308463752003732e-05, 'epoch': 4.34}
+{'loss': 1.4994, 'grad_norm': 1.3274582624435425, 'learning_rate': 9.306033233875094e-05, 'epoch': 4.35}
+{'loss': 1.4918, 'grad_norm': 1.417730689048767, 'learning_rate': 9.303598770494705e-05, 'epoch': 4.35}
+{'loss': 1.5668, 'grad_norm': 1.3254122734069824, 'learning_rate': 9.301160364093187e-05, 'epoch': 4.36}
+{'loss': 1.5268, 'grad_norm': 1.3042727708816528, 'learning_rate': 9.298718016904775e-05, 'epoch': 4.37}
+{'loss': 1.4985, 'grad_norm': 1.2062476873397827, 'learning_rate': 9.296271731167314e-05, 'epoch': 4.37}
+{'loss': 1.515, 'grad_norm': 1.216174840927124, 'learning_rate': 9.293821509122254e-05, 'epoch': 4.38}
+{'loss': 1.5585, 'grad_norm': 1.1550283432006836, 'learning_rate': 9.291367353014658e-05, 'epoch': 4.38}
+{'loss': 1.5431, 'grad_norm': 1.28323495388031, 'learning_rate': 9.288909265093191e-05, 'epoch': 4.39}
+{'loss': 1.5384, 'grad_norm': 1.310599684715271, 'learning_rate': 9.286447247610121e-05, 'epoch': 4.39}
+{'loss': 1.5259, 'grad_norm': 1.2401442527770996, 'learning_rate': 9.283981302821312e-05, 'epoch': 4.4}
+{'loss': 1.5502, 'grad_norm': 1.293512225151062, 'learning_rate': 9.281511432986239e-05, 'epoch': 4.41}
+{'loss': 1.5419, 'grad_norm': 1.2158663272857666, 'learning_rate': 9.279037640367956e-05, 'epoch': 4.41}
+{'loss': 1.5365, 'grad_norm': 2.153297185897827, 'learning_rate': 9.276559927233125e-05, 'epoch': 4.42}
+{'loss': 1.5219, 'grad_norm': 1.2500333786010742, 'learning_rate': 9.274078295851993e-05, 'epoch': 4.42}
+{'loss': 1.5227, 'grad_norm': 1.3051958084106445, 'learning_rate': 9.271592748498403e-05, 'epoch': 4.43}
+{'loss': 1.4952, 'grad_norm': 1.350527048110962, 'learning_rate': 9.269103287449779e-05, 'epoch': 4.43}
+{'loss': 1.5151, 'grad_norm': 1.335240364074707, 'learning_rate': 9.266609914987136e-05, 'epoch': 4.44}
+{'loss': 1.4958, 'grad_norm': 1.2751095294952393, 'learning_rate': 9.264112633395073e-05, 'epoch': 4.45}
+{'loss': 1.5303, 'grad_norm': 1.4575210809707642, 'learning_rate': 9.261611444961768e-05, 'epoch': 4.45}
+{'loss': 1.5125, 'grad_norm': 1.7593839168548584, 'learning_rate': 9.25910635197898e-05, 'epoch': 4.46}
+{'loss': 1.5309, 'grad_norm': 1.355039119720459, 'learning_rate': 9.256597356742047e-05, 'epoch': 4.46}
+{'loss': 1.5244, 'grad_norm': 1.4801783561706543, 'learning_rate': 9.25408446154988e-05, 'epoch': 4.47}
+{'loss': 1.499, 'grad_norm': 1.375853419303894, 'learning_rate': 9.251567668704963e-05, 'epoch': 4.47}
+{'loss': 1.5368, 'grad_norm': 1.2229357957839966, 'learning_rate': 9.249046980513359e-05, 'epoch': 4.48}
+{'loss': 1.5217, 'grad_norm': 1.390339732170105, 'learning_rate': 9.246522399284687e-05, 'epoch': 4.49}
+{'loss': 1.4962, 'grad_norm': 1.397567629814148, 'learning_rate': 9.243993927332145e-05, 'epoch': 4.49}
+{'loss': 1.5452, 'grad_norm': 2.001462459564209, 'learning_rate': 9.241461566972489e-05, 'epoch': 4.5}
+{'loss': 1.5471, 'grad_norm': 1.3809707164764404, 'learning_rate': 9.23892532052604e-05, 'epoch': 4.5}
+{'loss': 1.5201, 'grad_norm': 1.481889009475708, 'learning_rate': 9.236385190316682e-05, 'epoch': 4.51}
+{'loss': 1.519, 'grad_norm': 1.2754344940185547, 'learning_rate': 9.233841178671853e-05, 'epoch': 4.51}
+{'loss': 1.5354, 'grad_norm': 1.345361590385437, 'learning_rate': 9.23129328792255e-05, 'epoch': 4.52}
+{'loss': 1.528, 'grad_norm': 1.226788878440857, 'learning_rate': 9.228741520403323e-05, 'epoch': 4.53}
+{'loss': 1.5306, 'grad_norm': 1.3052645921707153, 'learning_rate': 9.226185878452276e-05, 'epoch': 4.53}
+{'loss': 1.5334, 'grad_norm': 1.3374087810516357, 'learning_rate': 9.223626364411063e-05, 'epoch': 4.54}
+{'loss': 1.5304, 'grad_norm': 1.2787437438964844, 'learning_rate': 9.221062980624885e-05, 'epoch': 4.54}
+{'loss': 1.5238, 'grad_norm': 1.3969898223876953, 'learning_rate': 9.218495729442489e-05, 'epoch': 4.55}
+{'loss': 1.4905, 'grad_norm': 1.4553688764572144, 'learning_rate': 9.215924613216163e-05, 'epoch': 4.55}
+{'loss': 1.4886, 'grad_norm': 1.3817580938339233, 'learning_rate': 9.213349634301741e-05, 'epoch': 4.56}
+{'loss': 1.5139, 'grad_norm': 1.5474655628204346, 'learning_rate': 9.210770795058592e-05, 'epoch': 4.57}
+{'loss': 1.5159, 'grad_norm': 1.5374083518981934, 'learning_rate': 9.208188097849626e-05, 'epoch': 4.57}
+{'loss': 1.526, 'grad_norm': 1.4213935136795044, 'learning_rate': 9.205601545041284e-05, 'epoch': 4.58}
+{'loss': 1.5149, 'grad_norm': 1.3005527257919312, 'learning_rate': 9.203011139003544e-05, 'epoch': 4.58}
+{'loss': 1.5414, 'grad_norm': 1.1757376194000244, 'learning_rate': 9.200416882109912e-05, 'epoch': 4.59}
+{'loss': 1.5237, 'grad_norm': 1.1613342761993408, 'learning_rate': 9.197818776737423e-05, 'epoch': 4.6}
+[WARNING|trainer.py:761] 2025-05-15 21:38:48,531 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:38:48,531 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:38:55,229 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:38:55,229 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:38:55,250 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:38:55,250 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:01,938 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:01,938 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:01,959 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:01,959 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:07,906 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:07,907 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:07,927 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:07,927 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:14,283 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:14,284 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:14,304 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:14,304 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:21,199 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:21,199 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:21,220 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:21,220 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:28,282 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:28,283 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:28,303 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:28,303 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:35,036 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:35,036 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:35,056 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:35,057 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:40,972 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:40,972 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:40,993 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:40,993 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:47,591 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:47,591 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:47,611 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:47,611 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:39:54,448 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:54,449 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:54,469 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:39:54,469 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:40:00,709 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:00,710 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:00,730 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:00,730 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:40:07,946 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:07,946 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:07,966 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:07,966 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:40:14,748 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:14,749 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:14,769 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:14,769 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:40:20,945 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:20,945 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:20,965 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:20,966 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:40:28,466 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:28,466 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:28,486 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:28,486 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:40:32,722 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:32,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:32,742 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:40:32,742 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.1661320924758911, 'eval_wer': 0.10927788450672392, 'eval_runtime': 119.6345, 'eval_samples_per_second': 13.299, 'eval_steps_per_second': 0.142, 'epoch': 4.6}
+{'loss': 1.5137, 'grad_norm': 1.372605562210083, 'learning_rate': 9.195216825266636e-05, 'epoch': 4.6}
+{'loss': 1.5413, 'grad_norm': 1.2703298330307007, 'learning_rate': 9.192611030081637e-05, 'epoch': 4.61}
+{'loss': 1.5077, 'grad_norm': 1.7039837837219238, 'learning_rate': 9.190001393570034e-05, 'epoch': 4.61}
+{'loss': 1.5259, 'grad_norm': 1.2425333261489868, 'learning_rate': 9.187387918122953e-05, 'epoch': 4.62}
+{'loss': 1.5243, 'grad_norm': 1.1865575313568115, 'learning_rate': 9.184770606135038e-05, 'epoch': 4.62}
+{'loss': 1.5375, 'grad_norm': 1.376383662223816, 'learning_rate': 9.182149460004449e-05, 'epoch': 4.63}
+{'loss': 1.5209, 'grad_norm': 1.4462292194366455, 'learning_rate': 9.179524482132857e-05, 'epoch': 4.64}
+{'loss': 1.5416, 'grad_norm': 1.3688052892684937, 'learning_rate': 9.176895674925448e-05, 'epoch': 4.64}
+{'loss': 1.5261, 'grad_norm': 1.1893608570098877, 'learning_rate': 9.17426304079091e-05, 'epoch': 4.65}
+{'loss': 1.5167, 'grad_norm': 1.4037144184112549, 'learning_rate': 9.171626582141447e-05, 'epoch': 4.65}
+{'loss': 1.5016, 'grad_norm': 1.2504767179489136, 'learning_rate': 9.16898630139276e-05, 'epoch': 4.66}
+{'loss': 1.4902, 'grad_norm': 1.148375153541565, 'learning_rate': 9.16634220096405e-05, 'epoch': 4.66}
+{'loss': 1.4989, 'grad_norm': 1.4028209447860718, 'learning_rate': 9.163694283278027e-05, 'epoch': 4.67}
+{'loss': 1.4865, 'grad_norm': 1.3027985095977783, 'learning_rate': 9.16104255076089e-05, 'epoch': 4.68}
+{'loss': 1.5174, 'grad_norm': 1.4219080209732056, 'learning_rate': 9.158387005842341e-05, 'epoch': 4.68}
+{'loss': 1.5335, 'grad_norm': 1.4299012422561646, 'learning_rate': 9.155727650955567e-05, 'epoch': 4.69}
+{'loss': 1.5351, 'grad_norm': 1.2310203313827515, 'learning_rate': 9.15306448853725e-05, 'epoch': 4.69}
+{'loss': 1.5247, 'grad_norm': 1.1910754442214966, 'learning_rate': 9.150397521027563e-05, 'epoch': 4.7}
+{'loss': 1.495, 'grad_norm': 1.1212091445922852, 'learning_rate': 9.147726750870164e-05, 'epoch': 4.7}
+{'loss': 1.5141, 'grad_norm': 1.280044674873352, 'learning_rate': 9.14505218051219e-05, 'epoch': 4.71}
+{'loss': 1.5087, 'grad_norm': 1.3714500665664673, 'learning_rate': 9.14237381240427e-05, 'epoch': 4.72}
+{'loss': 1.5014, 'grad_norm': 1.2407679557800293, 'learning_rate': 9.139691649000504e-05, 'epoch': 4.72}
+{'loss': 1.5039, 'grad_norm': 1.4980745315551758, 'learning_rate': 9.137005692758472e-05, 'epoch': 4.73}
+{'loss': 1.5037, 'grad_norm': 1.3073756694793701, 'learning_rate': 9.134315946139233e-05, 'epoch': 4.73}
+{'loss': 1.5465, 'grad_norm': 1.2725275754928589, 'learning_rate': 9.131622411607312e-05, 'epoch': 4.74}
+{'loss': 1.51, 'grad_norm': 1.2008821964263916, 'learning_rate': 9.128925091630711e-05, 'epoch': 4.74}
+{'loss': 1.524, 'grad_norm': 1.2691665887832642, 'learning_rate': 9.126223988680899e-05, 'epoch': 4.75}
+{'loss': 1.5175, 'grad_norm': 1.2835962772369385, 'learning_rate': 9.123519105232808e-05, 'epoch': 4.76}
+{'loss': 1.4827, 'grad_norm': 1.3977302312850952, 'learning_rate': 9.12081044376484e-05, 'epoch': 4.76}
+{'loss': 1.5177, 'grad_norm': 1.2746983766555786, 'learning_rate': 9.118098006758852e-05, 'epoch': 4.77}
+{'loss': 1.5063, 'grad_norm': 1.5048744678497314, 'learning_rate': 9.115381796700164e-05, 'epoch': 4.77}
+{'loss': 1.487, 'grad_norm': 1.3444232940673828, 'learning_rate': 9.112661816077553e-05, 'epoch': 4.78}
+{'loss': 1.5446, 'grad_norm': 1.3672760725021362, 'learning_rate': 9.10993806738325e-05, 'epoch': 4.78}
+{'loss': 1.5136, 'grad_norm': 1.5493474006652832, 'learning_rate': 9.107210553112942e-05, 'epoch': 4.79}
+{'loss': 1.4777, 'grad_norm': 1.2539175748825073, 'learning_rate': 9.104479275765758e-05, 'epoch': 4.8}
+{'loss': 1.5088, 'grad_norm': 1.295505166053772, 'learning_rate': 9.101744237844284e-05, 'epoch': 4.8}
+{'loss': 1.5118, 'grad_norm': 1.1741442680358887, 'learning_rate': 9.099005441854547e-05, 'epoch': 4.81}
+{'loss': 1.4795, 'grad_norm': 1.431107759475708, 'learning_rate': 9.096262890306016e-05, 'epoch': 4.81}
+{'loss': 1.5179, 'grad_norm': 1.3822585344314575, 'learning_rate': 9.093516585711608e-05, 'epoch': 4.82}
+{'loss': 1.4863, 'grad_norm': 1.3570129871368408, 'learning_rate': 9.090766530587672e-05, 'epoch': 4.82}
+{'loss': 1.512, 'grad_norm': 1.2391068935394287, 'learning_rate': 9.088012727453994e-05, 'epoch': 4.83}
+{'loss': 1.4885, 'grad_norm': 1.175000548362732, 'learning_rate': 9.085255178833799e-05, 'epoch': 4.84}
+{'loss': 1.538, 'grad_norm': 1.2359306812286377, 'learning_rate': 9.08249388725374e-05, 'epoch': 4.84}
+{'loss': 1.5122, 'grad_norm': 1.357232689857483, 'learning_rate': 9.079728855243897e-05, 'epoch': 4.85}
+{'loss': 1.5029, 'grad_norm': 1.2246289253234863, 'learning_rate': 9.076960085337786e-05, 'epoch': 4.85}
+{'loss': 1.519, 'grad_norm': 1.236830472946167, 'learning_rate': 9.074187580072337e-05, 'epoch': 4.86}
+{'loss': 1.5211, 'grad_norm': 1.2631417512893677, 'learning_rate': 9.071411341987915e-05, 'epoch': 4.87}
+{'loss': 1.5031, 'grad_norm': 1.1685912609100342, 'learning_rate': 9.06863137362829e-05, 'epoch': 4.87}
+{'loss': 1.4698, 'grad_norm': 1.2414636611938477, 'learning_rate': 9.065847677540666e-05, 'epoch': 4.88}
+{'loss': 1.4631, 'grad_norm': 1.229708194732666, 'learning_rate': 9.063060256275648e-05, 'epoch': 4.88}
+{'loss': 1.4841, 'grad_norm': 1.30802321434021, 'learning_rate': 9.060269112387265e-05, 'epoch': 4.89}
+{'loss': 1.5283, 'grad_norm': 1.9324769973754883, 'learning_rate': 9.057474248432956e-05, 'epoch': 4.89}
+{'loss': 1.4929, 'grad_norm': 1.3783663511276245, 'learning_rate': 9.054675666973559e-05, 'epoch': 4.9}
+{'loss': 1.5085, 'grad_norm': 1.6306493282318115, 'learning_rate': 9.05187337057333e-05, 'epoch': 4.91}
+{'loss': 1.5418, 'grad_norm': 1.2749860286712646, 'learning_rate': 9.04906736179992e-05, 'epoch': 4.91}
+{'loss': 1.5312, 'grad_norm': 1.1955726146697998, 'learning_rate': 9.046257643224387e-05, 'epoch': 4.92}
+{'loss': 1.5012, 'grad_norm': 1.2583096027374268, 'learning_rate': 9.043444217421189e-05, 'epoch': 4.92}
+{'loss': 1.535, 'grad_norm': 1.242256999015808, 'learning_rate': 9.040627086968172e-05, 'epoch': 4.93}
+{'loss': 1.4832, 'grad_norm': 1.1753039360046387, 'learning_rate': 9.03780625444659e-05, 'epoch': 4.93}
+{'loss': 1.5142, 'grad_norm': 1.17648184299469, 'learning_rate': 9.034981722441077e-05, 'epoch': 4.94}
+{'loss': 1.4893, 'grad_norm': 1.2780722379684448, 'learning_rate': 9.032153493539663e-05, 'epoch': 4.95}
+{'loss': 1.5075, 'grad_norm': 1.3198331594467163, 'learning_rate': 9.029321570333764e-05, 'epoch': 4.95}
+{'loss': 1.5138, 'grad_norm': 1.345278263092041, 'learning_rate': 9.026485955418181e-05, 'epoch': 4.96}
+{'loss': 1.5261, 'grad_norm': 1.3138835430145264, 'learning_rate': 9.023646651391095e-05, 'epoch': 4.96}
+{'loss': 1.4957, 'grad_norm': 1.2407513856887817, 'learning_rate': 9.020803660854073e-05, 'epoch': 4.97}
+{'loss': 1.5074, 'grad_norm': 1.1697194576263428, 'learning_rate': 9.017956986412055e-05, 'epoch': 4.97}
+{'loss': 1.5181, 'grad_norm': 1.4139670133590698, 'learning_rate': 9.01510663067336e-05, 'epoch': 4.98}
+{'loss': 1.5136, 'grad_norm': 1.2401978969573975, 'learning_rate': 9.012252596249674e-05, 'epoch': 4.99}
+{'loss': 1.5176, 'grad_norm': 1.3499748706817627, 'learning_rate': 9.009394885756059e-05, 'epoch': 4.99}
+{'loss': 1.4845, 'grad_norm': 1.1562694311141968, 'learning_rate': 9.006533501810947e-05, 'epoch': 5.0}
+{'loss': 1.5066, 'grad_norm': 1.2447329759597778, 'learning_rate': 9.003668447036129e-05, 'epoch': 5.0}
+{'loss': 1.4845, 'grad_norm': 1.1344153881072998, 'learning_rate': 9.000799724056765e-05, 'epoch': 5.01}
+{'loss': 1.4656, 'grad_norm': 1.129337191581726, 'learning_rate': 8.997927335501376e-05, 'epoch': 5.01}
+{'loss': 1.4752, 'grad_norm': 1.2713044881820679, 'learning_rate': 8.995051284001834e-05, 'epoch': 5.02}
+{'loss': 1.4662, 'grad_norm': 1.3411953449249268, 'learning_rate': 8.992171572193381e-05, 'epoch': 5.03}
+{'loss': 1.4515, 'grad_norm': 1.35898756980896, 'learning_rate': 8.989288202714598e-05, 'epoch': 5.03}
+{'loss': 1.4605, 'grad_norm': 1.3001588582992554, 'learning_rate': 8.986401178207429e-05, 'epoch': 5.04}
+{'loss': 1.4519, 'grad_norm': 1.2070764303207397, 'learning_rate': 8.98351050131716e-05, 'epoch': 5.04}
+{'loss': 1.4571, 'grad_norm': 1.3240972757339478, 'learning_rate': 8.98061617469243e-05, 'epoch': 5.05}
+{'loss': 1.4819, 'grad_norm': 1.2841193675994873, 'learning_rate': 8.977718200985213e-05, 'epoch': 5.05}
+{'loss': 1.4946, 'grad_norm': 1.2023500204086304, 'learning_rate': 8.974816582850831e-05, 'epoch': 5.06}
+{'loss': 1.4704, 'grad_norm': 1.251886010169983, 'learning_rate': 8.971911322947946e-05, 'epoch': 5.07}
+{'loss': 1.4331, 'grad_norm': 1.179997444152832, 'learning_rate': 8.969002423938555e-05, 'epoch': 5.07}
+{'loss': 1.4603, 'grad_norm': 1.142061471939087, 'learning_rate': 8.966089888487988e-05, 'epoch': 5.08}
+{'loss': 1.4774, 'grad_norm': 1.3036853075027466, 'learning_rate': 8.963173719264908e-05, 'epoch': 5.08}
+{'loss': 1.4803, 'grad_norm': 1.4967633485794067, 'learning_rate': 8.960253918941308e-05, 'epoch': 5.09}
+{'loss': 1.4835, 'grad_norm': 1.2133448123931885, 'learning_rate': 8.957330490192507e-05, 'epoch': 5.09}
+{'loss': 1.4602, 'grad_norm': 1.1352540254592896, 'learning_rate': 8.954403435697151e-05, 'epoch': 5.1}
+{'loss': 1.5046, 'grad_norm': 1.0886096954345703, 'learning_rate': 8.951472758137209e-05, 'epoch': 5.11}
+{'loss': 1.4563, 'grad_norm': 1.2195403575897217, 'learning_rate': 8.948538460197962e-05, 'epoch': 5.11}
+{'loss': 1.4564, 'grad_norm': 1.2467718124389648, 'learning_rate': 8.945600544568015e-05, 'epoch': 5.12}
+{'loss': 1.4427, 'grad_norm': 1.3505523204803467, 'learning_rate': 8.94265901393929e-05, 'epoch': 5.12}
+{'loss': 1.4999, 'grad_norm': 1.338301420211792, 'learning_rate': 8.939713871007013e-05, 'epoch': 5.13}
+{'loss': 1.4678, 'grad_norm': 1.2780975103378296, 'learning_rate': 8.936765118469727e-05, 'epoch': 5.13}
+{'loss': 1.4792, 'grad_norm': 1.3231487274169922, 'learning_rate': 8.933812759029281e-05, 'epoch': 5.14}
+{'loss': 1.489, 'grad_norm': 1.2195783853530884, 'learning_rate': 8.930856795390825e-05, 'epoch': 5.15}
+{'loss': 1.4632, 'grad_norm': 1.1261515617370605, 'learning_rate': 8.927897230262813e-05, 'epoch': 5.15}
+{'loss': 1.486, 'grad_norm': 1.4532493352890015, 'learning_rate': 8.924934066357007e-05, 'epoch': 5.16}
+{'loss': 1.464, 'grad_norm': 1.0976425409317017, 'learning_rate': 8.921967306388452e-05, 'epoch': 5.16}
+{'loss': 1.4396, 'grad_norm': 1.287765622138977, 'learning_rate': 8.918996953075497e-05, 'epoch': 5.17}
+[WARNING|trainer.py:761] 2025-05-15 21:55:56,867 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:55:56,868 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:03,504 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:03,505 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:03,527 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:03,527 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:10,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:10,397 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:10,418 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:10,418 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:16,696 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:16,697 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:16,718 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:16,719 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:23,218 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:23,219 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:23,240 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:23,241 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:30,319 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:30,320 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:30,341 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:30,341 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:37,644 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:37,644 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:37,665 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:37,666 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:44,605 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:44,605 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:44,626 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:44,627 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:50,660 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:50,660 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:50,682 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:50,682 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:56:57,327 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:57,328 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:57,348 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:56:57,349 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:57:04,293 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:04,294 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:04,315 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:04,315 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:57:10,669 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:10,669 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:10,692 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:10,692 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:57:17,886 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:17,887 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:17,907 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:17,908 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:57:24,811 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:24,812 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:24,833 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:24,833 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:57:31,118 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:31,118 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:31,140 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:31,140 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:57:38,702 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:38,702 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:38,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:38,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 21:57:43,178 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:43,179 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:43,198 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 21:57:43,199 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.147834300994873, 'eval_wer': 0.10227144310091536, 'eval_runtime': 121.8641, 'eval_samples_per_second': 13.056, 'eval_steps_per_second': 0.139, 'epoch': 5.17}
+{'loss': 1.4828, 'grad_norm': 1.2124603986740112, 'learning_rate': 8.916023009139785e-05, 'epoch': 5.18}
+{'loss': 1.5114, 'grad_norm': 1.1968454122543335, 'learning_rate': 8.913045477306244e-05, 'epoch': 5.18}
+{'loss': 1.462, 'grad_norm': 1.147079348564148, 'learning_rate': 8.910064360303092e-05, 'epoch': 5.19}
+{'loss': 1.4653, 'grad_norm': 1.1202359199523926, 'learning_rate': 8.907079660861829e-05, 'epoch': 5.19}
+{'loss': 1.4727, 'grad_norm': 1.093362808227539, 'learning_rate': 8.904091381717243e-05, 'epoch': 5.2}
+{'loss': 1.4589, 'grad_norm': 1.1937211751937866, 'learning_rate': 8.901099525607397e-05, 'epoch': 5.2}
+{'loss': 1.4501, 'grad_norm': 1.205068588256836, 'learning_rate': 8.898104095273633e-05, 'epoch': 5.21}
+{'loss': 1.4511, 'grad_norm': 1.3431919813156128, 'learning_rate': 8.895105093460569e-05, 'epoch': 5.22}
+{'loss': 1.4637, 'grad_norm': 1.1750576496124268, 'learning_rate': 8.892102522916098e-05, 'epoch': 5.22}
+{'loss': 1.4643, 'grad_norm': 1.217994213104248, 'learning_rate': 8.889096386391373e-05, 'epoch': 5.23}
+{'loss': 1.458, 'grad_norm': 1.383482813835144, 'learning_rate': 8.886086686640823e-05, 'epoch': 5.23}
+{'loss': 1.4705, 'grad_norm': 1.2347828149795532, 'learning_rate': 8.883073426422142e-05, 'epoch': 5.24}
+{'loss': 1.5044, 'grad_norm': 1.2212175130844116, 'learning_rate': 8.880056608496284e-05, 'epoch': 5.24}
+{'loss': 1.4615, 'grad_norm': 1.3333848714828491, 'learning_rate': 8.877036235627462e-05, 'epoch': 5.25}
+{'loss': 1.4667, 'grad_norm': 1.2548474073410034, 'learning_rate': 8.874012310583146e-05, 'epoch': 5.26}
+{'loss': 1.4328, 'grad_norm': 1.255906581878662, 'learning_rate': 8.870984836134064e-05, 'epoch': 5.26}
+{'loss': 1.4622, 'grad_norm': 1.23939049243927, 'learning_rate': 8.867953815054195e-05, 'epoch': 5.27}
+{'loss': 1.4889, 'grad_norm': 1.3477449417114258, 'learning_rate': 8.864919250120763e-05, 'epoch': 5.27}
+{'loss': 1.4736, 'grad_norm': 1.3194857835769653, 'learning_rate': 8.861881144114247e-05, 'epoch': 5.28}
+{'loss': 1.4593, 'grad_norm': 1.2175331115722656, 'learning_rate': 8.858839499818364e-05, 'epoch': 5.28}
+{'loss': 1.4622, 'grad_norm': 1.386627435684204, 'learning_rate': 8.855794320020078e-05, 'epoch': 5.29}
+{'loss': 1.4881, 'grad_norm': 1.4545973539352417, 'learning_rate': 8.852745607509588e-05, 'epoch': 5.3}
+{'loss': 1.4734, 'grad_norm': 1.6160017251968384, 'learning_rate': 8.849693365080332e-05, 'epoch': 5.3}
+{'loss': 1.4838, 'grad_norm': 1.2399158477783203, 'learning_rate': 8.846637595528982e-05, 'epoch': 5.31}
+{'loss': 1.4573, 'grad_norm': 1.3766226768493652, 'learning_rate': 8.843578301655444e-05, 'epoch': 5.31}
+{'loss': 1.4569, 'grad_norm': 1.3171476125717163, 'learning_rate': 8.84051548626285e-05, 'epoch': 5.32}
+{'loss': 1.4617, 'grad_norm': 1.155517339706421, 'learning_rate': 8.83744915215756e-05, 'epoch': 5.32}
+{'loss': 1.4437, 'grad_norm': 1.1997681856155396, 'learning_rate': 8.834379302149162e-05, 'epoch': 5.33}
+{'loss': 1.4507, 'grad_norm': 1.3225274085998535, 'learning_rate': 8.831305939050454e-05, 'epoch': 5.34}
+{'loss': 1.4847, 'grad_norm': 1.3525100946426392, 'learning_rate': 8.828229065677464e-05, 'epoch': 5.34}
+{'loss': 1.4506, 'grad_norm': 1.2089719772338867, 'learning_rate': 8.825148684849437e-05, 'epoch': 5.35}
+{'loss': 1.4404, 'grad_norm': 1.1200802326202393, 'learning_rate': 8.822064799388821e-05, 'epoch': 5.35}
+{'loss': 1.4882, 'grad_norm': 1.3737341165542603, 'learning_rate': 8.818977412121286e-05, 'epoch': 5.36}
+{'loss': 1.5014, 'grad_norm': 1.287752628326416, 'learning_rate': 8.815886525875705e-05, 'epoch': 5.36}
+{'loss': 1.4612, 'grad_norm': 1.239037275314331, 'learning_rate': 8.812792143484159e-05, 'epoch': 5.37}
+{'loss': 1.4474, 'grad_norm': 1.2316423654556274, 'learning_rate': 8.80969426778193e-05, 'epoch': 5.38}
+{'loss': 1.4939, 'grad_norm': 1.22121000289917, 'learning_rate': 8.806592901607505e-05, 'epoch': 5.38}
+{'loss': 1.4587, 'grad_norm': 1.40297269821167, 'learning_rate': 8.803488047802567e-05, 'epoch': 5.39}
+{'loss': 1.5025, 'grad_norm': 1.3497315645217896, 'learning_rate': 8.800379709211995e-05, 'epoch': 5.39}
+{'loss': 1.4991, 'grad_norm': 1.3170558214187622, 'learning_rate': 8.797267888683854e-05, 'epoch': 5.4}
+{'loss': 1.4877, 'grad_norm': 1.3161382675170898, 'learning_rate': 8.794152589069413e-05, 'epoch': 5.4}
+{'loss': 1.4709, 'grad_norm': 1.2778904438018799, 'learning_rate': 8.79103381322312e-05, 'epoch': 5.41}
+{'loss': 1.4702, 'grad_norm': 1.2192775011062622, 'learning_rate': 8.787911564002608e-05, 'epoch': 5.42}
+{'loss': 1.4538, 'grad_norm': 1.2643715143203735, 'learning_rate': 8.784785844268696e-05, 'epoch': 5.42}
+{'loss': 1.4671, 'grad_norm': 1.2216124534606934, 'learning_rate': 8.78165665688538e-05, 'epoch': 5.43}
+{'loss': 1.4473, 'grad_norm': 1.2254632711410522, 'learning_rate': 8.778524004719836e-05, 'epoch': 5.43}
+{'loss': 1.4728, 'grad_norm': 1.1977343559265137, 'learning_rate': 8.775387890642412e-05, 'epoch': 5.44}
+{'loss': 1.4654, 'grad_norm': 1.218712568283081, 'learning_rate': 8.772248317526627e-05, 'epoch': 5.45}
+{'loss': 1.4621, 'grad_norm': 1.317732572555542, 'learning_rate': 8.769105288249179e-05, 'epoch': 5.45}
+{'loss': 1.4671, 'grad_norm': 1.158211588859558, 'learning_rate': 8.765958805689916e-05, 'epoch': 5.46}
+{'loss': 1.4548, 'grad_norm': 1.3367105722427368, 'learning_rate': 8.762808872731867e-05, 'epoch': 5.46}
+{'loss': 1.4473, 'grad_norm': 1.3322018384933472, 'learning_rate': 8.759655492261211e-05, 'epoch': 5.47}
+{'loss': 1.4656, 'grad_norm': 1.3279736042022705, 'learning_rate': 8.756498667167292e-05, 'epoch': 5.47}
+{'loss': 1.4811, 'grad_norm': 1.2099251747131348, 'learning_rate': 8.753338400342605e-05, 'epoch': 5.48}
+{'loss': 1.4596, 'grad_norm': 1.3018758296966553, 'learning_rate': 8.750174694682805e-05, 'epoch': 5.49}
+{'loss': 1.437, 'grad_norm': 1.2439451217651367, 'learning_rate': 8.747007553086694e-05, 'epoch': 5.49}
+{'loss': 1.4665, 'grad_norm': 1.3036242723464966, 'learning_rate': 8.743836978456222e-05, 'epoch': 5.5}
+{'loss': 1.4649, 'grad_norm': 1.2429912090301514, 'learning_rate': 8.740662973696485e-05, 'epoch': 5.5}
+{'loss': 1.4577, 'grad_norm': 1.1051344871520996, 'learning_rate': 8.737485541715721e-05, 'epoch': 5.51}
+{'loss': 1.4279, 'grad_norm': 1.261716604232788, 'learning_rate': 8.734304685425314e-05, 'epoch': 5.51}
+{'loss': 1.4657, 'grad_norm': 1.129029393196106, 'learning_rate': 8.731120407739775e-05, 'epoch': 5.52}
+{'loss': 1.4386, 'grad_norm': 1.237560510635376, 'learning_rate': 8.727932711576762e-05, 'epoch': 5.53}
+{'loss': 1.4558, 'grad_norm': 1.0743985176086426, 'learning_rate': 8.724741599857055e-05, 'epoch': 5.53}
+{'loss': 1.4765, 'grad_norm': 1.2897517681121826, 'learning_rate': 8.72154707550457e-05, 'epoch': 5.54}
+{'loss': 1.4433, 'grad_norm': 1.194259762763977, 'learning_rate': 8.718349141446347e-05, 'epoch': 5.54}
+{'loss': 1.4738, 'grad_norm': 1.2468435764312744, 'learning_rate': 8.715147800612549e-05, 'epoch': 5.55}
+{'loss': 1.4624, 'grad_norm': 1.1765706539154053, 'learning_rate': 8.711943055936468e-05, 'epoch': 5.55}
+{'loss': 1.4738, 'grad_norm': 1.163429856300354, 'learning_rate': 8.708734910354504e-05, 'epoch': 5.56}
+{'loss': 1.4435, 'grad_norm': 1.272435188293457, 'learning_rate': 8.705523366806177e-05, 'epoch': 5.57}
+{'loss': 1.4756, 'grad_norm': 1.3485329151153564, 'learning_rate': 8.702308428234129e-05, 'epoch': 5.57}
+{'loss': 1.4625, 'grad_norm': 1.3449616432189941, 'learning_rate': 8.699090097584099e-05, 'epoch': 5.58}
+{'loss': 1.4449, 'grad_norm': 1.6839066743850708, 'learning_rate': 8.695868377804944e-05, 'epoch': 5.58}
+{'loss': 1.4856, 'grad_norm': 1.1611164808273315, 'learning_rate': 8.692643271848622e-05, 'epoch': 5.59}
+{'loss': 1.4642, 'grad_norm': 1.1526763439178467, 'learning_rate': 8.689414782670194e-05, 'epoch': 5.59}
+{'loss': 1.4348, 'grad_norm': 1.2113934755325317, 'learning_rate': 8.686182913227824e-05, 'epoch': 5.6}
+{'loss': 1.4566, 'grad_norm': 1.3929334878921509, 'learning_rate': 8.682947666482768e-05, 'epoch': 5.61}
+{'loss': 1.4761, 'grad_norm': 1.1892578601837158, 'learning_rate': 8.679709045399381e-05, 'epoch': 5.61}
+{'loss': 1.4263, 'grad_norm': 1.1876999139785767, 'learning_rate': 8.676467052945108e-05, 'epoch': 5.62}
+{'loss': 1.4428, 'grad_norm': 1.2544496059417725, 'learning_rate': 8.673221692090483e-05, 'epoch': 5.62}
+{'loss': 1.4737, 'grad_norm': 1.2875301837921143, 'learning_rate': 8.669972965809125e-05, 'epoch': 5.63}
+{'loss': 1.4829, 'grad_norm': 1.2570191621780396, 'learning_rate': 8.666720877077741e-05, 'epoch': 5.63}
+{'loss': 1.4774, 'grad_norm': 1.2582734823226929, 'learning_rate': 8.663465428876113e-05, 'epoch': 5.64}
+{'loss': 1.4927, 'grad_norm': 1.3060370683670044, 'learning_rate': 8.660206624187109e-05, 'epoch': 5.65}
+{'loss': 1.4535, 'grad_norm': 1.1538877487182617, 'learning_rate': 8.656944465996662e-05, 'epoch': 5.65}
+{'loss': 1.4631, 'grad_norm': 1.2658586502075195, 'learning_rate': 8.653678957293787e-05, 'epoch': 5.66}
+{'loss': 1.4273, 'grad_norm': 1.21420156955719, 'learning_rate': 8.650410101070564e-05, 'epoch': 5.66}
+{'loss': 1.4543, 'grad_norm': 1.1817564964294434, 'learning_rate': 8.647137900322143e-05, 'epoch': 5.67}
+{'loss': 1.4904, 'grad_norm': 1.0846434831619263, 'learning_rate': 8.643862358046737e-05, 'epoch': 5.67}
+{'loss': 1.4665, 'grad_norm': 1.5501220226287842, 'learning_rate': 8.640583477245618e-05, 'epoch': 5.68}
+{'loss': 1.4659, 'grad_norm': 1.369886040687561, 'learning_rate': 8.637301260923124e-05, 'epoch': 5.69}
+{'loss': 1.4445, 'grad_norm': 1.0211889743804932, 'learning_rate': 8.634015712086642e-05, 'epoch': 5.69}
+{'loss': 1.4221, 'grad_norm': 1.23423433303833, 'learning_rate': 8.630726833746618e-05, 'epoch': 5.7}
+{'loss': 1.4391, 'grad_norm': 1.1704976558685303, 'learning_rate': 8.627434628916544e-05, 'epoch': 5.7}
+{'loss': 1.4525, 'grad_norm': 1.3454113006591797, 'learning_rate': 8.624139100612962e-05, 'epoch': 5.71}
+{'loss': 1.4619, 'grad_norm': 1.2955466508865356, 'learning_rate': 8.62084025185546e-05, 'epoch': 5.72}
+{'loss': 1.4545, 'grad_norm': 1.1994664669036865, 'learning_rate': 8.617538085666673e-05, 'epoch': 5.72}
+{'loss': 1.4407, 'grad_norm': 1.3065454959869385, 'learning_rate': 8.61423260507226e-05, 'epoch': 5.73}
+{'loss': 1.4907, 'grad_norm': 1.3562005758285522, 'learning_rate': 8.610923813100936e-05, 'epoch': 5.73}
+{'loss': 1.4643, 'grad_norm': 1.1897697448730469, 'learning_rate': 8.607611712784436e-05, 'epoch': 5.74}
+{'loss': 1.4343, 'grad_norm': 1.3620132207870483, 'learning_rate': 8.604296307157538e-05, 'epoch': 5.74}
+[WARNING|trainer.py:761] 2025-05-15 22:12:53,692 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:12:53,692 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:00,263 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:00,263 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:00,284 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:00,284 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:07,104 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:07,104 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:07,125 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:07,125 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:13,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:13,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:13,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:13,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:19,826 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:19,827 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:19,847 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:19,848 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:26,272 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:26,273 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:26,294 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:26,294 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:33,817 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:33,818 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:33,838 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:33,838 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:40,580 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:40,581 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:40,601 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:40,601 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:46,313 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:46,314 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:46,334 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:46,334 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:52,987 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:52,987 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:53,009 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:53,010 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:13:59,812 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:59,813 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:59,832 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:13:59,833 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:14:06,371 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:06,372 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:06,392 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:06,393 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:14:13,649 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:13,649 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:13,669 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:13,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:14:20,476 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:20,477 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:20,497 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:20,497 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:14:26,776 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:26,777 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:26,797 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:26,797 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:14:34,179 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:34,179 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:34,200 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:34,200 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:14:38,648 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:38,648 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:38,668 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:14:38,668 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.1382653713226318, 'eval_wer': 0.10286473047802011, 'eval_runtime': 120.4306, 'eval_samples_per_second': 13.211, 'eval_steps_per_second': 0.141, 'epoch': 5.74}
+{'loss': 1.4573, 'grad_norm': 1.3977901935577393, 'learning_rate': 8.600977599258038e-05, 'epoch': 5.75}
+{'loss': 1.4337, 'grad_norm': 1.224683403968811, 'learning_rate': 8.597655592126762e-05, 'epoch': 5.76}
+{'loss': 1.4562, 'grad_norm': 1.323976755142212, 'learning_rate': 8.59433028880756e-05, 'epoch': 5.76}
+{'loss': 1.463, 'grad_norm': 1.2467987537384033, 'learning_rate': 8.591001692347301e-05, 'epoch': 5.77}
+{'loss': 1.4462, 'grad_norm': 1.1050121784210205, 'learning_rate': 8.587669805795872e-05, 'epoch': 5.77}
+{'loss': 1.446, 'grad_norm': 1.2316280603408813, 'learning_rate': 8.584334632206174e-05, 'epoch': 5.78}
+{'loss': 1.4658, 'grad_norm': 1.0639480352401733, 'learning_rate': 8.580996174634122e-05, 'epoch': 5.78}
+{'loss': 1.4572, 'grad_norm': 1.4012728929519653, 'learning_rate': 8.577654436138634e-05, 'epoch': 5.79}
+{'loss': 1.4567, 'grad_norm': 1.4036791324615479, 'learning_rate': 8.574309419781643e-05, 'epoch': 5.8}
+{'loss': 1.4584, 'grad_norm': 1.2204209566116333, 'learning_rate': 8.570961128628076e-05, 'epoch': 5.8}
+{'loss': 1.4424, 'grad_norm': 1.4119248390197754, 'learning_rate': 8.56760956574587e-05, 'epoch': 5.81}
+{'loss': 1.4515, 'grad_norm': 1.2645256519317627, 'learning_rate': 8.564254734205954e-05, 'epoch': 5.81}
+{'loss': 1.4475, 'grad_norm': 1.137039303779602, 'learning_rate': 8.560896637082251e-05, 'epoch': 5.82}
+{'loss': 1.4444, 'grad_norm': 1.1953868865966797, 'learning_rate': 8.55753527745168e-05, 'epoch': 5.82}
+{'loss': 1.4576, 'grad_norm': 1.4050496816635132, 'learning_rate': 8.554170658394145e-05, 'epoch': 5.83}
+{'loss': 1.4685, 'grad_norm': 1.4435936212539673, 'learning_rate': 8.550802782992541e-05, 'epoch': 5.84}
+{'loss': 1.4528, 'grad_norm': 1.091422200202942, 'learning_rate': 8.547431654332745e-05, 'epoch': 5.84}
+{'loss': 1.4494, 'grad_norm': 1.2685961723327637, 'learning_rate': 8.544057275503616e-05, 'epoch': 5.85}
+{'loss': 1.4853, 'grad_norm': 1.1865488290786743, 'learning_rate': 8.540679649596985e-05, 'epoch': 5.85}
+{'loss': 1.4276, 'grad_norm': 1.3077943325042725, 'learning_rate': 8.537298779707667e-05, 'epoch': 5.86}
+{'loss': 1.465, 'grad_norm': 1.2340067625045776, 'learning_rate': 8.533914668933444e-05, 'epoch': 5.86}
+{'loss': 1.4741, 'grad_norm': 1.1962890625, 'learning_rate': 8.530527320375069e-05, 'epoch': 5.87}
+{'loss': 1.4647, 'grad_norm': 1.254611849784851, 'learning_rate': 8.52713673713626e-05, 'epoch': 5.88}
+{'loss': 1.4641, 'grad_norm': 1.3268686532974243, 'learning_rate': 8.523742922323701e-05, 'epoch': 5.88}
+{'loss': 1.448, 'grad_norm': 1.215364933013916, 'learning_rate': 8.520345879047035e-05, 'epoch': 5.89}
+{'loss': 1.4329, 'grad_norm': 1.1393647193908691, 'learning_rate': 8.516945610418869e-05, 'epoch': 5.89}
+{'loss': 1.4765, 'grad_norm': 1.0588808059692383, 'learning_rate': 8.513542119554755e-05, 'epoch': 5.9}
+{'loss': 1.421, 'grad_norm': 1.3944430351257324, 'learning_rate': 8.510135409573205e-05, 'epoch': 5.9}
+{'loss': 1.4632, 'grad_norm': 1.1634774208068848, 'learning_rate': 8.506725483595678e-05, 'epoch': 5.91}
+{'loss': 1.4433, 'grad_norm': 1.356818437576294, 'learning_rate': 8.503312344746583e-05, 'epoch': 5.92}
+{'loss': 1.4328, 'grad_norm': 1.168566346168518, 'learning_rate': 8.499895996153268e-05, 'epoch': 5.92}
+{'loss': 1.4738, 'grad_norm': 1.2512634992599487, 'learning_rate': 8.496476440946026e-05, 'epoch': 5.93}
+{'loss': 1.4182, 'grad_norm': 1.315414309501648, 'learning_rate': 8.493053682258084e-05, 'epoch': 5.93}
+{'loss': 1.4607, 'grad_norm': 1.2204861640930176, 'learning_rate': 8.489627723225607e-05, 'epoch': 5.94}
+{'loss': 1.4294, 'grad_norm': 1.2707440853118896, 'learning_rate': 8.486198566987691e-05, 'epoch': 5.94}
+{'loss': 1.4328, 'grad_norm': 1.1873972415924072, 'learning_rate': 8.482766216686365e-05, 'epoch': 5.95}
+{'loss': 1.4807, 'grad_norm': 1.069666862487793, 'learning_rate': 8.479330675466583e-05, 'epoch': 5.96}
+{'loss': 1.4427, 'grad_norm': 1.1547396183013916, 'learning_rate': 8.475891946476217e-05, 'epoch': 5.96}
+{'loss': 1.4285, 'grad_norm': 1.1067239046096802, 'learning_rate': 8.472450032866066e-05, 'epoch': 5.97}
+{'loss': 1.4354, 'grad_norm': 1.1606744527816772, 'learning_rate': 8.469004937789849e-05, 'epoch': 5.97}
+{'loss': 1.4345, 'grad_norm': 1.0931557416915894, 'learning_rate': 8.465556664404193e-05, 'epoch': 5.98}
+{'loss': 1.4549, 'grad_norm': 1.1738940477371216, 'learning_rate': 8.462105215868646e-05, 'epoch': 5.99}
+{'loss': 1.4613, 'grad_norm': 1.1976697444915771, 'learning_rate': 8.458650595345652e-05, 'epoch': 5.99}
+{'loss': 1.4685, 'grad_norm': 1.172865867614746, 'learning_rate': 8.455192806000574e-05, 'epoch': 6.0}
+{'loss': 1.483, 'grad_norm': 1.1299928426742554, 'learning_rate': 8.451731851001676e-05, 'epoch': 6.0}
+{'loss': 1.4196, 'grad_norm': 1.1668400764465332, 'learning_rate': 8.448267733520117e-05, 'epoch': 6.01}
+{'loss': 1.4252, 'grad_norm': 1.397894263267517, 'learning_rate': 8.444800456729961e-05, 'epoch': 6.01}
+{'loss': 1.4269, 'grad_norm': 1.1697758436203003, 'learning_rate': 8.441330023808161e-05, 'epoch': 6.02}
+{'loss': 1.423, 'grad_norm': 1.0655994415283203, 'learning_rate': 8.437856437934561e-05, 'epoch': 6.03}
+{'loss': 1.41, 'grad_norm': 1.3008092641830444, 'learning_rate': 8.4343797022919e-05, 'epoch': 6.03}
+{'loss': 1.4023, 'grad_norm': 1.2477436065673828, 'learning_rate': 8.430899820065802e-05, 'epoch': 6.04}
+{'loss': 1.4463, 'grad_norm': 1.0990097522735596, 'learning_rate': 8.427416794444768e-05, 'epoch': 6.04}
+{'loss': 1.4233, 'grad_norm': 1.4908597469329834, 'learning_rate': 8.423930628620186e-05, 'epoch': 6.05}
+{'loss': 1.4017, 'grad_norm': 1.2926387786865234, 'learning_rate': 8.420441325786316e-05, 'epoch': 6.05}
+{'loss': 1.4223, 'grad_norm': 1.110458254814148, 'learning_rate': 8.416948889140296e-05, 'epoch': 6.06}
+{'loss': 1.4059, 'grad_norm': 1.1542221307754517, 'learning_rate': 8.413453321882134e-05, 'epoch': 6.07}
+{'loss': 1.4111, 'grad_norm': 1.1031684875488281, 'learning_rate': 8.409954627214707e-05, 'epoch': 6.07}
+{'loss': 1.4165, 'grad_norm': 1.4636880159378052, 'learning_rate': 8.40645280834376e-05, 'epoch': 6.08}
+{'loss': 1.4144, 'grad_norm': 1.1508665084838867, 'learning_rate': 8.402947868477893e-05, 'epoch': 6.08}
+{'loss': 1.4309, 'grad_norm': 1.1256190538406372, 'learning_rate': 8.399439810828574e-05, 'epoch': 6.09}
+{'loss': 1.3977, 'grad_norm': 1.2350083589553833, 'learning_rate': 8.395928638610121e-05, 'epoch': 6.09}
+{'loss': 1.4505, 'grad_norm': 1.1814467906951904, 'learning_rate': 8.392414355039712e-05, 'epoch': 6.1}
+{'loss': 1.4291, 'grad_norm': 1.2776685953140259, 'learning_rate': 8.388896963337372e-05, 'epoch': 6.11}
+{'loss': 1.4199, 'grad_norm': 1.068184733390808, 'learning_rate': 8.385376466725975e-05, 'epoch': 6.11}
+{'loss': 1.4041, 'grad_norm': 1.158353328704834, 'learning_rate': 8.381852868431238e-05, 'epoch': 6.12}
+{'loss': 1.3901, 'grad_norm': 1.1678544282913208, 'learning_rate': 8.378326171681724e-05, 'epoch': 6.12}
+{'loss': 1.4185, 'grad_norm': 1.1794697046279907, 'learning_rate': 8.374796379708832e-05, 'epoch': 6.13}
+{'loss': 1.3941, 'grad_norm': 1.1062124967575073, 'learning_rate': 8.371263495746797e-05, 'epoch': 6.13}
+{'loss': 1.4202, 'grad_norm': 1.2089911699295044, 'learning_rate': 8.367727523032688e-05, 'epoch': 6.14}
+{'loss': 1.403, 'grad_norm': 1.4723756313323975, 'learning_rate': 8.364188464806404e-05, 'epoch': 6.15}
+{'loss': 1.43, 'grad_norm': 1.1218116283416748, 'learning_rate': 8.36064632431067e-05, 'epoch': 6.15}
+{'loss': 1.4248, 'grad_norm': 1.353092074394226, 'learning_rate': 8.357101104791038e-05, 'epoch': 6.16}
+{'loss': 1.4219, 'grad_norm': 1.1634867191314697, 'learning_rate': 8.35355280949588e-05, 'epoch': 6.16}
+{'loss': 1.3907, 'grad_norm': 1.0126991271972656, 'learning_rate': 8.350001441676385e-05, 'epoch': 6.17}
+{'loss': 1.3904, 'grad_norm': 1.130642056465149, 'learning_rate': 8.346447004586557e-05, 'epoch': 6.17}
+{'loss': 1.4444, 'grad_norm': 1.7694042921066284, 'learning_rate': 8.342889501483213e-05, 'epoch': 6.18}
+{'loss': 1.4119, 'grad_norm': 1.057158350944519, 'learning_rate': 8.339328935625982e-05, 'epoch': 6.19}
+{'loss': 1.4404, 'grad_norm': 1.1768707036972046, 'learning_rate': 8.335765310277295e-05, 'epoch': 6.19}
+{'loss': 1.4085, 'grad_norm': 1.106454849243164, 'learning_rate': 8.33219862870239e-05, 'epoch': 6.2}
+{'loss': 1.4331, 'grad_norm': 1.2325435876846313, 'learning_rate': 8.328628894169297e-05, 'epoch': 6.2}
+{'loss': 1.4176, 'grad_norm': 1.2451276779174805, 'learning_rate': 8.32505610994886e-05, 'epoch': 6.21}
+{'loss': 1.4404, 'grad_norm': 1.141993761062622, 'learning_rate': 8.3214802793147e-05, 'epoch': 6.21}
+{'loss': 1.4119, 'grad_norm': 1.2254890203475952, 'learning_rate': 8.31790140554324e-05, 'epoch': 6.22}
+{'loss': 1.4186, 'grad_norm': 1.1228500604629517, 'learning_rate': 8.314319491913685e-05, 'epoch': 6.23}
+{'loss': 1.4129, 'grad_norm': 1.1133283376693726, 'learning_rate': 8.310734541708029e-05, 'epoch': 6.23}
+{'loss': 1.4241, 'grad_norm': 1.098901391029358, 'learning_rate': 8.307146558211048e-05, 'epoch': 6.24}
+{'loss': 1.4037, 'grad_norm': 1.1529247760772705, 'learning_rate': 8.303555544710295e-05, 'epoch': 6.24}
+{'loss': 1.3878, 'grad_norm': 1.2168315649032593, 'learning_rate': 8.299961504496106e-05, 'epoch': 6.25}
+{'loss': 1.4157, 'grad_norm': 1.1943061351776123, 'learning_rate': 8.296364440861581e-05, 'epoch': 6.26}
+{'loss': 1.4302, 'grad_norm': 1.1176701784133911, 'learning_rate': 8.292764357102595e-05, 'epoch': 6.26}
+{'loss': 1.4156, 'grad_norm': 1.469723105430603, 'learning_rate': 8.289161256517789e-05, 'epoch': 6.27}
+{'loss': 1.4337, 'grad_norm': 1.1445305347442627, 'learning_rate': 8.285555142408572e-05, 'epoch': 6.27}
+{'loss': 1.4228, 'grad_norm': 1.1990079879760742, 'learning_rate': 8.28194601807911e-05, 'epoch': 6.28}
+{'loss': 1.3974, 'grad_norm': 1.1120957136154175, 'learning_rate': 8.27833388683633e-05, 'epoch': 6.28}
+{'loss': 1.4367, 'grad_norm': 1.1598010063171387, 'learning_rate': 8.274718751989909e-05, 'epoch': 6.29}
+{'loss': 1.4, 'grad_norm': 1.0702592134475708, 'learning_rate': 8.271100616852279e-05, 'epoch': 6.3}
+{'loss': 1.4331, 'grad_norm': 1.271758794784546, 'learning_rate': 8.267479484738628e-05, 'epoch': 6.3}
+{'loss': 1.4403, 'grad_norm': 1.1642522811889648, 'learning_rate': 8.263855358966878e-05, 'epoch': 6.31}
+{'loss': 1.4128, 'grad_norm': 1.2690401077270508, 'learning_rate': 8.2602282428577e-05, 'epoch': 6.31}
+{'loss': 1.4103, 'grad_norm': 1.0879255533218384, 'learning_rate': 8.256598139734511e-05, 'epoch': 6.32}
+[WARNING|trainer.py:761] 2025-05-15 22:30:01,189 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:01,189 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:07,721 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:07,721 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:07,742 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:07,742 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:14,398 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:14,398 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:14,419 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:14,419 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:20,615 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:20,616 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:20,636 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:20,637 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:27,049 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:27,049 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:27,071 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:27,071 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:33,826 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:33,827 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:33,847 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:33,847 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:41,361 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:41,361 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:41,382 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:41,382 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:48,233 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:48,233 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:48,253 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:48,253 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:30:54,188 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:54,189 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:54,208 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:30:54,209 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:00,759 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:00,759 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:00,779 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:00,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:07,029 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:07,030 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:07,050 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:07,050 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:13,409 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:13,410 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:13,432 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:13,432 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:20,604 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:20,605 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:20,625 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:20,625 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:27,487 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:27,487 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:27,507 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:27,507 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:33,768 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:33,768 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:33,788 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:33,789 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:41,131 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:41,131 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:41,151 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:41,151 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:31:45,629 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:45,630 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:45,650 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:31:45,651 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.1180330514907837, 'eval_wer': 0.09922025087580517, 'eval_runtime': 119.9171, 'eval_samples_per_second': 13.267, 'eval_steps_per_second': 0.142, 'epoch': 6.32}
+{'loss': 1.4365, 'grad_norm': 1.2267507314682007, 'learning_rate': 8.252965052923452e-05, 'epoch': 6.32}
+{'loss': 1.4419, 'grad_norm': 1.1544227600097656, 'learning_rate': 8.249328985753406e-05, 'epoch': 6.33}
+{'loss': 1.4236, 'grad_norm': 1.0912106037139893, 'learning_rate': 8.245689941555986e-05, 'epoch': 6.34}
+{'loss': 1.4162, 'grad_norm': 1.1619361639022827, 'learning_rate': 8.242047923665531e-05, 'epoch': 6.34}
+{'loss': 1.4325, 'grad_norm': 1.1370247602462769, 'learning_rate': 8.23840293541911e-05, 'epoch': 6.35}
+{'loss': 1.4121, 'grad_norm': 1.1341171264648438, 'learning_rate': 8.234754980156504e-05, 'epoch': 6.35}
+{'loss': 1.416, 'grad_norm': 1.2911267280578613, 'learning_rate': 8.231104061220219e-05, 'epoch': 6.36}
+{'loss': 1.3958, 'grad_norm': 1.4824491739273071, 'learning_rate': 8.227450181955477e-05, 'epoch': 6.36}
+{'loss': 1.3999, 'grad_norm': 1.3235267400741577, 'learning_rate': 8.223793345710213e-05, 'epoch': 6.37}
+{'loss': 1.4185, 'grad_norm': 1.1889561414718628, 'learning_rate': 8.220133555835065e-05, 'epoch': 6.38}
+{'loss': 1.3844, 'grad_norm': 1.161799669265747, 'learning_rate': 8.216470815683384e-05, 'epoch': 6.38}
+{'loss': 1.4384, 'grad_norm': 1.1641936302185059, 'learning_rate': 8.212805128611222e-05, 'epoch': 6.39}
+{'loss': 1.4244, 'grad_norm': 1.2904438972473145, 'learning_rate': 8.209136497977328e-05, 'epoch': 6.39}
+{'loss': 1.4232, 'grad_norm': 1.2467349767684937, 'learning_rate': 8.205464927143155e-05, 'epoch': 6.4}
+{'loss': 1.4344, 'grad_norm': 1.1668075323104858, 'learning_rate': 8.201790419472845e-05, 'epoch': 6.4}
+{'loss': 1.3691, 'grad_norm': 1.1435247659683228, 'learning_rate': 8.198112978333232e-05, 'epoch': 6.41}
+{'loss': 1.4401, 'grad_norm': 1.2412710189819336, 'learning_rate': 8.194432607093836e-05, 'epoch': 6.42}
+{'loss': 1.4273, 'grad_norm': 1.3402605056762695, 'learning_rate': 8.190749309126869e-05, 'epoch': 6.42}
+{'loss': 1.4214, 'grad_norm': 1.2125691175460815, 'learning_rate': 8.187063087807213e-05, 'epoch': 6.43}
+{'loss': 1.4333, 'grad_norm': 1.201837420463562, 'learning_rate': 8.183373946512439e-05, 'epoch': 6.43}
+{'loss': 1.409, 'grad_norm': 1.1503769159317017, 'learning_rate': 8.179681888622788e-05, 'epoch': 6.44}
+{'loss': 1.4002, 'grad_norm': 1.1592082977294922, 'learning_rate': 8.175986917521176e-05, 'epoch': 6.44}
+{'loss': 1.3916, 'grad_norm': 1.326252818107605, 'learning_rate': 8.172289036593186e-05, 'epoch': 6.45}
+{'loss': 1.4068, 'grad_norm': 1.2033997774124146, 'learning_rate': 8.168588249227067e-05, 'epoch': 6.46}
+{'loss': 1.4369, 'grad_norm': 1.1641250848770142, 'learning_rate': 8.164884558813734e-05, 'epoch': 6.46}
+{'loss': 1.4381, 'grad_norm': 1.1913131475448608, 'learning_rate': 8.161177968746763e-05, 'epoch': 6.47}
+{'loss': 1.4194, 'grad_norm': 1.339672327041626, 'learning_rate': 8.157468482422378e-05, 'epoch': 6.47}
+{'loss': 1.3916, 'grad_norm': 1.17433762550354, 'learning_rate': 8.153756103239467e-05, 'epoch': 6.48}
+{'loss': 1.4308, 'grad_norm': 1.17121422290802, 'learning_rate': 8.150040834599564e-05, 'epoch': 6.48}
+{'loss': 1.4122, 'grad_norm': 1.2462800741195679, 'learning_rate': 8.146322679906851e-05, 'epoch': 6.49}
+{'loss': 1.406, 'grad_norm': 1.1157385110855103, 'learning_rate': 8.142601642568155e-05, 'epoch': 6.5}
+{'loss': 1.4004, 'grad_norm': 1.2299013137817383, 'learning_rate': 8.138877725992942e-05, 'epoch': 6.5}
+{'loss': 1.3878, 'grad_norm': 1.2796170711517334, 'learning_rate': 8.135150933593319e-05, 'epoch': 6.51}
+{'loss': 1.3973, 'grad_norm': 1.1334229707717896, 'learning_rate': 8.131421268784027e-05, 'epoch': 6.51}
+{'loss': 1.4155, 'grad_norm': 1.0533747673034668, 'learning_rate': 8.12768873498244e-05, 'epoch': 6.52}
+{'loss': 1.385, 'grad_norm': 1.1573117971420288, 'learning_rate': 8.123953335608556e-05, 'epoch': 6.52}
+{'loss': 1.4163, 'grad_norm': 1.2326871156692505, 'learning_rate': 8.120215074085007e-05, 'epoch': 6.53}
+{'loss': 1.4123, 'grad_norm': 1.2118451595306396, 'learning_rate': 8.116473953837037e-05, 'epoch': 6.54}
+{'loss': 1.4277, 'grad_norm': 1.196045994758606, 'learning_rate': 8.112729978292522e-05, 'epoch': 6.54}
+{'loss': 1.4388, 'grad_norm': 1.2165313959121704, 'learning_rate': 8.108983150881941e-05, 'epoch': 6.55}
+{'loss': 1.3921, 'grad_norm': 1.069848656654358, 'learning_rate': 8.105233475038396e-05, 'epoch': 6.55}
+{'loss': 1.3839, 'grad_norm': 1.116459608078003, 'learning_rate': 8.101480954197593e-05, 'epoch': 6.56}
+{'loss': 1.3942, 'grad_norm': 1.1783957481384277, 'learning_rate': 8.09772559179785e-05, 'epoch': 6.57}
+{'loss': 1.4167, 'grad_norm': 1.275415301322937, 'learning_rate': 8.093967391280083e-05, 'epoch': 6.57}
+{'loss': 1.4299, 'grad_norm': 1.173251748085022, 'learning_rate': 8.090206356087812e-05, 'epoch': 6.58}
+{'loss': 1.4118, 'grad_norm': 1.3185877799987793, 'learning_rate': 8.086442489667155e-05, 'epoch': 6.58}
+{'loss': 1.4127, 'grad_norm': 1.053466796875, 'learning_rate': 8.082675795466821e-05, 'epoch': 6.59}
+{'loss': 1.4135, 'grad_norm': 1.1003645658493042, 'learning_rate': 8.078906276938113e-05, 'epoch': 6.59}
+{'loss': 1.4269, 'grad_norm': 1.1019959449768066, 'learning_rate': 8.075133937534918e-05, 'epoch': 6.6}
+{'loss': 1.4661, 'grad_norm': 1.1494642496109009, 'learning_rate': 8.071358780713712e-05, 'epoch': 6.61}
+{'loss': 1.4105, 'grad_norm': 1.0500520467758179, 'learning_rate': 8.067580809933553e-05, 'epoch': 6.61}
+{'loss': 1.4501, 'grad_norm': 1.1637636423110962, 'learning_rate': 8.063800028656069e-05, 'epoch': 6.62}
+{'loss': 1.4036, 'grad_norm': 1.1359279155731201, 'learning_rate': 8.060016440345477e-05, 'epoch': 6.62}
+{'loss': 1.3899, 'grad_norm': 1.131584644317627, 'learning_rate': 8.056230048468549e-05, 'epoch': 6.63}
+{'loss': 1.4055, 'grad_norm': 1.4944665431976318, 'learning_rate': 8.052440856494642e-05, 'epoch': 6.63}
+{'loss': 1.3999, 'grad_norm': 1.0443183183670044, 'learning_rate': 8.04864886789567e-05, 'epoch': 6.64}
+{'loss': 1.3856, 'grad_norm': 1.1013708114624023, 'learning_rate': 8.044854086146111e-05, 'epoch': 6.65}
+{'loss': 1.4015, 'grad_norm': 1.0219786167144775, 'learning_rate': 8.041056514723002e-05, 'epoch': 6.65}
+{'loss': 1.4039, 'grad_norm': 1.1121494770050049, 'learning_rate': 8.037256157105937e-05, 'epoch': 6.66}
+{'loss': 1.4328, 'grad_norm': 1.2445120811462402, 'learning_rate': 8.033453016777061e-05, 'epoch': 6.66}
+{'loss': 1.4049, 'grad_norm': 1.2349894046783447, 'learning_rate': 8.029647097221074e-05, 'epoch': 6.67}
+{'loss': 1.4108, 'grad_norm': 1.0118918418884277, 'learning_rate': 8.025838401925214e-05, 'epoch': 6.67}
+{'loss': 1.4349, 'grad_norm': 1.2544103860855103, 'learning_rate': 8.022026934379267e-05, 'epoch': 6.68}
+{'loss': 1.3846, 'grad_norm': 1.3501166105270386, 'learning_rate': 8.018212698075562e-05, 'epoch': 6.69}
+{'loss': 1.4359, 'grad_norm': 1.0783281326293945, 'learning_rate': 8.014395696508962e-05, 'epoch': 6.69}
+{'loss': 1.4088, 'grad_norm': 1.0917038917541504, 'learning_rate': 8.010575933176861e-05, 'epoch': 6.7}
+{'loss': 1.3895, 'grad_norm': 1.0962666273117065, 'learning_rate': 8.006753411579188e-05, 'epoch': 6.7}
+{'loss': 1.437, 'grad_norm': 1.1106805801391602, 'learning_rate': 8.0029281352184e-05, 'epoch': 6.71}
+{'loss': 1.4392, 'grad_norm': 1.1627246141433716, 'learning_rate': 7.999100107599468e-05, 'epoch': 6.71}
+{'loss': 1.4458, 'grad_norm': 1.0740851163864136, 'learning_rate': 7.9952693322299e-05, 'epoch': 6.72}
+{'loss': 1.4079, 'grad_norm': 1.2067056894302368, 'learning_rate': 7.991435812619708e-05, 'epoch': 6.73}
+{'loss': 1.4369, 'grad_norm': 1.2740793228149414, 'learning_rate': 7.987599552281427e-05, 'epoch': 6.73}
+{'loss': 1.3924, 'grad_norm': 1.2172223329544067, 'learning_rate': 7.983760554730097e-05, 'epoch': 6.74}
+{'loss': 1.4303, 'grad_norm': 1.2037878036499023, 'learning_rate': 7.97991882348327e-05, 'epoch': 6.74}
+{'loss': 1.3968, 'grad_norm': 1.1402994394302368, 'learning_rate': 7.976074362061002e-05, 'epoch': 6.75}
+{'loss': 1.3877, 'grad_norm': 1.1885806322097778, 'learning_rate': 7.97222717398585e-05, 'epoch': 6.75}
+{'loss': 1.4241, 'grad_norm': 1.2236276865005493, 'learning_rate': 7.968377262782869e-05, 'epoch': 6.76}
+{'loss': 1.4052, 'grad_norm': 1.0645301342010498, 'learning_rate': 7.964524631979613e-05, 'epoch': 6.77}
+{'loss': 1.4396, 'grad_norm': 1.2329813241958618, 'learning_rate': 7.96066928510612e-05, 'epoch': 6.77}
+{'loss': 1.4165, 'grad_norm': 1.2357081174850464, 'learning_rate': 7.956811225694923e-05, 'epoch': 6.78}
+{'loss': 1.3868, 'grad_norm': 1.0434062480926514, 'learning_rate': 7.95295045728104e-05, 'epoch': 6.78}
+{'loss': 1.4041, 'grad_norm': 1.1681947708129883, 'learning_rate': 7.94908698340197e-05, 'epoch': 6.79}
+{'loss': 1.4259, 'grad_norm': 1.2732667922973633, 'learning_rate': 7.94522080759769e-05, 'epoch': 6.79}
+{'loss': 1.459, 'grad_norm': 1.2895413637161255, 'learning_rate': 7.941351933410653e-05, 'epoch': 6.8}
+{'loss': 1.4179, 'grad_norm': 1.2393548488616943, 'learning_rate': 7.937480364385786e-05, 'epoch': 6.81}
+{'loss': 1.4153, 'grad_norm': 1.0824437141418457, 'learning_rate': 7.93360610407048e-05, 'epoch': 6.81}
+{'loss': 1.4088, 'grad_norm': 1.2340294122695923, 'learning_rate': 7.929729156014603e-05, 'epoch': 6.82}
+{'loss': 1.3998, 'grad_norm': 1.272808313369751, 'learning_rate': 7.925849523770473e-05, 'epoch': 6.82}
+{'loss': 1.4248, 'grad_norm': 1.286903738975525, 'learning_rate': 7.921967210892876e-05, 'epoch': 6.83}
+{'loss': 1.4137, 'grad_norm': 1.2210613489151, 'learning_rate': 7.918082220939052e-05, 'epoch': 6.84}
+{'loss': 1.4255, 'grad_norm': 1.1565394401550293, 'learning_rate': 7.914194557468692e-05, 'epoch': 6.84}
+{'loss': 1.4136, 'grad_norm': 1.2321792840957642, 'learning_rate': 7.910304224043937e-05, 'epoch': 6.85}
+{'loss': 1.3967, 'grad_norm': 1.2548294067382812, 'learning_rate': 7.906411224229376e-05, 'epoch': 6.85}
+{'loss': 1.4115, 'grad_norm': 1.1759604215621948, 'learning_rate': 7.902515561592043e-05, 'epoch': 6.86}
+{'loss': 1.4013, 'grad_norm': 1.1248717308044434, 'learning_rate': 7.898617239701406e-05, 'epoch': 6.86}
+{'loss': 1.4334, 'grad_norm': 1.103611707687378, 'learning_rate': 7.894716262129374e-05, 'epoch': 6.87}
+{'loss': 1.4218, 'grad_norm': 1.149695873260498, 'learning_rate': 7.89081263245029e-05, 'epoch': 6.88}
+{'loss': 1.389, 'grad_norm': 1.1804563999176025, 'learning_rate': 7.886906354240922e-05, 'epoch': 6.88}
+{'loss': 1.4092, 'grad_norm': 1.1929295063018799, 'learning_rate': 7.88299743108047e-05, 'epoch': 6.89}
+{'loss': 1.4197, 'grad_norm': 1.173554539680481, 'learning_rate': 7.879085866550556e-05, 'epoch': 6.89}
+[WARNING|trainer.py:761] 2025-05-15 22:46:57,856 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:46:57,856 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:04,528 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:04,530 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:04,550 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:04,551 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:11,401 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:11,401 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:11,423 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:11,423 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:17,726 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:17,727 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:17,747 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:17,748 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:24,258 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:24,259 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:24,279 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:24,279 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:31,035 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:31,036 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:31,057 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:31,057 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:38,624 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:38,625 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:38,648 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:38,648 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:45,208 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:45,209 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:45,229 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:45,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:51,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:51,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:51,248 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:51,248 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:47:57,820 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:57,821 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:57,841 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:47:57,841 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:48:04,821 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:04,821 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:04,842 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:04,842 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:48:11,427 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:11,427 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:11,448 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:11,448 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:48:18,380 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:18,381 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:18,403 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:18,403 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:48:25,339 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:25,340 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:25,360 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:25,361 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:48:31,938 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:31,939 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:31,960 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:31,960 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:48:39,377 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:39,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:39,398 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:39,398 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 22:48:43,848 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:43,849 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:43,869 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 22:48:43,869 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.1182571649551392, 'eval_wer': 0.09721437450559385, 'eval_runtime': 121.6129, 'eval_samples_per_second': 13.082, 'eval_steps_per_second': 0.14, 'epoch': 6.89}
+{'loss': 1.4079, 'grad_norm': 1.0430973768234253, 'learning_rate': 7.87517166423522e-05, 'epoch': 6.9}
+{'loss': 1.4069, 'grad_norm': 1.3011510372161865, 'learning_rate': 7.871254827720923e-05, 'epoch': 6.9}
+{'loss': 1.4106, 'grad_norm': 1.1980189085006714, 'learning_rate': 7.867335360596533e-05, 'epoch': 6.91}
+{'loss': 1.4081, 'grad_norm': 1.1535495519638062, 'learning_rate': 7.86341326645334e-05, 'epoch': 6.92}
+{'loss': 1.4032, 'grad_norm': 1.1565262079238892, 'learning_rate': 7.859488548885025e-05, 'epoch': 6.92}
+{'loss': 1.4218, 'grad_norm': 1.3801511526107788, 'learning_rate': 7.855561211487689e-05, 'epoch': 6.93}
+{'loss': 1.4043, 'grad_norm': 1.2260046005249023, 'learning_rate': 7.851631257859821e-05, 'epoch': 6.93}
+{'loss': 1.4156, 'grad_norm': 1.1848559379577637, 'learning_rate': 7.847698691602313e-05, 'epoch': 6.94}
+{'loss': 1.4102, 'grad_norm': 1.0401930809020996, 'learning_rate': 7.843763516318452e-05, 'epoch': 6.94}
+{'loss': 1.4025, 'grad_norm': 1.0696467161178589, 'learning_rate': 7.839825735613912e-05, 'epoch': 6.95}
+{'loss': 1.4244, 'grad_norm': 1.1536978483200073, 'learning_rate': 7.835885353096754e-05, 'epoch': 6.96}
+{'loss': 1.4064, 'grad_norm': 1.219382405281067, 'learning_rate': 7.831942372377428e-05, 'epoch': 6.96}
+{'loss': 1.393, 'grad_norm': 1.1497808694839478, 'learning_rate': 7.827996797068761e-05, 'epoch': 6.97}
+{'loss': 1.406, 'grad_norm': 1.14622163772583, 'learning_rate': 7.824048630785957e-05, 'epoch': 6.97}
+{'loss': 1.4164, 'grad_norm': 1.0015634298324585, 'learning_rate': 7.820097877146592e-05, 'epoch': 6.98}
+{'loss': 1.4072, 'grad_norm': 1.023869276046753, 'learning_rate': 7.81614453977062e-05, 'epoch': 6.98}
+{'loss': 1.4124, 'grad_norm': 1.4680800437927246, 'learning_rate': 7.812188622280356e-05, 'epoch': 6.99}
+{'loss': 1.4156, 'grad_norm': 1.2094202041625977, 'learning_rate': 7.80823012830048e-05, 'epoch': 7.0}
+{'loss': 1.3972, 'grad_norm': 1.3978065252304077, 'learning_rate': 7.804269061458034e-05, 'epoch': 7.0}
+{'loss': 1.3765, 'grad_norm': 1.075047254562378, 'learning_rate': 7.80030542538242e-05, 'epoch': 7.01}
+{'loss': 1.3724, 'grad_norm': 1.1227922439575195, 'learning_rate': 7.796339223705387e-05, 'epoch': 7.01}
+{'loss': 1.4039, 'grad_norm': 1.2202383279800415, 'learning_rate': 7.792370460061042e-05, 'epoch': 7.02}
+{'loss': 1.3884, 'grad_norm': 1.3242013454437256, 'learning_rate': 7.788399138085833e-05, 'epoch': 7.02}
+{'loss': 1.3754, 'grad_norm': 1.0280619859695435, 'learning_rate': 7.784425261418559e-05, 'epoch': 7.03}
+{'loss': 1.3697, 'grad_norm': 1.0936064720153809, 'learning_rate': 7.780448833700355e-05, 'epoch': 7.04}
+{'loss': 1.378, 'grad_norm': 1.0650871992111206, 'learning_rate': 7.776469858574696e-05, 'epoch': 7.04}
+{'loss': 1.3513, 'grad_norm': 1.0535706281661987, 'learning_rate': 7.772488339687388e-05, 'epoch': 7.05}
+{'loss': 1.3958, 'grad_norm': 1.1385856866836548, 'learning_rate': 7.768504280686572e-05, 'epoch': 7.05}
+{'loss': 1.3945, 'grad_norm': 1.122355341911316, 'learning_rate': 7.764517685222711e-05, 'epoch': 7.06}
+{'loss': 1.3657, 'grad_norm': 1.0148357152938843, 'learning_rate': 7.760528556948596e-05, 'epoch': 7.06}
+{'loss': 1.3798, 'grad_norm': 1.0328540802001953, 'learning_rate': 7.756536899519342e-05, 'epoch': 7.07}
+{'loss': 1.3685, 'grad_norm': 1.5095750093460083, 'learning_rate': 7.752542716592373e-05, 'epoch': 7.08}
+{'loss': 1.3828, 'grad_norm': 1.110021948814392, 'learning_rate': 7.74854601182743e-05, 'epoch': 7.08}
+{'loss': 1.3941, 'grad_norm': 1.125283122062683, 'learning_rate': 7.744546788886571e-05, 'epoch': 7.09}
+{'loss': 1.388, 'grad_norm': 1.1747839450836182, 'learning_rate': 7.740545051434153e-05, 'epoch': 7.09}
+{'loss': 1.4007, 'grad_norm': 1.0587904453277588, 'learning_rate': 7.736540803136842e-05, 'epoch': 7.1}
+{'loss': 1.3636, 'grad_norm': 1.113619089126587, 'learning_rate': 7.732534047663602e-05, 'epoch': 7.11}
+{'loss': 1.3919, 'grad_norm': 1.1534483432769775, 'learning_rate': 7.728524788685693e-05, 'epoch': 7.11}
+{'loss': 1.3698, 'grad_norm': 1.146600604057312, 'learning_rate': 7.724513029876675e-05, 'epoch': 7.12}
+{'loss': 1.3593, 'grad_norm': 1.0434560775756836, 'learning_rate': 7.720498774912392e-05, 'epoch': 7.12}
+{'loss': 1.3682, 'grad_norm': 1.1574029922485352, 'learning_rate': 7.716482027470979e-05, 'epoch': 7.13}
+{'loss': 1.3859, 'grad_norm': 1.0996589660644531, 'learning_rate': 7.712462791232853e-05, 'epoch': 7.13}
+{'loss': 1.3605, 'grad_norm': 1.1369915008544922, 'learning_rate': 7.708441069880713e-05, 'epoch': 7.14}
+{'loss': 1.3888, 'grad_norm': 1.1563830375671387, 'learning_rate': 7.704416867099529e-05, 'epoch': 7.15}
+{'loss': 1.3853, 'grad_norm': 1.1287845373153687, 'learning_rate': 7.700390186576557e-05, 'epoch': 7.15}
+{'loss': 1.358, 'grad_norm': 1.137179970741272, 'learning_rate': 7.696361032001312e-05, 'epoch': 7.16}
+{'loss': 1.4013, 'grad_norm': 1.1719515323638916, 'learning_rate': 7.692329407065577e-05, 'epoch': 7.16}
+{'loss': 1.396, 'grad_norm': 1.154930591583252, 'learning_rate': 7.688295315463408e-05, 'epoch': 7.17}
+{'loss': 1.3715, 'grad_norm': 1.2370989322662354, 'learning_rate': 7.684258760891108e-05, 'epoch': 7.17}
+{'loss': 1.3602, 'grad_norm': 1.2117834091186523, 'learning_rate': 7.680219747047246e-05, 'epoch': 7.18}
+{'loss': 1.3726, 'grad_norm': 1.1284922361373901, 'learning_rate': 7.67617827763264e-05, 'epoch': 7.19}
+{'loss': 1.3888, 'grad_norm': 1.17840576171875, 'learning_rate': 7.672134356350363e-05, 'epoch': 7.19}
+{'loss': 1.3726, 'grad_norm': 1.1904903650283813, 'learning_rate': 7.668087986905727e-05, 'epoch': 7.2}
+{'loss': 1.3864, 'grad_norm': 1.0724328756332397, 'learning_rate': 7.664039173006294e-05, 'epoch': 7.2}
+{'loss': 1.3768, 'grad_norm': 1.023146629333496, 'learning_rate': 7.65998791836186e-05, 'epoch': 7.21}
+{'loss': 1.3517, 'grad_norm': 1.0206445455551147, 'learning_rate': 7.655934226684462e-05, 'epoch': 7.21}
+{'loss': 1.3862, 'grad_norm': 1.1982409954071045, 'learning_rate': 7.65187810168837e-05, 'epoch': 7.22}
+{'loss': 1.3635, 'grad_norm': 1.196985125541687, 'learning_rate': 7.64781954709008e-05, 'epoch': 7.23}
+{'loss': 1.3917, 'grad_norm': 1.1955093145370483, 'learning_rate': 7.643758566608315e-05, 'epoch': 7.23}
+{'loss': 1.3564, 'grad_norm': 1.1634180545806885, 'learning_rate': 7.639695163964022e-05, 'epoch': 7.24}
+{'loss': 1.3526, 'grad_norm': 1.094857931137085, 'learning_rate': 7.63562934288037e-05, 'epoch': 7.24}
+{'loss': 1.3768, 'grad_norm': 1.1216139793395996, 'learning_rate': 7.631561107082742e-05, 'epoch': 7.25}
+{'loss': 1.3686, 'grad_norm': 1.0748705863952637, 'learning_rate': 7.627490460298727e-05, 'epoch': 7.25}
+{'loss': 1.3797, 'grad_norm': 1.1522833108901978, 'learning_rate': 7.62341740625813e-05, 'epoch': 7.26}
+{'loss': 1.3928, 'grad_norm': 1.073476791381836, 'learning_rate': 7.619341948692963e-05, 'epoch': 7.27}
+{'loss': 1.4032, 'grad_norm': 1.4424747228622437, 'learning_rate': 7.615264091337439e-05, 'epoch': 7.27}
+{'loss': 1.3965, 'grad_norm': 1.2498866319656372, 'learning_rate': 7.611183837927965e-05, 'epoch': 7.28}
+{'loss': 1.3824, 'grad_norm': 1.1749467849731445, 'learning_rate': 7.607101192203147e-05, 'epoch': 7.28}
+{'loss': 1.3659, 'grad_norm': 1.092786431312561, 'learning_rate': 7.603016157903784e-05, 'epoch': 7.29}
+{'loss': 1.3611, 'grad_norm': 1.1371842622756958, 'learning_rate': 7.598928738772864e-05, 'epoch': 7.29}
+{'loss': 1.3588, 'grad_norm': 1.2139581441879272, 'learning_rate': 7.594838938555556e-05, 'epoch': 7.3}
+{'loss': 1.3669, 'grad_norm': 1.2846897840499878, 'learning_rate': 7.590746760999217e-05, 'epoch': 7.31}
+{'loss': 1.3883, 'grad_norm': 1.1145058870315552, 'learning_rate': 7.586652209853375e-05, 'epoch': 7.31}
+{'loss': 1.383, 'grad_norm': 1.1779024600982666, 'learning_rate': 7.582555288869739e-05, 'epoch': 7.32}
+{'loss': 1.3913, 'grad_norm': 1.118118405342102, 'learning_rate': 7.578456001802186e-05, 'epoch': 7.32}
+{'loss': 1.3578, 'grad_norm': 1.2149940729141235, 'learning_rate': 7.574354352406761e-05, 'epoch': 7.33}
+{'loss': 1.3992, 'grad_norm': 1.2460076808929443, 'learning_rate': 7.570250344441676e-05, 'epoch': 7.33}
+{'loss': 1.37, 'grad_norm': 1.1166988611221313, 'learning_rate': 7.566143981667302e-05, 'epoch': 7.34}
+{'loss': 1.3553, 'grad_norm': 1.0964570045471191, 'learning_rate': 7.562035267846168e-05, 'epoch': 7.35}
+{'loss': 1.3603, 'grad_norm': 1.0531352758407593, 'learning_rate': 7.557924206742957e-05, 'epoch': 7.35}
+{'loss': 1.3553, 'grad_norm': 1.1781939268112183, 'learning_rate': 7.553810802124503e-05, 'epoch': 7.36}
+{'loss': 1.3904, 'grad_norm': 1.0957376956939697, 'learning_rate': 7.549695057759787e-05, 'epoch': 7.36}
+{'loss': 1.395, 'grad_norm': 1.3186931610107422, 'learning_rate': 7.545576977419938e-05, 'epoch': 7.37}
+{'loss': 1.3983, 'grad_norm': 1.1461344957351685, 'learning_rate': 7.541456564878216e-05, 'epoch': 7.38}
+{'loss': 1.3802, 'grad_norm': 1.138440728187561, 'learning_rate': 7.537333823910026e-05, 'epoch': 7.38}
+{'loss': 1.3855, 'grad_norm': 1.1572725772857666, 'learning_rate': 7.533208758292906e-05, 'epoch': 7.39}
+{'loss': 1.3845, 'grad_norm': 1.086646556854248, 'learning_rate': 7.529081371806518e-05, 'epoch': 7.39}
+{'loss': 1.3992, 'grad_norm': 1.1743797063827515, 'learning_rate': 7.524951668232659e-05, 'epoch': 7.4}
+{'loss': 1.3683, 'grad_norm': 1.0357474088668823, 'learning_rate': 7.52081965135524e-05, 'epoch': 7.4}
+{'loss': 1.3967, 'grad_norm': 1.1882617473602295, 'learning_rate': 7.516685324960299e-05, 'epoch': 7.41}
+{'loss': 1.3553, 'grad_norm': 1.2242915630340576, 'learning_rate': 7.512548692835985e-05, 'epoch': 7.42}
+{'loss': 1.3942, 'grad_norm': 1.2356122732162476, 'learning_rate': 7.508409758772564e-05, 'epoch': 7.42}
+{'loss': 1.3956, 'grad_norm': 1.1368290185928345, 'learning_rate': 7.50426852656241e-05, 'epoch': 7.43}
+{'loss': 1.3913, 'grad_norm': 1.145615816116333, 'learning_rate': 7.500125e-05, 'epoch': 7.43}
+{'loss': 1.366, 'grad_norm': 1.1399472951889038, 'learning_rate': 7.495979182881917e-05, 'epoch': 7.44}
+{'loss': 1.386, 'grad_norm': 1.1986440420150757, 'learning_rate': 7.491831079006838e-05, 'epoch': 7.44}
+{'loss': 1.3902, 'grad_norm': 1.173773169517517, 'learning_rate': 7.48768069217554e-05, 'epoch': 7.45}
+{'loss': 1.3534, 'grad_norm': 1.2537205219268799, 'learning_rate': 7.48352802619089e-05, 'epoch': 7.46}
+{'loss': 1.3846, 'grad_norm': 1.123275637626648, 'learning_rate': 7.479373084857845e-05, 'epoch': 7.46}
+{'loss': 1.3701, 'grad_norm': 1.2009204626083374, 'learning_rate': 7.475215871983441e-05, 'epoch': 7.47}
+[WARNING|trainer.py:761] 2025-05-15 23:04:06,593 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:06,594 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:13,198 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:13,199 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:13,219 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:13,220 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:20,068 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:20,068 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:20,091 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:20,092 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:26,278 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:26,279 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:26,300 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:26,300 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:32,733 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:32,733 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:32,753 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:32,753 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:39,498 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:39,498 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:39,518 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:39,519 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:47,030 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:47,030 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:47,051 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:47,051 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:53,731 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:53,731 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:53,752 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:53,752 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:04:59,437 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:59,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:59,458 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:04:59,458 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:06,033 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:06,033 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:06,054 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:06,054 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:12,925 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:12,925 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:12,946 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:12,947 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:19,411 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:19,411 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:19,431 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:19,432 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:26,688 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:26,689 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:26,709 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:26,709 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:33,556 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:33,557 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:33,576 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:33,577 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:39,788 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:39,788 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:39,808 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:39,809 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:47,293 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:47,294 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:47,315 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:47,315 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:05:51,548 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:51,548 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:51,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:05:51,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.1157002449035645, 'eval_wer': 0.10080235054808453, 'eval_runtime': 120.6065, 'eval_samples_per_second': 13.192, 'eval_steps_per_second': 0.141, 'epoch': 7.47}
+{'loss': 1.3736, 'grad_norm': 1.2804807424545288, 'learning_rate': 7.471056391376801e-05, 'epoch': 7.47}
+{'loss': 1.3777, 'grad_norm': 1.0862783193588257, 'learning_rate': 7.466894646849128e-05, 'epoch': 7.48}
+{'loss': 1.4001, 'grad_norm': 1.2627243995666504, 'learning_rate': 7.46273064221369e-05, 'epoch': 7.48}
+{'loss': 1.3703, 'grad_norm': 1.0793190002441406, 'learning_rate': 7.458564381285838e-05, 'epoch': 7.49}
+{'loss': 1.3924, 'grad_norm': 1.1711695194244385, 'learning_rate': 7.454395867882977e-05, 'epoch': 7.5}
+{'loss': 1.3855, 'grad_norm': 1.0621047019958496, 'learning_rate': 7.450225105824585e-05, 'epoch': 7.5}
+{'loss': 1.3673, 'grad_norm': 1.0710511207580566, 'learning_rate': 7.446052098932203e-05, 'epoch': 7.51}
+{'loss': 1.3707, 'grad_norm': 1.332257628440857, 'learning_rate': 7.441876851029417e-05, 'epoch': 7.51}
+{'loss': 1.4041, 'grad_norm': 1.1637886762619019, 'learning_rate': 7.437699365941878e-05, 'epoch': 7.52}
+{'loss': 1.3718, 'grad_norm': 1.047039270401001, 'learning_rate': 7.43351964749728e-05, 'epoch': 7.52}
+{'loss': 1.369, 'grad_norm': 1.0901583433151245, 'learning_rate': 7.429337699525366e-05, 'epoch': 7.53}
+{'loss': 1.3677, 'grad_norm': 1.2097355127334595, 'learning_rate': 7.425153525857924e-05, 'epoch': 7.54}
+{'loss': 1.3569, 'grad_norm': 1.2786442041397095, 'learning_rate': 7.420967130328776e-05, 'epoch': 7.54}
+{'loss': 1.3675, 'grad_norm': 1.0091259479522705, 'learning_rate': 7.416778516773783e-05, 'epoch': 7.55}
+{'loss': 1.3816, 'grad_norm': 1.1223548650741577, 'learning_rate': 7.412587689030837e-05, 'epoch': 7.55}
+{'loss': 1.3847, 'grad_norm': 1.2186803817749023, 'learning_rate': 7.408394650939861e-05, 'epoch': 7.56}
+{'loss': 1.3412, 'grad_norm': 1.1721726655960083, 'learning_rate': 7.404199406342803e-05, 'epoch': 7.56}
+{'loss': 1.3685, 'grad_norm': 1.2012450695037842, 'learning_rate': 7.400001959083631e-05, 'epoch': 7.57}
+{'loss': 1.3896, 'grad_norm': 1.3168073892593384, 'learning_rate': 7.395802313008331e-05, 'epoch': 7.58}
+{'loss': 1.3849, 'grad_norm': 1.3617326021194458, 'learning_rate': 7.391600471964904e-05, 'epoch': 7.58}
+{'loss': 1.3531, 'grad_norm': 1.1132413148880005, 'learning_rate': 7.387396439803367e-05, 'epoch': 7.59}
+{'loss': 1.3932, 'grad_norm': 1.1169902086257935, 'learning_rate': 7.383190220375736e-05, 'epoch': 7.59}
+{'loss': 1.3648, 'grad_norm': 1.064626693725586, 'learning_rate': 7.378981817536036e-05, 'epoch': 7.6}
+{'loss': 1.3655, 'grad_norm': 1.138749122619629, 'learning_rate': 7.374771235140295e-05, 'epoch': 7.6}
+{'loss': 1.3762, 'grad_norm': 1.0636377334594727, 'learning_rate': 7.370558477046531e-05, 'epoch': 7.61}
+{'loss': 1.3622, 'grad_norm': 1.1054062843322754, 'learning_rate': 7.366343547114764e-05, 'epoch': 7.62}
+{'loss': 1.3972, 'grad_norm': 1.1325266361236572, 'learning_rate': 7.362126449206999e-05, 'epoch': 7.62}
+{'loss': 1.35, 'grad_norm': 1.0639208555221558, 'learning_rate': 7.357907187187227e-05, 'epoch': 7.63}
+{'loss': 1.3779, 'grad_norm': 1.4457550048828125, 'learning_rate': 7.353685764921423e-05, 'epoch': 7.63}
+{'loss': 1.3814, 'grad_norm': 1.1473275423049927, 'learning_rate': 7.349462186277542e-05, 'epoch': 7.64}
+{'loss': 1.3857, 'grad_norm': 1.0643682479858398, 'learning_rate': 7.345236455125515e-05, 'epoch': 7.65}
+{'loss': 1.372, 'grad_norm': 1.2766255140304565, 'learning_rate': 7.341008575337244e-05, 'epoch': 7.65}
+{'loss': 1.378, 'grad_norm': 1.0395917892456055, 'learning_rate': 7.336778550786598e-05, 'epoch': 7.66}
+{'loss': 1.3766, 'grad_norm': 1.2142328023910522, 'learning_rate': 7.332546385349418e-05, 'epoch': 7.66}
+{'loss': 1.391, 'grad_norm': 1.2160910367965698, 'learning_rate': 7.328312082903499e-05, 'epoch': 7.67}
+{'loss': 1.3907, 'grad_norm': 1.0703709125518799, 'learning_rate': 7.324075647328599e-05, 'epoch': 7.67}
+{'loss': 1.3909, 'grad_norm': 1.2247953414916992, 'learning_rate': 7.319837082506426e-05, 'epoch': 7.68}
+{'loss': 1.374, 'grad_norm': 1.2029789686203003, 'learning_rate': 7.315596392320645e-05, 'epoch': 7.69}
+{'loss': 1.3517, 'grad_norm': 1.1630489826202393, 'learning_rate': 7.31135358065686e-05, 'epoch': 7.69}
+{'loss': 1.3885, 'grad_norm': 1.2949284315109253, 'learning_rate': 7.30710865140263e-05, 'epoch': 7.7}
+{'loss': 1.3584, 'grad_norm': 1.1581209897994995, 'learning_rate': 7.302861608447447e-05, 'epoch': 7.7}
+{'loss': 1.3798, 'grad_norm': 1.0207194089889526, 'learning_rate': 7.298612455682737e-05, 'epoch': 7.71}
+{'loss': 1.3852, 'grad_norm': 1.156020164489746, 'learning_rate': 7.294361197001866e-05, 'epoch': 7.71}
+{'loss': 1.3597, 'grad_norm': 1.155132532119751, 'learning_rate': 7.290107836300125e-05, 'epoch': 7.72}
+{'loss': 1.3889, 'grad_norm': 1.0250098705291748, 'learning_rate': 7.285852377474736e-05, 'epoch': 7.73}
+{'loss': 1.3801, 'grad_norm': 1.0279853343963623, 'learning_rate': 7.281594824424838e-05, 'epoch': 7.73}
+{'loss': 1.3749, 'grad_norm': 1.0755505561828613, 'learning_rate': 7.277335181051489e-05, 'epoch': 7.74}
+{'loss': 1.3713, 'grad_norm': 1.2912722826004028, 'learning_rate': 7.273073451257667e-05, 'epoch': 7.74}
+{'loss': 1.3702, 'grad_norm': 1.7359085083007812, 'learning_rate': 7.268809638948258e-05, 'epoch': 7.75}
+{'loss': 1.3821, 'grad_norm': 1.0690027475357056, 'learning_rate': 7.264543748030055e-05, 'epoch': 7.75}
+{'loss': 1.3624, 'grad_norm': 1.088979959487915, 'learning_rate': 7.260275782411763e-05, 'epoch': 7.76}
+{'loss': 1.3799, 'grad_norm': 1.086045742034912, 'learning_rate': 7.25600574600398e-05, 'epoch': 7.77}
+{'loss': 1.3943, 'grad_norm': 1.0964921712875366, 'learning_rate': 7.251733642719202e-05, 'epoch': 7.77}
+{'loss': 1.3528, 'grad_norm': 1.1099073886871338, 'learning_rate': 7.247459476471823e-05, 'epoch': 7.78}
+{'loss': 1.3774, 'grad_norm': 1.200293779373169, 'learning_rate': 7.243183251178124e-05, 'epoch': 7.78}
+{'loss': 1.3762, 'grad_norm': 1.1068882942199707, 'learning_rate': 7.238904970756276e-05, 'epoch': 7.79}
+{'loss': 1.3914, 'grad_norm': 1.117372989654541, 'learning_rate': 7.234624639126328e-05, 'epoch': 7.79}
+{'loss': 1.3968, 'grad_norm': 1.1574249267578125, 'learning_rate': 7.230342260210213e-05, 'epoch': 7.8}
+{'loss': 1.3752, 'grad_norm': 1.0184029340744019, 'learning_rate': 7.226057837931738e-05, 'epoch': 7.81}
+{'loss': 1.3646, 'grad_norm': 1.1285433769226074, 'learning_rate': 7.221771376216582e-05, 'epoch': 7.81}
+{'loss': 1.3772, 'grad_norm': 1.1836575269699097, 'learning_rate': 7.217482878992293e-05, 'epoch': 7.82}
+{'loss': 1.3827, 'grad_norm': 1.0164090394973755, 'learning_rate': 7.213192350188281e-05, 'epoch': 7.82}
+{'loss': 1.3673, 'grad_norm': 1.0922777652740479, 'learning_rate': 7.208899793735828e-05, 'epoch': 7.83}
+{'loss': 1.407, 'grad_norm': 1.2530337572097778, 'learning_rate': 7.20460521356806e-05, 'epoch': 7.83}
+{'loss': 1.3871, 'grad_norm': 1.0919013023376465, 'learning_rate': 7.200308613619968e-05, 'epoch': 7.84}
+{'loss': 1.3814, 'grad_norm': 1.3356585502624512, 'learning_rate': 7.196009997828384e-05, 'epoch': 7.85}
+{'loss': 1.3478, 'grad_norm': 1.0867161750793457, 'learning_rate': 7.191709370131999e-05, 'epoch': 7.85}
+{'loss': 1.3885, 'grad_norm': 1.2120997905731201, 'learning_rate': 7.187406734471337e-05, 'epoch': 7.86}
+{'loss': 1.3799, 'grad_norm': 1.1963104009628296, 'learning_rate': 7.183102094788767e-05, 'epoch': 7.86}
+{'loss': 1.4079, 'grad_norm': 1.1579991579055786, 'learning_rate': 7.178795455028491e-05, 'epoch': 7.87}
+{'loss': 1.3736, 'grad_norm': 1.0706915855407715, 'learning_rate': 7.174486819136546e-05, 'epoch': 7.87}
+{'loss': 1.389, 'grad_norm': 1.2165038585662842, 'learning_rate': 7.170176191060802e-05, 'epoch': 7.88}
+{'loss': 1.3772, 'grad_norm': 1.141743779182434, 'learning_rate': 7.165863574750946e-05, 'epoch': 7.89}
+{'loss': 1.3818, 'grad_norm': 1.0168917179107666, 'learning_rate': 7.161548974158489e-05, 'epoch': 7.89}
+{'loss': 1.3879, 'grad_norm': 1.2216793298721313, 'learning_rate': 7.157232393236765e-05, 'epoch': 7.9}
+{'loss': 1.3891, 'grad_norm': 1.294527292251587, 'learning_rate': 7.152913835940916e-05, 'epoch': 7.9}
+{'loss': 1.3709, 'grad_norm': 1.1675856113433838, 'learning_rate': 7.148593306227904e-05, 'epoch': 7.91}
+{'loss': 1.3917, 'grad_norm': 0.9908486008644104, 'learning_rate': 7.144270808056487e-05, 'epoch': 7.91}
+{'loss': 1.3791, 'grad_norm': 1.1059294939041138, 'learning_rate': 7.139946345387235e-05, 'epoch': 7.92}
+{'loss': 1.365, 'grad_norm': 1.0860515832901, 'learning_rate': 7.135619922182513e-05, 'epoch': 7.93}
+{'loss': 1.3658, 'grad_norm': 1.4398434162139893, 'learning_rate': 7.131291542406486e-05, 'epoch': 7.93}
+{'loss': 1.3943, 'grad_norm': 0.9924653172492981, 'learning_rate': 7.12696121002511e-05, 'epoch': 7.94}
+{'loss': 1.3712, 'grad_norm': 1.16031014919281, 'learning_rate': 7.122628929006133e-05, 'epoch': 7.94}
+{'loss': 1.3931, 'grad_norm': 1.2708386182785034, 'learning_rate': 7.118294703319081e-05, 'epoch': 7.95}
+{'loss': 1.3886, 'grad_norm': 1.0046013593673706, 'learning_rate': 7.113958536935267e-05, 'epoch': 7.96}
+{'loss': 1.3734, 'grad_norm': 1.137477993965149, 'learning_rate': 7.109620433827785e-05, 'epoch': 7.96}
+{'loss': 1.3964, 'grad_norm': 1.0881842374801636, 'learning_rate': 7.1052803979715e-05, 'epoch': 7.97}
+{'loss': 1.3708, 'grad_norm': 1.184719204902649, 'learning_rate': 7.100938433343048e-05, 'epoch': 7.97}
+{'loss': 1.3708, 'grad_norm': 1.147592306137085, 'learning_rate': 7.09659454392083e-05, 'epoch': 7.98}
+{'loss': 1.3791, 'grad_norm': 1.2086807489395142, 'learning_rate': 7.092248733685015e-05, 'epoch': 7.98}
+{'loss': 1.385, 'grad_norm': 1.5116052627563477, 'learning_rate': 7.087901006617531e-05, 'epoch': 7.99}
+{'loss': 1.3655, 'grad_norm': 1.0756481885910034, 'learning_rate': 7.083551366702063e-05, 'epoch': 8.0}
+{'loss': 1.3561, 'grad_norm': 1.1795367002487183, 'learning_rate': 7.079199817924044e-05, 'epoch': 8.0}
+{'loss': 1.3371, 'grad_norm': 1.1214485168457031, 'learning_rate': 7.074846364270659e-05, 'epoch': 8.01}
+{'loss': 1.3646, 'grad_norm': 1.11283278465271, 'learning_rate': 7.070491009730841e-05, 'epoch': 8.01}
+{'loss': 1.3587, 'grad_norm': 1.0217725038528442, 'learning_rate': 7.066133758295262e-05, 'epoch': 8.02}
+{'loss': 1.3336, 'grad_norm': 1.0658364295959473, 'learning_rate': 7.061774613956331e-05, 'epoch': 8.02}
+{'loss': 1.34, 'grad_norm': 1.2622003555297852, 'learning_rate': 7.057413580708195e-05, 'epoch': 8.03}
+{'loss': 1.3455, 'grad_norm': 1.1085586547851562, 'learning_rate': 7.053050662546728e-05, 'epoch': 8.04}
+{'loss': 1.3599, 'grad_norm': 1.1799372434616089, 'learning_rate': 7.048685863469532e-05, 'epoch': 8.04}
+[WARNING|trainer.py:761] 2025-05-15 23:21:19,491 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:19,491 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:21:26,138 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:26,139 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:26,160 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:26,160 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:21:32,897 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:32,898 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:32,919 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:32,919 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:21:38,997 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:38,998 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:39,019 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:39,019 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:21:45,518 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:45,519 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:45,540 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:45,540 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:21:52,459 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:52,460 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:52,482 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:52,482 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:21:59,628 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:59,629 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:59,650 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:21:59,650 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:06,333 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:06,334 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:06,354 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:06,355 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:12,352 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:12,353 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:12,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:12,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:18,829 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:18,830 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:18,850 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:18,850 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:25,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:25,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:25,881 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:25,881 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:32,588 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:32,588 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:32,609 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:32,609 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:39,651 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:39,651 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:39,671 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:39,672 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:46,806 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:46,807 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:46,828 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:46,828 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:22:52,906 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:52,906 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:52,927 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:22:52,928 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:23:00,827 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:23:00,827 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:23:00,847 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:23:00,848 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:23:05,375 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:23:05,376 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:23:05,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:23:05,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.1006301641464233, 'eval_wer': 0.09602779975138434, 'eval_runtime': 121.4589, 'eval_samples_per_second': 13.099, 'eval_steps_per_second': 0.14, 'epoch': 8.04}
+{'loss': 1.3331, 'grad_norm': 1.1422802209854126, 'learning_rate': 7.044319187475934e-05, 'epoch': 8.05}
+{'loss': 1.345, 'grad_norm': 1.1073253154754639, 'learning_rate': 7.03995063856698e-05, 'epoch': 8.05}
+{'loss': 1.3403, 'grad_norm': 1.159033179283142, 'learning_rate': 7.035580220745434e-05, 'epoch': 8.06}
+{'loss': 1.3428, 'grad_norm': 1.0331177711486816, 'learning_rate': 7.031207938015765e-05, 'epoch': 8.06}
+{'loss': 1.3228, 'grad_norm': 1.0810799598693848, 'learning_rate': 7.026833794384161e-05, 'epoch': 8.07}
+{'loss': 1.3551, 'grad_norm': 1.124673843383789, 'learning_rate': 7.022457793858509e-05, 'epoch': 8.08}
+{'loss': 1.3648, 'grad_norm': 1.1602224111557007, 'learning_rate': 7.018079940448397e-05, 'epoch': 8.08}
+{'loss': 1.329, 'grad_norm': 1.1123594045639038, 'learning_rate': 7.013700238165113e-05, 'epoch': 8.09}
+{'loss': 1.3298, 'grad_norm': 1.149477481842041, 'learning_rate': 7.00931869102164e-05, 'epoch': 8.09}
+{'loss': 1.341, 'grad_norm': 1.2626850605010986, 'learning_rate': 7.004935303032648e-05, 'epoch': 8.1}
+{'loss': 1.3471, 'grad_norm': 1.1603119373321533, 'learning_rate': 7.000550078214498e-05, 'epoch': 8.1}
+{'loss': 1.3594, 'grad_norm': 1.1090253591537476, 'learning_rate': 6.996163020585227e-05, 'epoch': 8.11}
+{'loss': 1.3416, 'grad_norm': 1.1094486713409424, 'learning_rate': 6.99177413416456e-05, 'epoch': 8.12}
+{'loss': 1.3412, 'grad_norm': 1.0558894872665405, 'learning_rate': 6.987383422973893e-05, 'epoch': 8.12}
+{'loss': 1.3558, 'grad_norm': 1.117684006690979, 'learning_rate': 6.982990891036292e-05, 'epoch': 8.13}
+{'loss': 1.3567, 'grad_norm': 1.1211860179901123, 'learning_rate': 6.978596542376496e-05, 'epoch': 8.13}
+{'loss': 1.3672, 'grad_norm': 1.022854208946228, 'learning_rate': 6.974200381020905e-05, 'epoch': 8.14}
+{'loss': 1.3518, 'grad_norm': 1.045206904411316, 'learning_rate': 6.969802410997584e-05, 'epoch': 8.14}
+{'loss': 1.3489, 'grad_norm': 1.0243618488311768, 'learning_rate': 6.965402636336251e-05, 'epoch': 8.15}
+{'loss': 1.3567, 'grad_norm': 1.1970548629760742, 'learning_rate': 6.961001061068279e-05, 'epoch': 8.16}
+{'loss': 1.3351, 'grad_norm': 1.0209884643554688, 'learning_rate': 6.95659768922669e-05, 'epoch': 8.16}
+{'loss': 1.3436, 'grad_norm': 1.0605586767196655, 'learning_rate': 6.952192524846152e-05, 'epoch': 8.17}
+{'loss': 1.366, 'grad_norm': 1.2847466468811035, 'learning_rate': 6.94778557196298e-05, 'epoch': 8.17}
+{'loss': 1.3628, 'grad_norm': 1.096878170967102, 'learning_rate': 6.943376834615123e-05, 'epoch': 8.18}
+{'loss': 1.3599, 'grad_norm': 1.145160436630249, 'learning_rate': 6.938966316842168e-05, 'epoch': 8.18}
+{'loss': 1.354, 'grad_norm': 1.1982372999191284, 'learning_rate': 6.934554022685325e-05, 'epoch': 8.19}
+{'loss': 1.3514, 'grad_norm': 1.0458102226257324, 'learning_rate': 6.930139956187446e-05, 'epoch': 8.2}
+{'loss': 1.3171, 'grad_norm': 1.0677944421768188, 'learning_rate': 6.925724121392997e-05, 'epoch': 8.2}
+{'loss': 1.3336, 'grad_norm': 1.1336259841918945, 'learning_rate': 6.921306522348064e-05, 'epoch': 8.21}
+{'loss': 1.338, 'grad_norm': 1.539734959602356, 'learning_rate': 6.916887163100357e-05, 'epoch': 8.21}
+{'loss': 1.3749, 'grad_norm': 1.1061655282974243, 'learning_rate': 6.912466047699186e-05, 'epoch': 8.22}
+{'loss': 1.3426, 'grad_norm': 1.137969732284546, 'learning_rate': 6.908043180195485e-05, 'epoch': 8.23}
+{'loss': 1.3476, 'grad_norm': 1.2803560495376587, 'learning_rate': 6.903618564641784e-05, 'epoch': 8.23}
+{'loss': 1.3461, 'grad_norm': 1.003831148147583, 'learning_rate': 6.899192205092215e-05, 'epoch': 8.24}
+{'loss': 1.3623, 'grad_norm': 1.07589590549469, 'learning_rate': 6.894764105602513e-05, 'epoch': 8.24}
+{'loss': 1.3212, 'grad_norm': 1.1557279825210571, 'learning_rate': 6.890334270230005e-05, 'epoch': 8.25}
+{'loss': 1.3437, 'grad_norm': 1.0825499296188354, 'learning_rate': 6.885902703033602e-05, 'epoch': 8.25}
+{'loss': 1.3402, 'grad_norm': 1.1142388582229614, 'learning_rate': 6.881469408073814e-05, 'epoch': 8.26}
+{'loss': 1.3475, 'grad_norm': 1.1542168855667114, 'learning_rate': 6.877034389412724e-05, 'epoch': 8.27}
+{'loss': 1.3437, 'grad_norm': 1.1278069019317627, 'learning_rate': 6.872597651114e-05, 'epoch': 8.27}
+{'loss': 1.3486, 'grad_norm': 1.069445013999939, 'learning_rate': 6.868159197242884e-05, 'epoch': 8.28}
+{'loss': 1.3313, 'grad_norm': 1.2677907943725586, 'learning_rate': 6.863719031866186e-05, 'epoch': 8.28}
+{'loss': 1.3499, 'grad_norm': 1.1928232908248901, 'learning_rate': 6.85927715905229e-05, 'epoch': 8.29}
+{'loss': 1.3455, 'grad_norm': 1.2636762857437134, 'learning_rate': 6.854833582871145e-05, 'epoch': 8.29}
+{'loss': 1.3351, 'grad_norm': 1.0178658962249756, 'learning_rate': 6.850388307394255e-05, 'epoch': 8.3}
+{'loss': 1.3419, 'grad_norm': 1.004676342010498, 'learning_rate': 6.845941336694684e-05, 'epoch': 8.31}
+{'loss': 1.3074, 'grad_norm': 0.9737274050712585, 'learning_rate': 6.84149267484705e-05, 'epoch': 8.31}
+{'loss': 1.3335, 'grad_norm': 1.2828425168991089, 'learning_rate': 6.83704232592752e-05, 'epoch': 8.32}
+{'loss': 1.3407, 'grad_norm': 1.1972343921661377, 'learning_rate': 6.832590294013806e-05, 'epoch': 8.32}
+{'loss': 1.3352, 'grad_norm': 1.0773992538452148, 'learning_rate': 6.828136583185162e-05, 'epoch': 8.33}
+{'loss': 1.368, 'grad_norm': 1.2189594507217407, 'learning_rate': 6.823681197522385e-05, 'epoch': 8.33}
+{'loss': 1.3692, 'grad_norm': 1.0958688259124756, 'learning_rate': 6.819224141107798e-05, 'epoch': 8.34}
+{'loss': 1.3238, 'grad_norm': 1.1439151763916016, 'learning_rate': 6.814765418025264e-05, 'epoch': 8.35}
+{'loss': 1.3634, 'grad_norm': 1.1483707427978516, 'learning_rate': 6.810305032360163e-05, 'epoch': 8.35}
+{'loss': 1.364, 'grad_norm': 1.0480304956436157, 'learning_rate': 6.805842988199407e-05, 'epoch': 8.36}
+{'loss': 1.3467, 'grad_norm': 1.1300170421600342, 'learning_rate': 6.80137928963143e-05, 'epoch': 8.36}
+{'loss': 1.3347, 'grad_norm': 0.9751035571098328, 'learning_rate': 6.796913940746166e-05, 'epoch': 8.37}
+{'loss': 1.3369, 'grad_norm': 1.0773341655731201, 'learning_rate': 6.79244694563508e-05, 'epoch': 8.37}
+{'loss': 1.3142, 'grad_norm': 1.176775574684143, 'learning_rate': 6.78797830839113e-05, 'epoch': 8.38}
+{'loss': 1.3319, 'grad_norm': 1.1013033390045166, 'learning_rate': 6.783508033108794e-05, 'epoch': 8.39}
+{'loss': 1.3534, 'grad_norm': 1.0472511053085327, 'learning_rate': 6.779036123884038e-05, 'epoch': 8.39}
+{'loss': 1.3646, 'grad_norm': 1.1459550857543945, 'learning_rate': 6.774562584814328e-05, 'epoch': 8.4}
+{'loss': 1.3316, 'grad_norm': 1.0484139919281006, 'learning_rate': 6.770087419998629e-05, 'epoch': 8.4}
+{'loss': 1.3517, 'grad_norm': 1.025768518447876, 'learning_rate': 6.765610633537389e-05, 'epoch': 8.41}
+{'loss': 1.3695, 'grad_norm': 1.126641035079956, 'learning_rate': 6.761132229532544e-05, 'epoch': 8.41}
+{'loss': 1.3459, 'grad_norm': 1.1499069929122925, 'learning_rate': 6.756652212087516e-05, 'epoch': 8.42}
+{'loss': 1.3364, 'grad_norm': 1.1583006381988525, 'learning_rate': 6.7521705853072e-05, 'epoch': 8.43}
+{'loss': 1.3484, 'grad_norm': 1.2050310373306274, 'learning_rate': 6.747687353297966e-05, 'epoch': 8.43}
+{'loss': 1.3483, 'grad_norm': 1.1018375158309937, 'learning_rate': 6.74320252016766e-05, 'epoch': 8.44}
+{'loss': 1.3399, 'grad_norm': 1.1013386249542236, 'learning_rate': 6.738716090025588e-05, 'epoch': 8.44}
+{'loss': 1.3791, 'grad_norm': 1.1075743436813354, 'learning_rate': 6.734228066982524e-05, 'epoch': 8.45}
+{'loss': 1.329, 'grad_norm': 1.0828742980957031, 'learning_rate': 6.729738455150701e-05, 'epoch': 8.45}
+{'loss': 1.364, 'grad_norm': 1.0898609161376953, 'learning_rate': 6.725247258643807e-05, 'epoch': 8.46}
+{'loss': 1.3632, 'grad_norm': 1.008550763130188, 'learning_rate': 6.72075448157698e-05, 'epoch': 8.47}
+{'loss': 1.3539, 'grad_norm': 1.004242181777954, 'learning_rate': 6.716260128066811e-05, 'epoch': 8.47}
+{'loss': 1.3234, 'grad_norm': 1.013573169708252, 'learning_rate': 6.711764202231331e-05, 'epoch': 8.48}
+{'loss': 1.3556, 'grad_norm': 1.096097469329834, 'learning_rate': 6.707266708190013e-05, 'epoch': 8.48}
+{'loss': 1.3345, 'grad_norm': 1.1716398000717163, 'learning_rate': 6.702767650063769e-05, 'epoch': 8.49}
+{'loss': 1.3155, 'grad_norm': 1.0597960948944092, 'learning_rate': 6.69826703197494e-05, 'epoch': 8.5}
+{'loss': 1.3633, 'grad_norm': 1.250192642211914, 'learning_rate': 6.693764858047302e-05, 'epoch': 8.5}
+{'loss': 1.3477, 'grad_norm': 1.2764009237289429, 'learning_rate': 6.68926113240605e-05, 'epoch': 8.51}
+{'loss': 1.3344, 'grad_norm': 1.1136800050735474, 'learning_rate': 6.684755859177808e-05, 'epoch': 8.51}
+{'loss': 1.3517, 'grad_norm': 1.1659847497940063, 'learning_rate': 6.680249042490608e-05, 'epoch': 8.52}
+{'loss': 1.3518, 'grad_norm': 1.0530874729156494, 'learning_rate': 6.675740686473907e-05, 'epoch': 8.52}
+{'loss': 1.3405, 'grad_norm': 1.1067551374435425, 'learning_rate': 6.671230795258567e-05, 'epoch': 8.53}
+{'loss': 1.3534, 'grad_norm': 1.2300156354904175, 'learning_rate': 6.666719372976855e-05, 'epoch': 8.54}
+{'loss': 1.3445, 'grad_norm': 1.2539186477661133, 'learning_rate': 6.662206423762446e-05, 'epoch': 8.54}
+{'loss': 1.3546, 'grad_norm': 1.1507915258407593, 'learning_rate': 6.657691951750411e-05, 'epoch': 8.55}
+{'loss': 1.3366, 'grad_norm': 1.2795406579971313, 'learning_rate': 6.653175961077215e-05, 'epoch': 8.55}
+{'loss': 1.346, 'grad_norm': 1.1173717975616455, 'learning_rate': 6.648658455880719e-05, 'epoch': 8.56}
+{'loss': 1.353, 'grad_norm': 4.2965850830078125, 'learning_rate': 6.644139440300167e-05, 'epoch': 8.56}
+{'loss': 1.3363, 'grad_norm': 1.0641264915466309, 'learning_rate': 6.639618918476186e-05, 'epoch': 8.57}
+{'loss': 1.3534, 'grad_norm': 1.0559968948364258, 'learning_rate': 6.635096894550791e-05, 'epoch': 8.58}
+{'loss': 1.341, 'grad_norm': 1.0902478694915771, 'learning_rate': 6.630573372667365e-05, 'epoch': 8.58}
+{'loss': 1.354, 'grad_norm': 1.1054389476776123, 'learning_rate': 6.626048356970668e-05, 'epoch': 8.59}
+{'loss': 1.3476, 'grad_norm': 1.1799063682556152, 'learning_rate': 6.621521851606825e-05, 'epoch': 8.59}
+{'loss': 1.3392, 'grad_norm': 1.1583868265151978, 'learning_rate': 6.616993860723331e-05, 'epoch': 8.6}
+{'loss': 1.3383, 'grad_norm': 1.185685157775879, 'learning_rate': 6.61246438846904e-05, 'epoch': 8.6}
+{'loss': 1.3372, 'grad_norm': 1.0549464225769043, 'learning_rate': 6.607933438994163e-05, 'epoch': 8.61}
+{'loss': 1.3717, 'grad_norm': 1.0891073942184448, 'learning_rate': 6.60340101645026e-05, 'epoch': 8.62}
+[WARNING|trainer.py:761] 2025-05-15 23:38:16,736 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:16,736 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:38:23,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:23,344 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:23,364 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:23,365 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:38:30,289 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:30,290 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:30,310 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:30,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:38:36,644 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:36,644 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:36,664 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:36,665 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:38:43,214 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:43,214 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:43,235 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:43,235 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:38:50,063 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:50,063 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:50,087 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:50,087 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:38:57,597 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:57,598 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:57,618 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:38:57,618 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:04,113 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:04,114 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:04,134 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:04,135 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:10,123 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:10,124 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:10,144 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:10,144 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:16,781 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:16,781 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:16,802 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:16,802 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:23,803 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:23,803 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:23,824 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:23,824 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:30,485 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:30,486 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:30,506 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:30,507 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:37,487 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:37,488 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:37,509 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:37,509 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:44,377 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:44,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:44,398 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:44,399 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:50,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:50,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:50,676 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:50,677 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:39:58,325 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:58,326 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:58,346 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:39:58,346 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:40:02,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:40:02,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:40:02,800 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:40:02,800 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0906370878219604, 'eval_wer': 0.09260933438806644, 'eval_runtime': 121.5334, 'eval_samples_per_second': 13.091, 'eval_steps_per_second': 0.14, 'epoch': 8.62}
+{'loss': 1.358, 'grad_norm': 1.081456184387207, 'learning_rate': 6.59886712499025e-05, 'epoch': 8.62}
+{'loss': 1.3478, 'grad_norm': 1.0776183605194092, 'learning_rate': 6.594331768768391e-05, 'epoch': 8.63}
+{'loss': 1.3478, 'grad_norm': 1.1232571601867676, 'learning_rate': 6.589794951940287e-05, 'epoch': 8.63}
+{'loss': 1.349, 'grad_norm': 1.1927143335342407, 'learning_rate': 6.585256678662874e-05, 'epoch': 8.64}
+{'loss': 1.3498, 'grad_norm': 1.1092239618301392, 'learning_rate': 6.580716953094431e-05, 'epoch': 8.64}
+{'loss': 1.3656, 'grad_norm': 1.1302359104156494, 'learning_rate': 6.576175779394563e-05, 'epoch': 8.65}
+{'loss': 1.326, 'grad_norm': 1.0673636198043823, 'learning_rate': 6.571633161724201e-05, 'epoch': 8.66}
+{'loss': 1.3209, 'grad_norm': 1.1380208730697632, 'learning_rate': 6.567089104245603e-05, 'epoch': 8.66}
+{'loss': 1.3368, 'grad_norm': 1.0629384517669678, 'learning_rate': 6.562543611122342e-05, 'epoch': 8.67}
+{'loss': 1.3451, 'grad_norm': 1.0566953420639038, 'learning_rate': 6.557996686519308e-05, 'epoch': 8.67}
+{'loss': 1.3317, 'grad_norm': 0.9778392314910889, 'learning_rate': 6.553448334602705e-05, 'epoch': 8.68}
+{'loss': 1.3245, 'grad_norm': 1.080062985420227, 'learning_rate': 6.54889855954004e-05, 'epoch': 8.68}
+{'loss': 1.3575, 'grad_norm': 1.2787530422210693, 'learning_rate': 6.544347365500129e-05, 'epoch': 8.69}
+{'loss': 1.3801, 'grad_norm': 1.3267161846160889, 'learning_rate': 6.539794756653084e-05, 'epoch': 8.7}
+{'loss': 1.3417, 'grad_norm': 1.0440847873687744, 'learning_rate': 6.535240737170315e-05, 'epoch': 8.7}
+{'loss': 1.3575, 'grad_norm': 1.0616346597671509, 'learning_rate': 6.530685311224528e-05, 'epoch': 8.71}
+{'loss': 1.3503, 'grad_norm': 1.0661760568618774, 'learning_rate': 6.52612848298971e-05, 'epoch': 8.71}
+{'loss': 1.3353, 'grad_norm': 0.9735297560691833, 'learning_rate': 6.52157025664114e-05, 'epoch': 8.72}
+{'loss': 1.3693, 'grad_norm': 1.21027410030365, 'learning_rate': 6.517010636355375e-05, 'epoch': 8.72}
+{'loss': 1.3519, 'grad_norm': 1.1968728303909302, 'learning_rate': 6.512449626310249e-05, 'epoch': 8.73}
+{'loss': 1.3419, 'grad_norm': 1.0177395343780518, 'learning_rate': 6.50788723068487e-05, 'epoch': 8.74}
+{'loss': 1.3628, 'grad_norm': 1.2030179500579834, 'learning_rate': 6.503323453659617e-05, 'epoch': 8.74}
+{'loss': 1.3451, 'grad_norm': 1.3232479095458984, 'learning_rate': 6.49875829941613e-05, 'epoch': 8.75}
+{'loss': 1.3345, 'grad_norm': 1.21495521068573, 'learning_rate': 6.494191772137317e-05, 'epoch': 8.75}
+{'loss': 1.3606, 'grad_norm': 1.1220831871032715, 'learning_rate': 6.489623876007341e-05, 'epoch': 8.76}
+{'loss': 1.3659, 'grad_norm': 1.1405380964279175, 'learning_rate': 6.485054615211617e-05, 'epoch': 8.77}
+{'loss': 1.3354, 'grad_norm': 1.3863025903701782, 'learning_rate': 6.480483993936815e-05, 'epoch': 8.77}
+{'loss': 1.3262, 'grad_norm': 1.0974985361099243, 'learning_rate': 6.475912016370849e-05, 'epoch': 8.78}
+{'loss': 1.3383, 'grad_norm': 1.0552657842636108, 'learning_rate': 6.471338686702874e-05, 'epoch': 8.78}
+{'loss': 1.3478, 'grad_norm': 1.0709670782089233, 'learning_rate': 6.466764009123292e-05, 'epoch': 8.79}
+{'loss': 1.3274, 'grad_norm': 1.1263865232467651, 'learning_rate': 6.462187987823726e-05, 'epoch': 8.79}
+{'loss': 1.3373, 'grad_norm': 1.0840257406234741, 'learning_rate': 6.457610626997044e-05, 'epoch': 8.8}
+{'loss': 1.3546, 'grad_norm': 1.1156831979751587, 'learning_rate': 6.453031930837334e-05, 'epoch': 8.81}
+{'loss': 1.34, 'grad_norm': 1.123816728591919, 'learning_rate': 6.44845190353991e-05, 'epoch': 8.81}
+{'loss': 1.3571, 'grad_norm': 1.0983755588531494, 'learning_rate': 6.443870549301304e-05, 'epoch': 8.82}
+{'loss': 1.331, 'grad_norm': 0.9589661955833435, 'learning_rate': 6.439287872319264e-05, 'epoch': 8.82}
+{'loss': 1.3397, 'grad_norm': 1.1686326265335083, 'learning_rate': 6.43470387679275e-05, 'epoch': 8.83}
+{'loss': 1.3641, 'grad_norm': 1.1462116241455078, 'learning_rate': 6.430118566921932e-05, 'epoch': 8.83}
+{'loss': 1.3476, 'grad_norm': 1.0272228717803955, 'learning_rate': 6.425531946908183e-05, 'epoch': 8.84}
+{'loss': 1.3416, 'grad_norm': 1.0231941938400269, 'learning_rate': 6.42094402095408e-05, 'epoch': 8.85}
+{'loss': 1.3402, 'grad_norm': 1.0671708583831787, 'learning_rate': 6.416354793263388e-05, 'epoch': 8.85}
+{'loss': 1.3456, 'grad_norm': 1.0501748323440552, 'learning_rate': 6.411764268041069e-05, 'epoch': 8.86}
+{'loss': 1.3593, 'grad_norm': 1.1197153329849243, 'learning_rate': 6.40717244949328e-05, 'epoch': 8.86}
+{'loss': 1.3132, 'grad_norm': 1.3269212245941162, 'learning_rate': 6.402579341827354e-05, 'epoch': 8.87}
+{'loss': 1.3615, 'grad_norm': 1.0807411670684814, 'learning_rate': 6.397984949251812e-05, 'epoch': 8.87}
+{'loss': 1.3204, 'grad_norm': 1.0193594694137573, 'learning_rate': 6.393389275976345e-05, 'epoch': 8.88}
+{'loss': 1.3773, 'grad_norm': 1.0807517766952515, 'learning_rate': 6.388792326211825e-05, 'epoch': 8.89}
+{'loss': 1.3398, 'grad_norm': 1.0580588579177856, 'learning_rate': 6.38419410417029e-05, 'epoch': 8.89}
+{'loss': 1.3324, 'grad_norm': 1.0967005491256714, 'learning_rate': 6.379594614064942e-05, 'epoch': 8.9}
+{'loss': 1.3513, 'grad_norm': 1.040083646774292, 'learning_rate': 6.37499386011015e-05, 'epoch': 8.9}
+{'loss': 1.3378, 'grad_norm': 0.984352707862854, 'learning_rate': 6.370391846521436e-05, 'epoch': 8.91}
+{'loss': 1.3446, 'grad_norm': 1.171065330505371, 'learning_rate': 6.365788577515481e-05, 'epoch': 8.91}
+{'loss': 1.3647, 'grad_norm': 1.0822973251342773, 'learning_rate': 6.361184057310107e-05, 'epoch': 8.92}
+{'loss': 1.3636, 'grad_norm': 1.2326501607894897, 'learning_rate': 6.356578290124296e-05, 'epoch': 8.93}
+{'loss': 1.3619, 'grad_norm': 1.1476212739944458, 'learning_rate': 6.35197128017816e-05, 'epoch': 8.93}
+{'loss': 1.3472, 'grad_norm': 1.0694681406021118, 'learning_rate': 6.347363031692961e-05, 'epoch': 8.94}
+{'loss': 1.3603, 'grad_norm': 1.1286289691925049, 'learning_rate': 6.342753548891085e-05, 'epoch': 8.94}
+{'loss': 1.3251, 'grad_norm': 1.201790452003479, 'learning_rate': 6.338142835996055e-05, 'epoch': 8.95}
+{'loss': 1.3625, 'grad_norm': 1.1758419275283813, 'learning_rate': 6.333530897232523e-05, 'epoch': 8.95}
+{'loss': 1.3263, 'grad_norm': 1.2090002298355103, 'learning_rate': 6.328917736826257e-05, 'epoch': 8.96}
+{'loss': 1.3249, 'grad_norm': 1.0079736709594727, 'learning_rate': 6.324303359004152e-05, 'epoch': 8.97}
+{'loss': 1.361, 'grad_norm': 1.1410163640975952, 'learning_rate': 6.319687767994212e-05, 'epoch': 8.97}
+{'loss': 1.3425, 'grad_norm': 1.176900029182434, 'learning_rate': 6.31507096802556e-05, 'epoch': 8.98}
+{'loss': 1.3184, 'grad_norm': 1.163103461265564, 'learning_rate': 6.31045296332842e-05, 'epoch': 8.98}
+{'loss': 1.3408, 'grad_norm': 1.1719297170639038, 'learning_rate': 6.305833758134121e-05, 'epoch': 8.99}
+{'loss': 1.3299, 'grad_norm': 1.1819090843200684, 'learning_rate': 6.301213356675095e-05, 'epoch': 8.99}
+{'loss': 1.3424, 'grad_norm': 1.0912621021270752, 'learning_rate': 6.296591763184867e-05, 'epoch': 9.0}
+{'loss': 1.298, 'grad_norm': 1.0241864919662476, 'learning_rate': 6.291968981898058e-05, 'epoch': 9.01}
+{'loss': 1.305, 'grad_norm': 1.1241670846939087, 'learning_rate': 6.287345017050372e-05, 'epoch': 9.01}
+{'loss': 1.3046, 'grad_norm': 1.0144832134246826, 'learning_rate': 6.282719872878604e-05, 'epoch': 9.02}
+{'loss': 1.3245, 'grad_norm': 1.1686733961105347, 'learning_rate': 6.278093553620623e-05, 'epoch': 9.02}
+{'loss': 1.3124, 'grad_norm': 1.0735207796096802, 'learning_rate': 6.273466063515377e-05, 'epoch': 9.03}
+{'loss': 1.3206, 'grad_norm': 1.058270812034607, 'learning_rate': 6.26883740680289e-05, 'epoch': 9.04}
+{'loss': 1.3239, 'grad_norm': 1.0202562808990479, 'learning_rate': 6.264207587724253e-05, 'epoch': 9.04}
+{'loss': 1.3089, 'grad_norm': 1.0882097482681274, 'learning_rate': 6.259576610521618e-05, 'epoch': 9.05}
+{'loss': 1.2978, 'grad_norm': 1.1244345903396606, 'learning_rate': 6.254944479438206e-05, 'epoch': 9.05}
+{'loss': 1.3062, 'grad_norm': 1.029341459274292, 'learning_rate': 6.250311198718288e-05, 'epoch': 9.06}
+{'loss': 1.3204, 'grad_norm': 1.1646206378936768, 'learning_rate': 6.245676772607191e-05, 'epoch': 9.06}
+{'loss': 1.2877, 'grad_norm': 1.0287197828292847, 'learning_rate': 6.241041205351293e-05, 'epoch': 9.07}
+{'loss': 1.3241, 'grad_norm': 0.9335780739784241, 'learning_rate': 6.236404501198013e-05, 'epoch': 9.08}
+{'loss': 1.2982, 'grad_norm': 1.033789873123169, 'learning_rate': 6.231766664395821e-05, 'epoch': 9.08}
+{'loss': 1.3223, 'grad_norm': 1.0893192291259766, 'learning_rate': 6.227127699194215e-05, 'epoch': 9.09}
+{'loss': 1.3455, 'grad_norm': 1.1011155843734741, 'learning_rate': 6.22248760984373e-05, 'epoch': 9.09}
+{'loss': 1.336, 'grad_norm': 1.0940264463424683, 'learning_rate': 6.217846400595933e-05, 'epoch': 9.1}
+{'loss': 1.3088, 'grad_norm': 0.983381986618042, 'learning_rate': 6.213204075703418e-05, 'epoch': 9.1}
+{'loss': 1.3096, 'grad_norm': 1.0434706211090088, 'learning_rate': 6.208560639419796e-05, 'epoch': 9.11}
+{'loss': 1.3303, 'grad_norm': 1.1008431911468506, 'learning_rate': 6.203916095999702e-05, 'epoch': 9.12}
+{'loss': 1.2985, 'grad_norm': 1.129802942276001, 'learning_rate': 6.19927044969878e-05, 'epoch': 9.12}
+{'loss': 1.3373, 'grad_norm': 1.1601494550704956, 'learning_rate': 6.194623704773689e-05, 'epoch': 9.13}
+{'loss': 1.3125, 'grad_norm': 1.0910149812698364, 'learning_rate': 6.189975865482093e-05, 'epoch': 9.13}
+{'loss': 1.3087, 'grad_norm': 1.0536905527114868, 'learning_rate': 6.185326936082659e-05, 'epoch': 9.14}
+{'loss': 1.3248, 'grad_norm': 1.0987095832824707, 'learning_rate': 6.180676920835054e-05, 'epoch': 9.14}
+{'loss': 1.3066, 'grad_norm': 1.0822519063949585, 'learning_rate': 6.176025823999935e-05, 'epoch': 9.15}
+{'loss': 1.3176, 'grad_norm': 1.00260329246521, 'learning_rate': 6.171373649838955e-05, 'epoch': 9.16}
+{'loss': 1.3082, 'grad_norm': 1.4799902439117432, 'learning_rate': 6.166720402614756e-05, 'epoch': 9.16}
+{'loss': 1.3387, 'grad_norm': 0.9770128726959229, 'learning_rate': 6.162066086590955e-05, 'epoch': 9.17}
+{'loss': 1.3504, 'grad_norm': 1.1276997327804565, 'learning_rate': 6.157410706032156e-05, 'epoch': 9.17}
+{'loss': 1.2998, 'grad_norm': 1.053182601928711, 'learning_rate': 6.152754265203936e-05, 'epoch': 9.18}
+{'loss': 1.3045, 'grad_norm': 1.073697805404663, 'learning_rate': 6.148096768372841e-05, 'epoch': 9.18}
+{'loss': 1.3087, 'grad_norm': 1.1023629903793335, 'learning_rate': 6.143438219806388e-05, 'epoch': 9.19}
+[WARNING|trainer.py:761] 2025-05-15 23:55:25,734 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:25,734 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:55:32,310 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:32,310 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:32,330 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:32,330 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:55:39,107 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:39,108 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:39,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:39,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:55:45,253 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:45,254 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:45,276 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:45,276 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:55:51,702 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:51,702 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:51,722 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:51,722 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:55:58,544 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:58,545 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:58,565 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:55:58,565 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:06,017 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:06,017 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:06,037 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:06,037 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:12,538 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:12,539 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:12,559 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:12,559 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:18,608 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:18,609 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:18,629 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:18,629 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:25,291 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:25,291 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:25,313 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:25,313 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:32,340 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:32,341 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:32,360 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:32,361 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:38,892 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:38,892 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:38,912 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:38,912 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:45,932 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:45,932 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:45,952 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:45,953 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:53,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:53,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:53,152 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:53,152 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:56:59,410 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:59,410 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:59,431 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:56:59,431 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:57:07,090 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:57:07,091 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:57:07,111 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:57:07,111 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-15 23:57:11,331 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:57:11,332 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:57:11,352 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-15 23:57:11,352 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0896512269973755, 'eval_wer': 0.09258108260820432, 'eval_runtime': 121.0884, 'eval_samples_per_second': 13.139, 'eval_steps_per_second': 0.14, 'epoch': 9.19}
+{'loss': 1.3235, 'grad_norm': 1.108096957206726, 'learning_rate': 6.138778623773057e-05, 'epoch': 9.2}
+{'loss': 1.3386, 'grad_norm': 1.04118013381958, 'learning_rate': 6.134117984542286e-05, 'epoch': 9.2}
+{'loss': 1.3198, 'grad_norm': 1.0881047248840332, 'learning_rate': 6.12945630638447e-05, 'epoch': 9.21}
+{'loss': 1.3238, 'grad_norm': 1.1101092100143433, 'learning_rate': 6.124793593570957e-05, 'epoch': 9.21}
+{'loss': 1.3178, 'grad_norm': 1.0963994264602661, 'learning_rate': 6.12012985037404e-05, 'epoch': 9.22}
+{'loss': 1.2936, 'grad_norm': 1.1826673746109009, 'learning_rate': 6.11546508106696e-05, 'epoch': 9.22}
+{'loss': 1.3138, 'grad_norm': 1.0260616540908813, 'learning_rate': 6.110799289923895e-05, 'epoch': 9.23}
+{'loss': 1.3185, 'grad_norm': 1.1229928731918335, 'learning_rate': 6.106132481219962e-05, 'epoch': 9.24}
+{'loss': 1.3232, 'grad_norm': 1.058148741722107, 'learning_rate': 6.1014646592312064e-05, 'epoch': 9.24}
+{'loss': 1.3195, 'grad_norm': 1.1946823596954346, 'learning_rate': 6.096795828234606e-05, 'epoch': 9.25}
+{'loss': 1.3149, 'grad_norm': 1.06914484500885, 'learning_rate': 6.092125992508062e-05, 'epoch': 9.25}
+{'loss': 1.3232, 'grad_norm': 1.1394798755645752, 'learning_rate': 6.087455156330394e-05, 'epoch': 9.26}
+{'loss': 1.3059, 'grad_norm': 1.1990212202072144, 'learning_rate': 6.0827833239813436e-05, 'epoch': 9.26}
+{'loss': 1.3116, 'grad_norm': 1.0347788333892822, 'learning_rate': 6.0781104997415594e-05, 'epoch': 9.27}
+{'loss': 1.2974, 'grad_norm': 1.038059115409851, 'learning_rate': 6.073436687892601e-05, 'epoch': 9.28}
+{'loss': 1.3026, 'grad_norm': 1.1207138299942017, 'learning_rate': 6.068761892716933e-05, 'epoch': 9.28}
+{'loss': 1.2916, 'grad_norm': 1.12576425075531, 'learning_rate': 6.0640861184979206e-05, 'epoch': 9.29}
+{'loss': 1.3431, 'grad_norm': 1.0274579524993896, 'learning_rate': 6.059409369519827e-05, 'epoch': 9.29}
+{'loss': 1.31, 'grad_norm': 1.06902277469635, 'learning_rate': 6.05473165006781e-05, 'epoch': 9.3}
+{'loss': 1.3188, 'grad_norm': 1.0216704607009888, 'learning_rate': 6.0500529644279125e-05, 'epoch': 9.3}
+{'loss': 1.3026, 'grad_norm': 1.0098819732666016, 'learning_rate': 6.045373316887063e-05, 'epoch': 9.31}
+{'loss': 1.3212, 'grad_norm': 1.030670404434204, 'learning_rate': 6.0406927117330766e-05, 'epoch': 9.32}
+{'loss': 1.2987, 'grad_norm': 1.0391238927841187, 'learning_rate': 6.0360111532546414e-05, 'epoch': 9.32}
+{'loss': 1.2991, 'grad_norm': 1.1110267639160156, 'learning_rate': 6.0313286457413207e-05, 'epoch': 9.33}
+{'loss': 1.3128, 'grad_norm': 1.060103416442871, 'learning_rate': 6.026645193483544e-05, 'epoch': 9.33}
+{'loss': 1.3369, 'grad_norm': 1.2157009840011597, 'learning_rate': 6.021960800772612e-05, 'epoch': 9.34}
+{'loss': 1.2989, 'grad_norm': 1.030556321144104, 'learning_rate': 6.017275471900682e-05, 'epoch': 9.35}
+{'loss': 1.3054, 'grad_norm': 0.9577980041503906, 'learning_rate': 6.012589211160774e-05, 'epoch': 9.35}
+{'loss': 1.3202, 'grad_norm': 1.1688345670700073, 'learning_rate': 6.0079020228467574e-05, 'epoch': 9.36}
+{'loss': 1.3199, 'grad_norm': 1.1184086799621582, 'learning_rate': 6.0032139112533515e-05, 'epoch': 9.36}
+{'loss': 1.2917, 'grad_norm': 0.9758406281471252, 'learning_rate': 5.9985248806761275e-05, 'epoch': 9.37}
+{'loss': 1.3275, 'grad_norm': 1.0295311212539673, 'learning_rate': 5.99383493541149e-05, 'epoch': 9.37}
+{'loss': 1.3239, 'grad_norm': 1.1117675304412842, 'learning_rate': 5.98914407975669e-05, 'epoch': 9.38}
+{'loss': 1.3161, 'grad_norm': 1.0382176637649536, 'learning_rate': 5.984452318009808e-05, 'epoch': 9.39}
+{'loss': 1.3038, 'grad_norm': 1.0064224004745483, 'learning_rate': 5.979759654469752e-05, 'epoch': 9.39}
+{'loss': 1.3321, 'grad_norm': 1.1555595397949219, 'learning_rate': 5.975066093436265e-05, 'epoch': 9.4}
+{'loss': 1.3184, 'grad_norm': 1.2141364812850952, 'learning_rate': 5.970371639209902e-05, 'epoch': 9.4}
+{'loss': 1.318, 'grad_norm': 1.0710093975067139, 'learning_rate': 5.965676296092047e-05, 'epoch': 9.41}
+{'loss': 1.3227, 'grad_norm': 1.0603036880493164, 'learning_rate': 5.9609800683848885e-05, 'epoch': 9.41}
+{'loss': 1.3256, 'grad_norm': 1.0112988948822021, 'learning_rate': 5.9562829603914316e-05, 'epoch': 9.42}
+{'loss': 1.3068, 'grad_norm': 1.0558658838272095, 'learning_rate': 5.9515849764154884e-05, 'epoch': 9.43}
+{'loss': 1.3372, 'grad_norm': 1.081594705581665, 'learning_rate': 5.946886120761669e-05, 'epoch': 9.43}
+{'loss': 1.3136, 'grad_norm': 1.1181234121322632, 'learning_rate': 5.9421863977353865e-05, 'epoch': 9.44}
+{'loss': 1.3003, 'grad_norm': 0.9570739269256592, 'learning_rate': 5.937485811642846e-05, 'epoch': 9.44}
+{'loss': 1.3098, 'grad_norm': 1.1212276220321655, 'learning_rate': 5.9327843667910445e-05, 'epoch': 9.45}
+{'loss': 1.2948, 'grad_norm': 1.1140167713165283, 'learning_rate': 5.9280820674877666e-05, 'epoch': 9.45}
+{'loss': 1.3161, 'grad_norm': 1.0425423383712769, 'learning_rate': 5.923378918041579e-05, 'epoch': 9.46}
+{'loss': 1.3243, 'grad_norm': 1.1352252960205078, 'learning_rate': 5.9186749227618266e-05, 'epoch': 9.47}
+{'loss': 1.33, 'grad_norm': 1.108464002609253, 'learning_rate': 5.91397008595863e-05, 'epoch': 9.47}
+{'loss': 1.3253, 'grad_norm': 0.9899983406066895, 'learning_rate': 5.909264411942885e-05, 'epoch': 9.48}
+{'loss': 1.3319, 'grad_norm': 1.1405996084213257, 'learning_rate': 5.9045579050262446e-05, 'epoch': 9.48}
+{'loss': 1.2855, 'grad_norm': 1.0669441223144531, 'learning_rate': 5.8998505695211346e-05, 'epoch': 9.49}
+{'loss': 1.3356, 'grad_norm': 1.0184197425842285, 'learning_rate': 5.895142409740735e-05, 'epoch': 9.49}
+{'loss': 1.3243, 'grad_norm': 1.1126103401184082, 'learning_rate': 5.8904334299989814e-05, 'epoch': 9.5}
+{'loss': 1.3266, 'grad_norm': 1.1308655738830566, 'learning_rate': 5.8857236346105646e-05, 'epoch': 9.51}
+{'loss': 1.3201, 'grad_norm': 1.1014912128448486, 'learning_rate': 5.881013027890917e-05, 'epoch': 9.51}
+{'loss': 1.3177, 'grad_norm': 1.0707571506500244, 'learning_rate': 5.876301614156219e-05, 'epoch': 9.52}
+{'loss': 1.3086, 'grad_norm': 1.2664343118667603, 'learning_rate': 5.871589397723385e-05, 'epoch': 9.52}
+{'loss': 1.3111, 'grad_norm': 1.0274556875228882, 'learning_rate': 5.866876382910074e-05, 'epoch': 9.53}
+{'loss': 1.3215, 'grad_norm': 1.0448927879333496, 'learning_rate': 5.862162574034668e-05, 'epoch': 9.53}
+{'loss': 1.3249, 'grad_norm': 1.0731481313705444, 'learning_rate': 5.8574479754162814e-05, 'epoch': 9.54}
+{'loss': 1.3026, 'grad_norm': 1.2758575677871704, 'learning_rate': 5.852732591374748e-05, 'epoch': 9.55}
+{'loss': 1.3131, 'grad_norm': 1.0362504720687866, 'learning_rate': 5.848016426230623e-05, 'epoch': 9.55}
+{'loss': 1.3221, 'grad_norm': 1.0237983465194702, 'learning_rate': 5.84329948430518e-05, 'epoch': 9.56}
+{'loss': 1.3122, 'grad_norm': 0.9935582876205444, 'learning_rate': 5.838581769920404e-05, 'epoch': 9.56}
+{'loss': 1.3158, 'grad_norm': 1.293875813484192, 'learning_rate': 5.833863287398983e-05, 'epoch': 9.57}
+{'loss': 1.3239, 'grad_norm': 1.0581437349319458, 'learning_rate': 5.829144041064313e-05, 'epoch': 9.57}
+{'loss': 1.2931, 'grad_norm': 1.1205697059631348, 'learning_rate': 5.824424035240489e-05, 'epoch': 9.58}
+{'loss': 1.3294, 'grad_norm': 1.2615162134170532, 'learning_rate': 5.819703274252302e-05, 'epoch': 9.59}
+{'loss': 1.3256, 'grad_norm': 1.0731533765792847, 'learning_rate': 5.8149817624252335e-05, 'epoch': 9.59}
+{'loss': 1.3066, 'grad_norm': 1.0383588075637817, 'learning_rate': 5.8102595040854555e-05, 'epoch': 9.6}
+{'loss': 1.3356, 'grad_norm': 0.9928858280181885, 'learning_rate': 5.805536503559822e-05, 'epoch': 9.6}
+{'loss': 1.3039, 'grad_norm': 1.0577837228775024, 'learning_rate': 5.800812765175867e-05, 'epoch': 9.61}
+{'loss': 1.3196, 'grad_norm': 1.1943581104278564, 'learning_rate': 5.7960882932618024e-05, 'epoch': 9.62}
+{'loss': 1.3294, 'grad_norm': 1.1729068756103516, 'learning_rate': 5.79136309214651e-05, 'epoch': 9.62}
+{'loss': 1.3197, 'grad_norm': 0.959618091583252, 'learning_rate': 5.786637166159541e-05, 'epoch': 9.63}
+{'loss': 1.3049, 'grad_norm': 1.0103988647460938, 'learning_rate': 5.7819105196311104e-05, 'epoch': 9.63}
+{'loss': 1.3141, 'grad_norm': 1.177199363708496, 'learning_rate': 5.777183156892094e-05, 'epoch': 9.64}
+{'loss': 1.3247, 'grad_norm': 1.1029537916183472, 'learning_rate': 5.772455082274024e-05, 'epoch': 9.64}
+{'loss': 1.3269, 'grad_norm': 1.056839108467102, 'learning_rate': 5.767726300109083e-05, 'epoch': 9.65}
+{'loss': 1.3033, 'grad_norm': 1.2015800476074219, 'learning_rate': 5.7629968147301037e-05, 'epoch': 9.66}
+{'loss': 1.3177, 'grad_norm': 1.1833492517471313, 'learning_rate': 5.758266630470562e-05, 'epoch': 9.66}
+{'loss': 1.2967, 'grad_norm': 1.003337025642395, 'learning_rate': 5.7535357516645775e-05, 'epoch': 9.67}
+{'loss': 1.319, 'grad_norm': 1.2526954412460327, 'learning_rate': 5.7488041826468994e-05, 'epoch': 9.67}
+{'loss': 1.3122, 'grad_norm': 1.2134490013122559, 'learning_rate': 5.744071927752915e-05, 'epoch': 9.68}
+{'loss': 1.3121, 'grad_norm': 1.1099965572357178, 'learning_rate': 5.739338991318639e-05, 'epoch': 9.68}
+{'loss': 1.3161, 'grad_norm': 1.0549049377441406, 'learning_rate': 5.734605377680711e-05, 'epoch': 9.69}
+{'loss': 1.3262, 'grad_norm': 1.1269898414611816, 'learning_rate': 5.7298710911763864e-05, 'epoch': 9.7}
+{'loss': 1.2991, 'grad_norm': 1.0524771213531494, 'learning_rate': 5.725136136143545e-05, 'epoch': 9.7}
+{'loss': 1.3168, 'grad_norm': 0.9965651631355286, 'learning_rate': 5.7204005169206734e-05, 'epoch': 9.71}
+{'loss': 1.3158, 'grad_norm': 1.0607653856277466, 'learning_rate': 5.715664237846866e-05, 'epoch': 9.71}
+{'loss': 1.321, 'grad_norm': 1.0534794330596924, 'learning_rate': 5.7109273032618295e-05, 'epoch': 9.72}
+{'loss': 1.325, 'grad_norm': 2.33206844329834, 'learning_rate': 5.70618971750586e-05, 'epoch': 9.72}
+{'loss': 1.3116, 'grad_norm': 1.0653855800628662, 'learning_rate': 5.70145148491986e-05, 'epoch': 9.73}
+{'loss': 1.2963, 'grad_norm': 1.2570234537124634, 'learning_rate': 5.69671260984532e-05, 'epoch': 9.74}
+{'loss': 1.303, 'grad_norm': 1.1149219274520874, 'learning_rate': 5.691973096624318e-05, 'epoch': 9.74}
+{'loss': 1.3001, 'grad_norm': 1.0425065755844116, 'learning_rate': 5.687232949599521e-05, 'epoch': 9.75}
+{'loss': 1.3261, 'grad_norm': 1.1205841302871704, 'learning_rate': 5.6824921731141746e-05, 'epoch': 9.75}
+{'loss': 1.3308, 'grad_norm': 1.1084097623825073, 'learning_rate': 5.677750771512098e-05, 'epoch': 9.76}
+{'loss': 1.3177, 'grad_norm': 1.1576192378997803, 'learning_rate': 5.673008749137688e-05, 'epoch': 9.76}
+[WARNING|trainer.py:761] 2025-05-16 00:12:22,741 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:22,741 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:12:29,359 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:29,359 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:29,380 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:29,380 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:12:36,494 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:36,494 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:36,518 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:36,518 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:12:42,590 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:42,590 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:42,611 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:42,611 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:12:49,094 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:49,095 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:49,116 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:49,116 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:12:56,107 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:56,107 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:56,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:12:56,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:03,704 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:03,704 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:03,725 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:03,725 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:10,639 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:10,639 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:10,662 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:10,662 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:16,653 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:16,653 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:16,674 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:16,674 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:23,312 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:23,312 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:23,333 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:23,333 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:30,281 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:30,282 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:30,303 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:30,303 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:36,829 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:36,829 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:36,850 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:36,851 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:43,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:43,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:43,945 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:43,945 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:50,991 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:50,992 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:51,013 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:51,013 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:13:57,410 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:57,411 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:57,432 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:13:57,432 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:14:05,250 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:14:05,251 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:14:05,271 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:14:05,271 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:14:09,530 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:14:09,531 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:14:09,550 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:14:09,551 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.08290433883667, 'eval_wer': 0.092298564809583, 'eval_runtime': 122.388, 'eval_samples_per_second': 13.0, 'eval_steps_per_second': 0.139, 'epoch': 9.76}
+{'loss': 1.3237, 'grad_norm': 1.1223355531692505, 'learning_rate': 5.6682661103359106e-05, 'epoch': 9.77}
+{'loss': 1.3023, 'grad_norm': 1.0730124711990356, 'learning_rate': 5.6635228594522904e-05, 'epoch': 9.78}
+{'loss': 1.3234, 'grad_norm': 1.0638706684112549, 'learning_rate': 5.6587790008329214e-05, 'epoch': 9.78}
+{'loss': 1.3079, 'grad_norm': 1.168921709060669, 'learning_rate': 5.654034538824445e-05, 'epoch': 9.79}
+{'loss': 1.3221, 'grad_norm': 0.980303168296814, 'learning_rate': 5.6492894777740624e-05, 'epoch': 9.79}
+{'loss': 1.3316, 'grad_norm': 1.1931145191192627, 'learning_rate': 5.644543822029522e-05, 'epoch': 9.8}
+{'loss': 1.3134, 'grad_norm': 1.020251989364624, 'learning_rate': 5.6397975759391176e-05, 'epoch': 9.8}
+{'loss': 1.3166, 'grad_norm': 1.1040542125701904, 'learning_rate': 5.635050743851681e-05, 'epoch': 9.81}
+{'loss': 1.3324, 'grad_norm': 1.0645848512649536, 'learning_rate': 5.630303330116582e-05, 'epoch': 9.82}
+{'loss': 1.3228, 'grad_norm': 1.0187854766845703, 'learning_rate': 5.625555339083728e-05, 'epoch': 9.82}
+{'loss': 1.3207, 'grad_norm': 1.0625351667404175, 'learning_rate': 5.620806775103549e-05, 'epoch': 9.83}
+{'loss': 1.3142, 'grad_norm': 1.060349464416504, 'learning_rate': 5.616057642527003e-05, 'epoch': 9.83}
+{'loss': 1.3071, 'grad_norm': 1.0784462690353394, 'learning_rate': 5.6113079457055704e-05, 'epoch': 9.84}
+{'loss': 1.3011, 'grad_norm': 1.173680067062378, 'learning_rate': 5.6065576889912433e-05, 'epoch': 9.84}
+{'loss': 1.3288, 'grad_norm': 1.1100621223449707, 'learning_rate': 5.6018068767365315e-05, 'epoch': 9.85}
+{'loss': 1.3177, 'grad_norm': 0.999447226524353, 'learning_rate': 5.5970555132944544e-05, 'epoch': 9.86}
+{'loss': 1.3088, 'grad_norm': 1.0702630281448364, 'learning_rate': 5.592303603018534e-05, 'epoch': 9.86}
+{'loss': 1.3184, 'grad_norm': 1.0947574377059937, 'learning_rate': 5.587551150262794e-05, 'epoch': 9.87}
+{'loss': 1.316, 'grad_norm': 1.118959665298462, 'learning_rate': 5.5827981593817546e-05, 'epoch': 9.87}
+{'loss': 1.304, 'grad_norm': 1.065979242324829, 'learning_rate': 5.5780446347304296e-05, 'epoch': 9.88}
+{'loss': 1.3318, 'grad_norm': 0.9777162671089172, 'learning_rate': 5.5732905806643235e-05, 'epoch': 9.89}
+{'loss': 1.3454, 'grad_norm': 1.2175260782241821, 'learning_rate': 5.5685360015394205e-05, 'epoch': 9.89}
+{'loss': 1.319, 'grad_norm': 1.1098296642303467, 'learning_rate': 5.563780901712195e-05, 'epoch': 9.9}
+{'loss': 1.318, 'grad_norm': 1.0876413583755493, 'learning_rate': 5.559025285539588e-05, 'epoch': 9.9}
+{'loss': 1.3073, 'grad_norm': 1.0536487102508545, 'learning_rate': 5.554269157379023e-05, 'epoch': 9.91}
+{'loss': 1.302, 'grad_norm': 1.0888110399246216, 'learning_rate': 5.549512521588385e-05, 'epoch': 9.91}
+{'loss': 1.301, 'grad_norm': 1.1653012037277222, 'learning_rate': 5.54475538252603e-05, 'epoch': 9.92}
+{'loss': 1.3128, 'grad_norm': 1.109753131866455, 'learning_rate': 5.539997744550772e-05, 'epoch': 9.93}
+{'loss': 1.3564, 'grad_norm': 1.1051433086395264, 'learning_rate': 5.535239612021883e-05, 'epoch': 9.93}
+{'loss': 1.2993, 'grad_norm': 1.4998070001602173, 'learning_rate': 5.530480989299087e-05, 'epoch': 9.94}
+{'loss': 1.2905, 'grad_norm': 1.062514305114746, 'learning_rate': 5.5257218807425605e-05, 'epoch': 9.94}
+{'loss': 1.3256, 'grad_norm': 1.0827242136001587, 'learning_rate': 5.52096229071292e-05, 'epoch': 9.95}
+{'loss': 1.3071, 'grad_norm': 1.0938199758529663, 'learning_rate': 5.516202223571225e-05, 'epoch': 9.95}
+{'loss': 1.3136, 'grad_norm': 1.115787148475647, 'learning_rate': 5.5114416836789784e-05, 'epoch': 9.96}
+{'loss': 1.307, 'grad_norm': 1.2033324241638184, 'learning_rate': 5.506680675398107e-05, 'epoch': 9.97}
+{'loss': 1.2977, 'grad_norm': 1.0258671045303345, 'learning_rate': 5.5019192030909704e-05, 'epoch': 9.97}
+{'loss': 1.3375, 'grad_norm': 1.2147308588027954, 'learning_rate': 5.497157271120355e-05, 'epoch': 9.98}
+{'loss': 1.307, 'grad_norm': 1.1705200672149658, 'learning_rate': 5.492394883849467e-05, 'epoch': 9.98}
+{'loss': 1.3192, 'grad_norm': 1.082763433456421, 'learning_rate': 5.4876320456419295e-05, 'epoch': 9.99}
+{'loss': 1.3158, 'grad_norm': 1.194931149482727, 'learning_rate': 5.4828687608617815e-05, 'epoch': 9.99}
+{'loss': 1.3096, 'grad_norm': 4.827094078063965, 'learning_rate': 5.478105033873464e-05, 'epoch': 10.0}
+{'loss': 1.2795, 'grad_norm': 0.9479926824569702, 'learning_rate': 5.47334086904183e-05, 'epoch': 10.01}
+{'loss': 1.2963, 'grad_norm': 1.0475188493728638, 'learning_rate': 5.4685762707321334e-05, 'epoch': 10.01}
+{'loss': 1.2875, 'grad_norm': 1.038112998008728, 'learning_rate': 5.463811243310023e-05, 'epoch': 10.02}
+{'loss': 1.2788, 'grad_norm': 1.0162469148635864, 'learning_rate': 5.459045791141541e-05, 'epoch': 10.02}
+{'loss': 1.2707, 'grad_norm': 1.058996319770813, 'learning_rate': 5.454279918593117e-05, 'epoch': 10.03}
+{'loss': 1.2925, 'grad_norm': 1.2741267681121826, 'learning_rate': 5.4495136300315705e-05, 'epoch': 10.03}
+{'loss': 1.2853, 'grad_norm': 1.1402926445007324, 'learning_rate': 5.4447469298241004e-05, 'epoch': 10.04}
+{'loss': 1.2848, 'grad_norm': 0.9862801432609558, 'learning_rate': 5.439979822338279e-05, 'epoch': 10.05}
+{'loss': 1.3036, 'grad_norm': 1.089688777923584, 'learning_rate': 5.4352123119420594e-05, 'epoch': 10.05}
+{'loss': 1.2985, 'grad_norm': 1.063913106918335, 'learning_rate': 5.430444403003752e-05, 'epoch': 10.06}
+{'loss': 1.292, 'grad_norm': 1.0474162101745605, 'learning_rate': 5.425676099892045e-05, 'epoch': 10.06}
+{'loss': 1.2663, 'grad_norm': 0.9664213061332703, 'learning_rate': 5.4209074069759815e-05, 'epoch': 10.07}
+{'loss': 1.2909, 'grad_norm': 1.0256978273391724, 'learning_rate': 5.41613832862496e-05, 'epoch': 10.07}
+{'loss': 1.3059, 'grad_norm': 1.0831928253173828, 'learning_rate': 5.4113688692087396e-05, 'epoch': 10.08}
+{'loss': 1.2849, 'grad_norm': 1.110141634941101, 'learning_rate': 5.4065990330974194e-05, 'epoch': 10.09}
+{'loss': 1.2839, 'grad_norm': 0.9420299530029297, 'learning_rate': 5.40182882466145e-05, 'epoch': 10.09}
+{'loss': 1.2735, 'grad_norm': 0.9652169942855835, 'learning_rate': 5.3970582482716215e-05, 'epoch': 10.1}
+{'loss': 1.2751, 'grad_norm': 0.9281041622161865, 'learning_rate': 5.392287308299058e-05, 'epoch': 10.1}
+{'loss': 1.2781, 'grad_norm': 1.0035607814788818, 'learning_rate': 5.387516009115223e-05, 'epoch': 10.11}
+{'loss': 1.3006, 'grad_norm': 1.1126405000686646, 'learning_rate': 5.382744355091904e-05, 'epoch': 10.11}
+{'loss': 1.2762, 'grad_norm': 1.0376912355422974, 'learning_rate': 5.3779723506012156e-05, 'epoch': 10.12}
+{'loss': 1.2871, 'grad_norm': 1.0233867168426514, 'learning_rate': 5.373200000015592e-05, 'epoch': 10.13}
+{'loss': 1.3048, 'grad_norm': 1.0640654563903809, 'learning_rate': 5.3684273077077874e-05, 'epoch': 10.13}
+{'loss': 1.2697, 'grad_norm': 0.9658321142196655, 'learning_rate': 5.363654278050868e-05, 'epoch': 10.14}
+{'loss': 1.2801, 'grad_norm': 1.0131279230117798, 'learning_rate': 5.358880915418206e-05, 'epoch': 10.14}
+{'loss': 1.277, 'grad_norm': 1.0024292469024658, 'learning_rate': 5.354107224183483e-05, 'epoch': 10.15}
+{'loss': 1.3, 'grad_norm': 0.9937605261802673, 'learning_rate': 5.3493332087206805e-05, 'epoch': 10.16}
+{'loss': 1.2954, 'grad_norm': 0.9856476783752441, 'learning_rate': 5.344558873404073e-05, 'epoch': 10.16}
+{'loss': 1.2769, 'grad_norm': 1.0053565502166748, 'learning_rate': 5.339784222608235e-05, 'epoch': 10.17}
+{'loss': 1.3221, 'grad_norm': 1.2905499935150146, 'learning_rate': 5.3350092607080284e-05, 'epoch': 10.17}
+{'loss': 1.2944, 'grad_norm': 1.130355954170227, 'learning_rate': 5.330233992078593e-05, 'epoch': 10.18}
+{'loss': 1.3174, 'grad_norm': 1.1259716749191284, 'learning_rate': 5.325458421095358e-05, 'epoch': 10.18}
+{'loss': 1.287, 'grad_norm': 1.1254315376281738, 'learning_rate': 5.320682552134028e-05, 'epoch': 10.19}
+{'loss': 1.2957, 'grad_norm': 1.1372402906417847, 'learning_rate': 5.315906389570574e-05, 'epoch': 10.2}
+{'loss': 1.2749, 'grad_norm': 1.0196157693862915, 'learning_rate': 5.31112993778125e-05, 'epoch': 10.2}
+{'loss': 1.2902, 'grad_norm': 1.139103651046753, 'learning_rate': 5.306353201142558e-05, 'epoch': 10.21}
+{'loss': 1.3036, 'grad_norm': 1.0304359197616577, 'learning_rate': 5.3015761840312725e-05, 'epoch': 10.21}
+{'loss': 1.2837, 'grad_norm': 1.0686463117599487, 'learning_rate': 5.296798890824423e-05, 'epoch': 10.22}
+{'loss': 1.2797, 'grad_norm': 1.070369005203247, 'learning_rate': 5.292021325899289e-05, 'epoch': 10.22}
+{'loss': 1.2914, 'grad_norm': 1.1561923027038574, 'learning_rate': 5.2872434936334023e-05, 'epoch': 10.23}
+{'loss': 1.3241, 'grad_norm': 1.128672480583191, 'learning_rate': 5.282465398404538e-05, 'epoch': 10.24}
+{'loss': 1.2763, 'grad_norm': 1.048311471939087, 'learning_rate': 5.27768704459071e-05, 'epoch': 10.24}
+{'loss': 1.3103, 'grad_norm': 1.0134596824645996, 'learning_rate': 5.272908436570173e-05, 'epoch': 10.25}
+{'loss': 1.2743, 'grad_norm': 0.9723391532897949, 'learning_rate': 5.2681295787214145e-05, 'epoch': 10.25}
+{'loss': 1.2834, 'grad_norm': 1.0700024366378784, 'learning_rate': 5.263350475423149e-05, 'epoch': 10.26}
+{'loss': 1.3079, 'grad_norm': 1.0992634296417236, 'learning_rate': 5.258571131054312e-05, 'epoch': 10.26}
+{'loss': 1.2946, 'grad_norm': 1.1849727630615234, 'learning_rate': 5.2537915499940684e-05, 'epoch': 10.27}
+{'loss': 1.2716, 'grad_norm': 1.0340335369110107, 'learning_rate': 5.249011736621795e-05, 'epoch': 10.28}
+{'loss': 1.2789, 'grad_norm': 0.9856624007225037, 'learning_rate': 5.2442316953170826e-05, 'epoch': 10.28}
+{'loss': 1.2809, 'grad_norm': 1.1626960039138794, 'learning_rate': 5.2394514304597296e-05, 'epoch': 10.29}
+{'loss': 1.3024, 'grad_norm': 1.1043546199798584, 'learning_rate': 5.234670946429739e-05, 'epoch': 10.29}
+{'loss': 1.2967, 'grad_norm': 1.1999893188476562, 'learning_rate': 5.2298902476073195e-05, 'epoch': 10.3}
+{'loss': 1.297, 'grad_norm': 0.993698000907898, 'learning_rate': 5.22510933837287e-05, 'epoch': 10.3}
+{'loss': 1.2756, 'grad_norm': 1.0862151384353638, 'learning_rate': 5.220328223106985e-05, 'epoch': 10.31}
+{'loss': 1.31, 'grad_norm': 1.1533913612365723, 'learning_rate': 5.215546906190448e-05, 'epoch': 10.32}
+{'loss': 1.2727, 'grad_norm': 0.9844196438789368, 'learning_rate': 5.2107653920042275e-05, 'epoch': 10.32}
+{'loss': 1.296, 'grad_norm': 1.1508187055587769, 'learning_rate': 5.205983684929473e-05, 'epoch': 10.33}
+{'loss': 1.2864, 'grad_norm': 1.0531405210494995, 'learning_rate': 5.2012017893475096e-05, 'epoch': 10.33}
+{'loss': 1.2712, 'grad_norm': 1.0768994092941284, 'learning_rate': 5.196419709639835e-05, 'epoch': 10.34}
+[WARNING|trainer.py:761] 2025-05-16 00:29:33,768 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:33,768 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:29:40,345 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:40,346 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:40,366 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:40,366 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:29:47,310 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:47,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:47,331 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:47,332 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:29:53,522 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:53,523 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:53,542 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:29:53,543 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:00,003 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:00,003 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:00,023 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:00,024 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:06,765 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:06,766 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:06,787 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:06,787 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:14,489 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:14,489 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:14,510 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:14,510 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:21,111 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:21,112 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:21,131 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:21,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:27,171 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:27,171 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:27,191 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:27,191 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:33,871 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:33,871 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:33,893 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:33,893 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:40,907 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:40,907 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:40,927 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:40,927 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:47,459 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:47,459 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:47,479 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:47,480 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:30:54,493 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:54,494 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:54,514 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:30:54,514 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:31:01,408 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:01,409 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:01,429 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:01,429 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:31:07,921 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:07,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:07,943 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:07,943 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:31:15,314 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:15,315 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:15,334 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:15,335 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:31:19,778 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:19,779 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:19,798 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:31:19,799 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0807828903198242, 'eval_wer': 0.08964289750254266, 'eval_runtime': 121.4371, 'eval_samples_per_second': 13.101, 'eval_steps_per_second': 0.14, 'epoch': 10.34}
+{'loss': 1.2943, 'grad_norm': 1.0628842115402222, 'learning_rate': 5.191637450188117e-05, 'epoch': 10.34}
+{'loss': 1.2962, 'grad_norm': 1.0401692390441895, 'learning_rate': 5.186855015374186e-05, 'epoch': 10.35}
+{'loss': 1.299, 'grad_norm': 1.1449860334396362, 'learning_rate': 5.1820724095800364e-05, 'epoch': 10.36}
+{'loss': 1.2903, 'grad_norm': 1.089267373085022, 'learning_rate': 5.1772896371878156e-05, 'epoch': 10.36}
+{'loss': 1.3014, 'grad_norm': 1.0510478019714355, 'learning_rate': 5.172506702579826e-05, 'epoch': 10.37}
+{'loss': 1.295, 'grad_norm': 1.0240811109542847, 'learning_rate': 5.167723610138516e-05, 'epoch': 10.37}
+{'loss': 1.2831, 'grad_norm': 0.9672908782958984, 'learning_rate': 5.162940364246485e-05, 'epoch': 10.38}
+{'loss': 1.2897, 'grad_norm': 1.013809323310852, 'learning_rate': 5.1581569692864626e-05, 'epoch': 10.38}
+{'loss': 1.271, 'grad_norm': 0.9808719158172607, 'learning_rate': 5.1533734296413275e-05, 'epoch': 10.39}
+{'loss': 1.2862, 'grad_norm': 0.8859448432922363, 'learning_rate': 5.148589749694079e-05, 'epoch': 10.4}
+{'loss': 1.2773, 'grad_norm': 1.126128077507019, 'learning_rate': 5.143805933827853e-05, 'epoch': 10.4}
+{'loss': 1.2862, 'grad_norm': 1.0561703443527222, 'learning_rate': 5.1390219864259056e-05, 'epoch': 10.41}
+{'loss': 1.2947, 'grad_norm': 1.0264431238174438, 'learning_rate': 5.134237911871619e-05, 'epoch': 10.41}
+{'loss': 1.2942, 'grad_norm': 1.0245630741119385, 'learning_rate': 5.129453714548483e-05, 'epoch': 10.42}
+{'loss': 1.2655, 'grad_norm': 0.9584933519363403, 'learning_rate': 5.124669398840107e-05, 'epoch': 10.43}
+{'loss': 1.2945, 'grad_norm': 1.1901710033416748, 'learning_rate': 5.1198849691302066e-05, 'epoch': 10.43}
+{'loss': 1.2935, 'grad_norm': 1.0407531261444092, 'learning_rate': 5.115100429802604e-05, 'epoch': 10.44}
+{'loss': 1.2774, 'grad_norm': 1.032425880432129, 'learning_rate': 5.110315785241219e-05, 'epoch': 10.44}
+{'loss': 1.2649, 'grad_norm': 1.0361748933792114, 'learning_rate': 5.105531039830066e-05, 'epoch': 10.45}
+{'loss': 1.3001, 'grad_norm': 0.9903116822242737, 'learning_rate': 5.1007461979532565e-05, 'epoch': 10.45}
+{'loss': 1.292, 'grad_norm': 1.1704838275909424, 'learning_rate': 5.095961263994987e-05, 'epoch': 10.46}
+{'loss': 1.3025, 'grad_norm': 1.066001534461975, 'learning_rate': 5.0911762423395435e-05, 'epoch': 10.47}
+{'loss': 1.3034, 'grad_norm': 0.9677980542182922, 'learning_rate': 5.086391137371288e-05, 'epoch': 10.47}
+{'loss': 1.2585, 'grad_norm': 1.0306897163391113, 'learning_rate': 5.081605953474654e-05, 'epoch': 10.48}
+{'loss': 1.2699, 'grad_norm': 1.119706392288208, 'learning_rate': 5.076820695034158e-05, 'epoch': 10.48}
+{'loss': 1.2961, 'grad_norm': 1.152043342590332, 'learning_rate': 5.0720353664343764e-05, 'epoch': 10.49}
+{'loss': 1.2912, 'grad_norm': 1.1953966617584229, 'learning_rate': 5.067249972059956e-05, 'epoch': 10.49}
+{'loss': 1.3215, 'grad_norm': 1.023740291595459, 'learning_rate': 5.062464516295602e-05, 'epoch': 10.5}
+{'loss': 1.313, 'grad_norm': 1.0794180631637573, 'learning_rate': 5.05767900352607e-05, 'epoch': 10.51}
+{'loss': 1.3052, 'grad_norm': 1.0531030893325806, 'learning_rate': 5.0528934381361734e-05, 'epoch': 10.51}
+{'loss': 1.3096, 'grad_norm': 1.1103686094284058, 'learning_rate': 5.0481078245107774e-05, 'epoch': 10.52}
+{'loss': 1.2954, 'grad_norm': 1.1137804985046387, 'learning_rate': 5.043322167034783e-05, 'epoch': 10.52}
+{'loss': 1.3134, 'grad_norm': 1.0472280979156494, 'learning_rate': 5.038536470093136e-05, 'epoch': 10.53}
+{'loss': 1.3071, 'grad_norm': 1.1429625749588013, 'learning_rate': 5.0337507380708204e-05, 'epoch': 10.53}
+{'loss': 1.2762, 'grad_norm': 1.0990170240402222, 'learning_rate': 5.0289649753528466e-05, 'epoch': 10.54}
+{'loss': 1.2941, 'grad_norm': 1.0834749937057495, 'learning_rate': 5.024179186324257e-05, 'epoch': 10.55}
+{'loss': 1.2776, 'grad_norm': 1.0038423538208008, 'learning_rate': 5.019393375370118e-05, 'epoch': 10.55}
+{'loss': 1.3033, 'grad_norm': 1.0771673917770386, 'learning_rate': 5.014607546875516e-05, 'epoch': 10.56}
+{'loss': 1.2922, 'grad_norm': 1.086932897567749, 'learning_rate': 5.0098217052255516e-05, 'epoch': 10.56}
+{'loss': 1.3058, 'grad_norm': 1.043712854385376, 'learning_rate': 5.0050358548053386e-05, 'epoch': 10.57}
+{'loss': 1.2685, 'grad_norm': 1.0468264818191528, 'learning_rate': 5.000250000000001e-05, 'epoch': 10.57}
+{'loss': 1.2945, 'grad_norm': 1.06698477268219, 'learning_rate': 4.995464145194663e-05, 'epoch': 10.58}
+{'loss': 1.2843, 'grad_norm': 1.0319600105285645, 'learning_rate': 4.990678294774449e-05, 'epoch': 10.59}
+{'loss': 1.2953, 'grad_norm': 1.0435912609100342, 'learning_rate': 4.985892453124485e-05, 'epoch': 10.59}
+{'loss': 1.2885, 'grad_norm': 1.0339910984039307, 'learning_rate': 4.981106624629881e-05, 'epoch': 10.6}
+{'loss': 1.2898, 'grad_norm': 1.0914109945297241, 'learning_rate': 4.9763208136757434e-05, 'epoch': 10.6}
+{'loss': 1.3032, 'grad_norm': 0.9846189618110657, 'learning_rate': 4.9715350246471556e-05, 'epoch': 10.61}
+{'loss': 1.2943, 'grad_norm': 1.0420949459075928, 'learning_rate': 4.9667492619291805e-05, 'epoch': 10.61}
+{'loss': 1.3075, 'grad_norm': 1.0710291862487793, 'learning_rate': 4.961963529906864e-05, 'epoch': 10.62}
+{'loss': 1.2741, 'grad_norm': 1.0390212535858154, 'learning_rate': 4.957177832965218e-05, 'epoch': 10.63}
+{'loss': 1.2932, 'grad_norm': 0.9851287007331848, 'learning_rate': 4.952392175489224e-05, 'epoch': 10.63}
+{'loss': 1.2831, 'grad_norm': 1.0226706266403198, 'learning_rate': 4.9476065618638275e-05, 'epoch': 10.64}
+{'loss': 1.2672, 'grad_norm': 1.0406054258346558, 'learning_rate': 4.9428209964739316e-05, 'epoch': 10.64}
+{'loss': 1.2883, 'grad_norm': 1.4530843496322632, 'learning_rate': 4.9380354837044e-05, 'epoch': 10.65}
+{'loss': 1.275, 'grad_norm': 1.0020498037338257, 'learning_rate': 4.9332500279400434e-05, 'epoch': 10.65}
+{'loss': 1.3016, 'grad_norm': 0.9655764698982239, 'learning_rate': 4.928464633565624e-05, 'epoch': 10.66}
+{'loss': 1.2816, 'grad_norm': 1.118111491203308, 'learning_rate': 4.9236793049658435e-05, 'epoch': 10.67}
+{'loss': 1.3043, 'grad_norm': 1.094192624092102, 'learning_rate': 4.918894046525346e-05, 'epoch': 10.67}
+{'loss': 1.2824, 'grad_norm': 1.0270777940750122, 'learning_rate': 4.914108862628715e-05, 'epoch': 10.68}
+{'loss': 1.2807, 'grad_norm': 1.0722541809082031, 'learning_rate': 4.9093237576604554e-05, 'epoch': 10.68}
+{'loss': 1.2903, 'grad_norm': 1.1079844236373901, 'learning_rate': 4.904538736005013e-05, 'epoch': 10.69}
+{'loss': 1.2783, 'grad_norm': 1.170013427734375, 'learning_rate': 4.899753802046745e-05, 'epoch': 10.7}
+{'loss': 1.2949, 'grad_norm': 1.0115078687667847, 'learning_rate': 4.894968960169935e-05, 'epoch': 10.7}
+{'loss': 1.3023, 'grad_norm': 1.1240731477737427, 'learning_rate': 4.890184214758784e-05, 'epoch': 10.71}
+{'loss': 1.2627, 'grad_norm': 1.054719090461731, 'learning_rate': 4.885399570197396e-05, 'epoch': 10.71}
+{'loss': 1.2749, 'grad_norm': 0.9929307699203491, 'learning_rate': 4.880615030869794e-05, 'epoch': 10.72}
+{'loss': 1.2699, 'grad_norm': 1.1769680976867676, 'learning_rate': 4.875830601159893e-05, 'epoch': 10.72}
+{'loss': 1.2846, 'grad_norm': 1.0919102430343628, 'learning_rate': 4.871046285451518e-05, 'epoch': 10.73}
+{'loss': 1.2847, 'grad_norm': 1.0322463512420654, 'learning_rate': 4.866262088128384e-05, 'epoch': 10.74}
+{'loss': 1.282, 'grad_norm': 1.151832103729248, 'learning_rate': 4.8614780135740946e-05, 'epoch': 10.74}
+{'loss': 1.2751, 'grad_norm': 1.1855812072753906, 'learning_rate': 4.8566940661721485e-05, 'epoch': 10.75}
+{'loss': 1.2831, 'grad_norm': 1.104540467262268, 'learning_rate': 4.8519102503059217e-05, 'epoch': 10.75}
+{'loss': 1.2763, 'grad_norm': 1.1379268169403076, 'learning_rate': 4.847126570358674e-05, 'epoch': 10.76}
+{'loss': 1.298, 'grad_norm': 0.9269735217094421, 'learning_rate': 4.842343030713538e-05, 'epoch': 10.76}
+{'loss': 1.3023, 'grad_norm': 1.0377757549285889, 'learning_rate': 4.837559635753517e-05, 'epoch': 10.77}
+{'loss': 1.2845, 'grad_norm': 1.1565649509429932, 'learning_rate': 4.832776389861484e-05, 'epoch': 10.78}
+{'loss': 1.2905, 'grad_norm': 1.0077704191207886, 'learning_rate': 4.827993297420175e-05, 'epoch': 10.78}
+{'loss': 1.2833, 'grad_norm': 1.0438063144683838, 'learning_rate': 4.823210362812186e-05, 'epoch': 10.79}
+{'loss': 1.289, 'grad_norm': 1.056535243988037, 'learning_rate': 4.818427590419966e-05, 'epoch': 10.79}
+{'loss': 1.2719, 'grad_norm': 1.2826303243637085, 'learning_rate': 4.813644984625814e-05, 'epoch': 10.8}
+{'loss': 1.3185, 'grad_norm': 1.0525768995285034, 'learning_rate': 4.808862549811885e-05, 'epoch': 10.8}
+{'loss': 1.2904, 'grad_norm': 1.1545324325561523, 'learning_rate': 4.8040802903601644e-05, 'epoch': 10.81}
+{'loss': 1.289, 'grad_norm': 1.062300682067871, 'learning_rate': 4.799298210652491e-05, 'epoch': 10.82}
+{'loss': 1.2812, 'grad_norm': 1.1326003074645996, 'learning_rate': 4.794516315070528e-05, 'epoch': 10.82}
+{'loss': 1.2771, 'grad_norm': 1.0018856525421143, 'learning_rate': 4.789734607995772e-05, 'epoch': 10.83}
+{'loss': 1.2662, 'grad_norm': 0.9617106318473816, 'learning_rate': 4.784953093809552e-05, 'epoch': 10.83}
+{'loss': 1.2947, 'grad_norm': 1.0559762716293335, 'learning_rate': 4.7801717768930147e-05, 'epoch': 10.84}
+{'loss': 1.3064, 'grad_norm': 1.2240887880325317, 'learning_rate': 4.775390661627131e-05, 'epoch': 10.84}
+{'loss': 1.2955, 'grad_norm': 1.0106921195983887, 'learning_rate': 4.770609752392682e-05, 'epoch': 10.85}
+{'loss': 1.2796, 'grad_norm': 1.1305118799209595, 'learning_rate': 4.765829053570261e-05, 'epoch': 10.86}
+{'loss': 1.2908, 'grad_norm': 1.0738410949707031, 'learning_rate': 4.761048569540272e-05, 'epoch': 10.86}
+{'loss': 1.2839, 'grad_norm': 1.0190367698669434, 'learning_rate': 4.756268304682918e-05, 'epoch': 10.87}
+{'loss': 1.3063, 'grad_norm': 1.0953458547592163, 'learning_rate': 4.751488263378206e-05, 'epoch': 10.87}
+{'loss': 1.3067, 'grad_norm': 1.0812684297561646, 'learning_rate': 4.7467084500059325e-05, 'epoch': 10.88}
+{'loss': 1.2789, 'grad_norm': 0.9577709436416626, 'learning_rate': 4.741928868945688e-05, 'epoch': 10.88}
+{'loss': 1.2778, 'grad_norm': 1.0217535495758057, 'learning_rate': 4.737149524576854e-05, 'epoch': 10.89}
+{'loss': 1.3059, 'grad_norm': 1.0530942678451538, 'learning_rate': 4.732370421278586e-05, 'epoch': 10.9}
+{'loss': 1.2822, 'grad_norm': 1.083634614944458, 'learning_rate': 4.727591563429827e-05, 'epoch': 10.9}
+{'loss': 1.3101, 'grad_norm': 1.1242833137512207, 'learning_rate': 4.722812955409291e-05, 'epoch': 10.91}
+{'loss': 1.2885, 'grad_norm': 1.0768630504608154, 'learning_rate': 4.718034601595463e-05, 'epoch': 10.91}
+[WARNING|trainer.py:761] 2025-05-16 00:46:31,126 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:31,126 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:46:37,772 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:37,773 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:37,793 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:37,794 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:46:44,671 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:44,672 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:44,693 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:44,693 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:46:50,978 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:50,979 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:51,000 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:51,000 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:46:57,515 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:57,516 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:57,537 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:46:57,537 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:04,309 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:04,309 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:04,330 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:04,330 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:11,919 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:11,920 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:11,941 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:11,941 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:18,543 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:18,543 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:18,564 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:18,564 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:24,582 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:24,583 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:24,603 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:24,603 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:31,286 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:31,287 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:31,307 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:31,308 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:38,430 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:38,431 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:38,452 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:38,452 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:45,147 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:45,148 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:45,169 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:45,169 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:52,268 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:52,269 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:52,289 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:52,289 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:47:59,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:59,439 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:59,459 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:47:59,459 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:48:05,940 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:05,940 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:05,961 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:05,961 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:48:13,573 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:13,574 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:13,594 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:13,594 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 00:48:17,936 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:17,937 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:17,957 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 00:48:17,957 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0733562707901, 'eval_wer': 0.08780653181150412, 'eval_runtime': 122.5192, 'eval_samples_per_second': 12.986, 'eval_steps_per_second': 0.139, 'epoch': 10.91}
+{'loss': 1.3027, 'grad_norm': 0.9930522441864014, 'learning_rate': 4.7132565063665986e-05, 'epoch': 10.92}
+{'loss': 1.2967, 'grad_norm': 1.1161531209945679, 'learning_rate': 4.708478674100711e-05, 'epoch': 10.92}
+{'loss': 1.2659, 'grad_norm': 0.9924213290214539, 'learning_rate': 4.7037011091755786e-05, 'epoch': 10.93}
+{'loss': 1.2732, 'grad_norm': 1.1249287128448486, 'learning_rate': 4.698923815968729e-05, 'epoch': 10.94}
+{'loss': 1.3079, 'grad_norm': 1.1544798612594604, 'learning_rate': 4.694146798857443e-05, 'epoch': 10.94}
+{'loss': 1.3011, 'grad_norm': 1.0112615823745728, 'learning_rate': 4.689370062218754e-05, 'epoch': 10.95}
+{'loss': 1.2896, 'grad_norm': 0.9321224689483643, 'learning_rate': 4.6845936104294255e-05, 'epoch': 10.95}
+{'loss': 1.2999, 'grad_norm': 1.0098748207092285, 'learning_rate': 4.679817447865974e-05, 'epoch': 10.96}
+{'loss': 1.2966, 'grad_norm': 1.181365728378296, 'learning_rate': 4.675041578904643e-05, 'epoch': 10.96}
+{'loss': 1.291, 'grad_norm': 1.0301467180252075, 'learning_rate': 4.670266007921408e-05, 'epoch': 10.97}
+{'loss': 1.2809, 'grad_norm': 1.0525802373886108, 'learning_rate': 4.6654907392919745e-05, 'epoch': 10.98}
+{'loss': 1.308, 'grad_norm': 1.0678201913833618, 'learning_rate': 4.6607157773917645e-05, 'epoch': 10.98}
+{'loss': 1.2723, 'grad_norm': 1.1410713195800781, 'learning_rate': 4.655941126595927e-05, 'epoch': 10.99}
+{'loss': 1.3089, 'grad_norm': 1.0476981401443481, 'learning_rate': 4.65116679127932e-05, 'epoch': 10.99}
+{'loss': 1.2846, 'grad_norm': 1.0620732307434082, 'learning_rate': 4.646392775816518e-05, 'epoch': 11.0}
+{'loss': 1.2921, 'grad_norm': 1.0830312967300415, 'learning_rate': 4.641619084581796e-05, 'epoch': 11.01}
+{'loss': 1.2696, 'grad_norm': 1.0160865783691406, 'learning_rate': 4.6368457219491326e-05, 'epoch': 11.01}
+{'loss': 1.2595, 'grad_norm': 1.0626208782196045, 'learning_rate': 4.632072692292213e-05, 'epoch': 11.02}
+{'loss': 1.2524, 'grad_norm': 1.0124868154525757, 'learning_rate': 4.627299999984407e-05, 'epoch': 11.02}
+{'loss': 1.2954, 'grad_norm': 1.0652151107788086, 'learning_rate': 4.622527649398786e-05, 'epoch': 11.03}
+{'loss': 1.2602, 'grad_norm': 1.0326727628707886, 'learning_rate': 4.617755644908098e-05, 'epoch': 11.03}
+{'loss': 1.2696, 'grad_norm': 1.0618664026260376, 'learning_rate': 4.612983990884778e-05, 'epoch': 11.04}
+{'loss': 1.2636, 'grad_norm': 1.0242348909378052, 'learning_rate': 4.6082126917009424e-05, 'epoch': 11.05}
+{'loss': 1.2933, 'grad_norm': 1.355651617050171, 'learning_rate': 4.6034417517283794e-05, 'epoch': 11.05}
+{'loss': 1.2764, 'grad_norm': 1.0043624639511108, 'learning_rate': 4.5986711753385515e-05, 'epoch': 11.06}
+{'loss': 1.259, 'grad_norm': 0.9619847536087036, 'learning_rate': 4.5939009669025815e-05, 'epoch': 11.06}
+{'loss': 1.2575, 'grad_norm': 1.0290327072143555, 'learning_rate': 4.589131130791262e-05, 'epoch': 11.07}
+{'loss': 1.2646, 'grad_norm': 0.9619156718254089, 'learning_rate': 4.58436167137504e-05, 'epoch': 11.07}
+{'loss': 1.2738, 'grad_norm': 1.065199851989746, 'learning_rate': 4.5795925930240194e-05, 'epoch': 11.08}
+{'loss': 1.2645, 'grad_norm': 0.998838484287262, 'learning_rate': 4.574823900107957e-05, 'epoch': 11.09}
+{'loss': 1.2913, 'grad_norm': 0.9314670562744141, 'learning_rate': 4.57005559699625e-05, 'epoch': 11.09}
+{'loss': 1.2673, 'grad_norm': 1.0544768571853638, 'learning_rate': 4.565287688057943e-05, 'epoch': 11.1}
+{'loss': 1.2603, 'grad_norm': 1.2092013359069824, 'learning_rate': 4.560520177661722e-05, 'epoch': 11.1}
+{'loss': 1.2619, 'grad_norm': 0.9822429418563843, 'learning_rate': 4.5557530701759e-05, 'epoch': 11.11}
+{'loss': 1.258, 'grad_norm': 0.957553505897522, 'learning_rate': 4.55098636996843e-05, 'epoch': 11.11}
+{'loss': 1.2871, 'grad_norm': 1.008302927017212, 'learning_rate': 4.546220081406884e-05, 'epoch': 11.12}
+{'loss': 1.2832, 'grad_norm': 1.1175718307495117, 'learning_rate': 4.54145420885846e-05, 'epoch': 11.13}
+{'loss': 1.28, 'grad_norm': 1.0406595468521118, 'learning_rate': 4.5366887566899784e-05, 'epoch': 11.13}
+{'loss': 1.2587, 'grad_norm': 1.2113124132156372, 'learning_rate': 4.531923729267867e-05, 'epoch': 11.14}
+{'loss': 1.2896, 'grad_norm': 1.0352063179016113, 'learning_rate': 4.527159130958171e-05, 'epoch': 11.14}
+{'loss': 1.2741, 'grad_norm': 0.9835383296012878, 'learning_rate': 4.522394966126539e-05, 'epoch': 11.15}
+{'loss': 1.2715, 'grad_norm': 1.019024133682251, 'learning_rate': 4.517631239138221e-05, 'epoch': 11.15}
+{'loss': 1.2764, 'grad_norm': 1.0540754795074463, 'learning_rate': 4.5128679543580714e-05, 'epoch': 11.16}
+{'loss': 1.2353, 'grad_norm': 1.0139588117599487, 'learning_rate': 4.508105116150534e-05, 'epoch': 11.17}
+{'loss': 1.2355, 'grad_norm': 1.0660016536712646, 'learning_rate': 4.503342728879646e-05, 'epoch': 11.17}
+{'loss': 1.2813, 'grad_norm': 1.1476292610168457, 'learning_rate': 4.498580796909032e-05, 'epoch': 11.18}
+{'loss': 1.2755, 'grad_norm': 1.0248353481292725, 'learning_rate': 4.493819324601894e-05, 'epoch': 11.18}
+{'loss': 1.2735, 'grad_norm': 1.1075738668441772, 'learning_rate': 4.489058316321023e-05, 'epoch': 11.19}
+{'loss': 1.2811, 'grad_norm': 0.964785635471344, 'learning_rate': 4.484297776428775e-05, 'epoch': 11.19}
+{'loss': 1.2592, 'grad_norm': 1.1051472425460815, 'learning_rate': 4.479537709287081e-05, 'epoch': 11.2}
+{'loss': 1.2654, 'grad_norm': 1.0212862491607666, 'learning_rate': 4.47477811925744e-05, 'epoch': 11.21}
+{'loss': 1.2636, 'grad_norm': 1.014697551727295, 'learning_rate': 4.470019010700913e-05, 'epoch': 11.21}
+{'loss': 1.2522, 'grad_norm': 1.1704610586166382, 'learning_rate': 4.465260387978119e-05, 'epoch': 11.22}
+{'loss': 1.2695, 'grad_norm': 1.0169048309326172, 'learning_rate': 4.460502255449229e-05, 'epoch': 11.22}
+{'loss': 1.2708, 'grad_norm': 1.0568783283233643, 'learning_rate': 4.4557446174739706e-05, 'epoch': 11.23}
+{'loss': 1.267, 'grad_norm': 0.9714581966400146, 'learning_rate': 4.450987478411615e-05, 'epoch': 11.23}
+{'loss': 1.269, 'grad_norm': 1.0905554294586182, 'learning_rate': 4.446230842620979e-05, 'epoch': 11.24}
+{'loss': 1.2724, 'grad_norm': 0.9190165400505066, 'learning_rate': 4.441474714460414e-05, 'epoch': 11.25}
+{'loss': 1.2668, 'grad_norm': 0.9596851468086243, 'learning_rate': 4.436719098287807e-05, 'epoch': 11.25}
+{'loss': 1.2646, 'grad_norm': 1.049805998802185, 'learning_rate': 4.4319639984605804e-05, 'epoch': 11.26}
+{'loss': 1.2618, 'grad_norm': 0.9149695038795471, 'learning_rate': 4.4272094193356774e-05, 'epoch': 11.26}
+{'loss': 1.2783, 'grad_norm': 1.0188547372817993, 'learning_rate': 4.422455365269571e-05, 'epoch': 11.27}
+{'loss': 1.2696, 'grad_norm': 1.0329830646514893, 'learning_rate': 4.4177018406182476e-05, 'epoch': 11.28}
+{'loss': 1.2757, 'grad_norm': 1.037073016166687, 'learning_rate': 4.412948849737207e-05, 'epoch': 11.28}
+{'loss': 1.2834, 'grad_norm': 1.082959532737732, 'learning_rate': 4.4081963969814664e-05, 'epoch': 11.29}
+{'loss': 1.2608, 'grad_norm': 0.9733410477638245, 'learning_rate': 4.4034444867055444e-05, 'epoch': 11.29}
+{'loss': 1.2909, 'grad_norm': 1.0009406805038452, 'learning_rate': 4.3986931232634694e-05, 'epoch': 11.3}
+{'loss': 1.2793, 'grad_norm': 1.2611254453659058, 'learning_rate': 4.393942311008759e-05, 'epoch': 11.3}
+{'loss': 1.2888, 'grad_norm': 0.9886844158172607, 'learning_rate': 4.389192054294432e-05, 'epoch': 11.31}
+{'loss': 1.2902, 'grad_norm': 1.0744023323059082, 'learning_rate': 4.384442357472998e-05, 'epoch': 11.32}
+{'loss': 1.2435, 'grad_norm': 0.9251049757003784, 'learning_rate': 4.379693224896451e-05, 'epoch': 11.32}
+{'loss': 1.2776, 'grad_norm': 1.0934780836105347, 'learning_rate': 4.3749446609162735e-05, 'epoch': 11.33}
+{'loss': 1.2671, 'grad_norm': 1.0327459573745728, 'learning_rate': 4.370196669883419e-05, 'epoch': 11.33}
+{'loss': 1.2641, 'grad_norm': 1.0435962677001953, 'learning_rate': 4.3654492561483204e-05, 'epoch': 11.34}
+{'loss': 1.2648, 'grad_norm': 1.0751525163650513, 'learning_rate': 4.3607024240608847e-05, 'epoch': 11.34}
+{'loss': 1.246, 'grad_norm': 0.9920499324798584, 'learning_rate': 4.355956177970478e-05, 'epoch': 11.35}
+{'loss': 1.2819, 'grad_norm': 1.0982859134674072, 'learning_rate': 4.3512105222259385e-05, 'epoch': 11.36}
+{'loss': 1.2724, 'grad_norm': 1.01777184009552, 'learning_rate': 4.3464654611755565e-05, 'epoch': 11.36}
+{'loss': 1.2936, 'grad_norm': 1.0396219491958618, 'learning_rate': 4.3417209991670795e-05, 'epoch': 11.37}
+{'loss': 1.2694, 'grad_norm': 1.1243517398834229, 'learning_rate': 4.33697714054771e-05, 'epoch': 11.37}
+{'loss': 1.2923, 'grad_norm': 1.0075806379318237, 'learning_rate': 4.3322338896640896e-05, 'epoch': 11.38}
+{'loss': 1.2762, 'grad_norm': 1.1269917488098145, 'learning_rate': 4.3274912508623126e-05, 'epoch': 11.38}
+{'loss': 1.2582, 'grad_norm': 0.9697692394256592, 'learning_rate': 4.322749228487904e-05, 'epoch': 11.39}
+{'loss': 1.2735, 'grad_norm': 0.9485560059547424, 'learning_rate': 4.318007826885827e-05, 'epoch': 11.4}
+{'loss': 1.267, 'grad_norm': 1.1051335334777832, 'learning_rate': 4.313267050400481e-05, 'epoch': 11.4}
+{'loss': 1.2638, 'grad_norm': 0.9663533568382263, 'learning_rate': 4.308526903375683e-05, 'epoch': 11.41}
+{'loss': 1.2788, 'grad_norm': 1.0794001817703247, 'learning_rate': 4.303787390154682e-05, 'epoch': 11.41}
+{'loss': 1.2578, 'grad_norm': 1.1780107021331787, 'learning_rate': 4.299048515080142e-05, 'epoch': 11.42}
+{'loss': 1.2525, 'grad_norm': 1.0294619798660278, 'learning_rate': 4.2943102824941404e-05, 'epoch': 11.42}
+{'loss': 1.2589, 'grad_norm': 1.087461233139038, 'learning_rate': 4.2895726967381734e-05, 'epoch': 11.43}
+{'loss': 1.2509, 'grad_norm': 1.0082402229309082, 'learning_rate': 4.284835762153134e-05, 'epoch': 11.44}
+{'loss': 1.2729, 'grad_norm': 1.0569061040878296, 'learning_rate': 4.2800994830793275e-05, 'epoch': 11.44}
+{'loss': 1.2779, 'grad_norm': 1.0966882705688477, 'learning_rate': 4.2753638638564546e-05, 'epoch': 11.45}
+{'loss': 1.2776, 'grad_norm': 1.1267974376678467, 'learning_rate': 4.270628908823613e-05, 'epoch': 11.45}
+{'loss': 1.2706, 'grad_norm': 1.0483267307281494, 'learning_rate': 4.265894622319292e-05, 'epoch': 11.46}
+{'loss': 1.2705, 'grad_norm': 1.0437610149383545, 'learning_rate': 4.261161008681361e-05, 'epoch': 11.46}
+{'loss': 1.256, 'grad_norm': 1.0062497854232788, 'learning_rate': 4.2564280722470864e-05, 'epoch': 11.47}
+{'loss': 1.2766, 'grad_norm': 1.0850303173065186, 'learning_rate': 4.2516958173531015e-05, 'epoch': 11.48}
+{'loss': 1.2812, 'grad_norm': 1.088343858718872, 'learning_rate': 4.246964248335424e-05, 'epoch': 11.48}
+{'loss': 1.2673, 'grad_norm': 1.090111494064331, 'learning_rate': 4.2422333695294393e-05, 'epoch': 11.49}
+[WARNING|trainer.py:761] 2025-05-16 01:03:42,083 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:03:42,083 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:03:48,697 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:03:48,697 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:03:48,719 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:03:48,719 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:03:55,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:03:55,654 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:03:55,675 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:03:55,675 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:01,917 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:01,917 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:01,938 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:01,939 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:08,439 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:08,440 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:08,460 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:08,460 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:15,357 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:15,357 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:15,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:15,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:22,900 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:22,900 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:22,921 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:22,921 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:29,812 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:29,813 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:29,834 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:29,834 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:35,846 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:35,846 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:35,867 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:35,867 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:42,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:42,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:42,364 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:42,364 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:49,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:49,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:49,579 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:49,579 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:04:56,075 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:56,075 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:56,096 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:04:56,096 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:05:03,404 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:03,404 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:03,426 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:03,426 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:05:10,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:10,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:10,416 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:10,416 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:05:16,762 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:16,762 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:16,783 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:16,783 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:05:24,544 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:24,544 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:24,565 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:24,565 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:05:29,112 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:29,112 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:29,133 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:05:29,134 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0746465921401978, 'eval_wer': 0.09046219911854447, 'eval_runtime': 122.6086, 'eval_samples_per_second': 12.976, 'eval_steps_per_second': 0.139, 'epoch': 11.49}
+{'loss': 1.2641, 'grad_norm': 1.1436728239059448, 'learning_rate': 4.237503185269897e-05, 'epoch': 11.49}
+{'loss': 1.2571, 'grad_norm': 1.0940887928009033, 'learning_rate': 4.232773699890918e-05, 'epoch': 11.5}
+{'loss': 1.2703, 'grad_norm': 1.0334457159042358, 'learning_rate': 4.2280449177259754e-05, 'epoch': 11.5}
+{'loss': 1.2603, 'grad_norm': 1.08735990524292, 'learning_rate': 4.223316843107906e-05, 'epoch': 11.51}
+{'loss': 1.2599, 'grad_norm': 1.0585899353027344, 'learning_rate': 4.2185894803688905e-05, 'epoch': 11.52}
+{'loss': 1.272, 'grad_norm': 1.1298428773880005, 'learning_rate': 4.2138628338404604e-05, 'epoch': 11.52}
+{'loss': 1.2648, 'grad_norm': 1.005755066871643, 'learning_rate': 4.209136907853491e-05, 'epoch': 11.53}
+{'loss': 1.2523, 'grad_norm': 1.0285767316818237, 'learning_rate': 4.204411706738198e-05, 'epoch': 11.53}
+{'loss': 1.2879, 'grad_norm': 1.0364145040512085, 'learning_rate': 4.199687234824134e-05, 'epoch': 11.54}
+{'loss': 1.2695, 'grad_norm': 1.1432249546051025, 'learning_rate': 4.19496349644018e-05, 'epoch': 11.55}
+{'loss': 1.2802, 'grad_norm': 0.9667734503746033, 'learning_rate': 4.190240495914544e-05, 'epoch': 11.55}
+{'loss': 1.27, 'grad_norm': 1.0737906694412231, 'learning_rate': 4.185518237574767e-05, 'epoch': 11.56}
+{'loss': 1.2665, 'grad_norm': 1.069962978363037, 'learning_rate': 4.1807967257476976e-05, 'epoch': 11.56}
+{'loss': 1.2585, 'grad_norm': 1.0386557579040527, 'learning_rate': 4.176075964759511e-05, 'epoch': 11.57}
+{'loss': 1.2653, 'grad_norm': 1.1467912197113037, 'learning_rate': 4.171355958935688e-05, 'epoch': 11.57}
+{'loss': 1.2779, 'grad_norm': 0.9918843507766724, 'learning_rate': 4.166636712601017e-05, 'epoch': 11.58}
+{'loss': 1.2759, 'grad_norm': 1.0522713661193848, 'learning_rate': 4.1619182300795976e-05, 'epoch': 11.59}
+{'loss': 1.3041, 'grad_norm': 1.0904958248138428, 'learning_rate': 4.15720051569482e-05, 'epoch': 11.59}
+{'loss': 1.2525, 'grad_norm': 0.9734220504760742, 'learning_rate': 4.152483573769379e-05, 'epoch': 11.6}
+{'loss': 1.2648, 'grad_norm': 1.0670104026794434, 'learning_rate': 4.147767408625255e-05, 'epoch': 11.6}
+{'loss': 1.2592, 'grad_norm': 1.2152177095413208, 'learning_rate': 4.14305202458372e-05, 'epoch': 11.61}
+{'loss': 1.2687, 'grad_norm': 1.0259360074996948, 'learning_rate': 4.138337425965333e-05, 'epoch': 11.61}
+{'loss': 1.2642, 'grad_norm': 1.0761845111846924, 'learning_rate': 4.1336236170899256e-05, 'epoch': 11.62}
+{'loss': 1.266, 'grad_norm': 1.1895610094070435, 'learning_rate': 4.128910602276615e-05, 'epoch': 11.63}
+{'loss': 1.2939, 'grad_norm': 0.9918289184570312, 'learning_rate': 4.1241983858437835e-05, 'epoch': 11.63}
+{'loss': 1.2459, 'grad_norm': 1.0784008502960205, 'learning_rate': 4.119486972109084e-05, 'epoch': 11.64}
+{'loss': 1.277, 'grad_norm': 1.0903466939926147, 'learning_rate': 4.1147763653894376e-05, 'epoch': 11.64}
+{'loss': 1.2705, 'grad_norm': 1.1010406017303467, 'learning_rate': 4.110066570001019e-05, 'epoch': 11.65}
+{'loss': 1.279, 'grad_norm': 1.1080422401428223, 'learning_rate': 4.105357590259266e-05, 'epoch': 11.65}
+{'loss': 1.2675, 'grad_norm': 1.0251054763793945, 'learning_rate': 4.1006494304788677e-05, 'epoch': 11.66}
+{'loss': 1.2487, 'grad_norm': 1.0210870504379272, 'learning_rate': 4.0959420949737557e-05, 'epoch': 11.67}
+{'loss': 1.247, 'grad_norm': 1.1191749572753906, 'learning_rate': 4.091235588057118e-05, 'epoch': 11.67}
+{'loss': 1.2611, 'grad_norm': 0.9252220392227173, 'learning_rate': 4.0865299140413696e-05, 'epoch': 11.68}
+{'loss': 1.2701, 'grad_norm': 0.9974046349525452, 'learning_rate': 4.0818250772381736e-05, 'epoch': 11.68}
+{'loss': 1.2798, 'grad_norm': 1.0279533863067627, 'learning_rate': 4.0771210819584236e-05, 'epoch': 11.69}
+{'loss': 1.2677, 'grad_norm': 1.0447250604629517, 'learning_rate': 4.072417932512235e-05, 'epoch': 11.69}
+{'loss': 1.269, 'grad_norm': 1.0690468549728394, 'learning_rate': 4.067715633208958e-05, 'epoch': 11.7}
+{'loss': 1.2773, 'grad_norm': 1.03852379322052, 'learning_rate': 4.063014188357156e-05, 'epoch': 11.71}
+{'loss': 1.2545, 'grad_norm': 0.9885318279266357, 'learning_rate': 4.058313602264615e-05, 'epoch': 11.71}
+{'loss': 1.2563, 'grad_norm': 1.1901969909667969, 'learning_rate': 4.0536138792383314e-05, 'epoch': 11.72}
+{'loss': 1.2607, 'grad_norm': 1.0043365955352783, 'learning_rate': 4.048915023584513e-05, 'epoch': 11.72}
+{'loss': 1.2648, 'grad_norm': 1.0531787872314453, 'learning_rate': 4.0442170396085686e-05, 'epoch': 11.73}
+{'loss': 1.2594, 'grad_norm': 0.9562181234359741, 'learning_rate': 4.039519931615113e-05, 'epoch': 11.73}
+{'loss': 1.2742, 'grad_norm': 1.0916298627853394, 'learning_rate': 4.0348237039079555e-05, 'epoch': 11.74}
+{'loss': 1.2738, 'grad_norm': 1.01168692111969, 'learning_rate': 4.030128360790098e-05, 'epoch': 11.75}
+{'loss': 1.2458, 'grad_norm': 0.9795570969581604, 'learning_rate': 4.0254339065637374e-05, 'epoch': 11.75}
+{'loss': 1.264, 'grad_norm': 1.1094186305999756, 'learning_rate': 4.0207403455302495e-05, 'epoch': 11.76}
+{'loss': 1.2719, 'grad_norm': 0.9983965158462524, 'learning_rate': 4.016047681990194e-05, 'epoch': 11.76}
+{'loss': 1.2586, 'grad_norm': 0.9829633235931396, 'learning_rate': 4.011355920243312e-05, 'epoch': 11.77}
+{'loss': 1.2617, 'grad_norm': 1.0315426588058472, 'learning_rate': 4.0066650645885096e-05, 'epoch': 11.77}
+{'loss': 1.2666, 'grad_norm': 1.0671780109405518, 'learning_rate': 4.001975119323875e-05, 'epoch': 11.78}
+{'loss': 1.2689, 'grad_norm': 1.0147048234939575, 'learning_rate': 3.997286088746649e-05, 'epoch': 11.79}
+{'loss': 1.291, 'grad_norm': 1.1218231916427612, 'learning_rate': 3.9925979771532435e-05, 'epoch': 11.79}
+{'loss': 1.2581, 'grad_norm': 1.0123099088668823, 'learning_rate': 3.987910788839227e-05, 'epoch': 11.8}
+{'loss': 1.2696, 'grad_norm': 0.9395419359207153, 'learning_rate': 3.9832245280993176e-05, 'epoch': 11.8}
+{'loss': 1.2605, 'grad_norm': 1.050680160522461, 'learning_rate': 3.978539199227389e-05, 'epoch': 11.81}
+{'loss': 1.2545, 'grad_norm': 1.0552202463150024, 'learning_rate': 3.9738548065164566e-05, 'epoch': 11.82}
+{'loss': 1.2548, 'grad_norm': 0.9876143336296082, 'learning_rate': 3.96917135425868e-05, 'epoch': 11.82}
+{'loss': 1.2905, 'grad_norm': 1.0114952325820923, 'learning_rate': 3.9644888467453595e-05, 'epoch': 11.83}
+{'loss': 1.2846, 'grad_norm': 0.9893816709518433, 'learning_rate': 3.9598072882669236e-05, 'epoch': 11.83}
+{'loss': 1.2834, 'grad_norm': 1.0897454023361206, 'learning_rate': 3.955126683112938e-05, 'epoch': 11.84}
+{'loss': 1.2619, 'grad_norm': 0.9684361219406128, 'learning_rate': 3.9504470355720904e-05, 'epoch': 11.84}
+{'loss': 1.2656, 'grad_norm': 0.9694860577583313, 'learning_rate': 3.9457683499321904e-05, 'epoch': 11.85}
+{'loss': 1.2877, 'grad_norm': 0.9525081515312195, 'learning_rate': 3.941090630480174e-05, 'epoch': 11.86}
+{'loss': 1.2406, 'grad_norm': 1.1364809274673462, 'learning_rate': 3.93641388150208e-05, 'epoch': 11.86}
+{'loss': 1.2507, 'grad_norm': 1.0357623100280762, 'learning_rate': 3.931738107283068e-05, 'epoch': 11.87}
+{'loss': 1.2399, 'grad_norm': 1.1002920866012573, 'learning_rate': 3.9270633121074015e-05, 'epoch': 11.87}
+{'loss': 1.2959, 'grad_norm': 1.0811396837234497, 'learning_rate': 3.9223895002584415e-05, 'epoch': 11.88}
+{'loss': 1.2736, 'grad_norm': 1.0222771167755127, 'learning_rate': 3.917716676018657e-05, 'epoch': 11.88}
+{'loss': 1.2598, 'grad_norm': 0.9716038107872009, 'learning_rate': 3.9130448436696054e-05, 'epoch': 11.89}
+{'loss': 1.2634, 'grad_norm': 1.0875701904296875, 'learning_rate': 3.908374007491939e-05, 'epoch': 11.9}
+{'loss': 1.2687, 'grad_norm': 1.042626142501831, 'learning_rate': 3.903704171765396e-05, 'epoch': 11.9}
+{'loss': 1.2497, 'grad_norm': 1.0035465955734253, 'learning_rate': 3.8990353407687945e-05, 'epoch': 11.91}
+{'loss': 1.2557, 'grad_norm': 1.020595908164978, 'learning_rate': 3.894367518780041e-05, 'epoch': 11.91}
+{'loss': 1.269, 'grad_norm': 1.0916239023208618, 'learning_rate': 3.8897007100761064e-05, 'epoch': 11.92}
+{'loss': 1.2558, 'grad_norm': 0.9847072958946228, 'learning_rate': 3.885034918933041e-05, 'epoch': 11.92}
+{'loss': 1.2706, 'grad_norm': 1.1077895164489746, 'learning_rate': 3.880370149625962e-05, 'epoch': 11.93}
+{'loss': 1.2598, 'grad_norm': 1.0282268524169922, 'learning_rate': 3.875706406429045e-05, 'epoch': 11.94}
+{'loss': 1.2559, 'grad_norm': 0.8964557647705078, 'learning_rate': 3.871043693615533e-05, 'epoch': 11.94}
+{'loss': 1.2509, 'grad_norm': 1.002661943435669, 'learning_rate': 3.866382015457715e-05, 'epoch': 11.95}
+{'loss': 1.271, 'grad_norm': 1.0154294967651367, 'learning_rate': 3.861721376226944e-05, 'epoch': 11.95}
+{'loss': 1.2833, 'grad_norm': 1.0177925825119019, 'learning_rate': 3.857061780193611e-05, 'epoch': 11.96}
+{'loss': 1.2673, 'grad_norm': 1.0291526317596436, 'learning_rate': 3.85240323162716e-05, 'epoch': 11.96}
+{'loss': 1.2793, 'grad_norm': 1.1617499589920044, 'learning_rate': 3.8477457347960655e-05, 'epoch': 11.97}
+{'loss': 1.2904, 'grad_norm': 1.1649653911590576, 'learning_rate': 3.843089293967843e-05, 'epoch': 11.98}
+{'loss': 1.272, 'grad_norm': 0.9970369935035706, 'learning_rate': 3.8384339134090456e-05, 'epoch': 11.98}
+{'loss': 1.2604, 'grad_norm': 0.9548753499984741, 'learning_rate': 3.833779597385244e-05, 'epoch': 11.99}
+{'loss': 1.2799, 'grad_norm': 0.8901769518852234, 'learning_rate': 3.829126350161045e-05, 'epoch': 11.99}
+{'loss': 1.274, 'grad_norm': 1.0081822872161865, 'learning_rate': 3.824474176000066e-05, 'epoch': 12.0}
+{'loss': 1.2532, 'grad_norm': 1.00437331199646, 'learning_rate': 3.819823079164947e-05, 'epoch': 12.0}
+{'loss': 1.2589, 'grad_norm': 1.0935298204421997, 'learning_rate': 3.815173063917342e-05, 'epoch': 12.01}
+{'loss': 1.2528, 'grad_norm': 0.9490810632705688, 'learning_rate': 3.810524134517907e-05, 'epoch': 12.02}
+{'loss': 1.2409, 'grad_norm': 1.1048473119735718, 'learning_rate': 3.805876295226312e-05, 'epoch': 12.02}
+{'loss': 1.2417, 'grad_norm': 1.0223900079727173, 'learning_rate': 3.801229550301222e-05, 'epoch': 12.03}
+{'loss': 1.2647, 'grad_norm': 1.0157376527786255, 'learning_rate': 3.7965839040002996e-05, 'epoch': 12.03}
+{'loss': 1.2497, 'grad_norm': 0.988128662109375, 'learning_rate': 3.791939360580205e-05, 'epoch': 12.04}
+{'loss': 1.2489, 'grad_norm': 1.0185871124267578, 'learning_rate': 3.787295924296582e-05, 'epoch': 12.04}
+{'loss': 1.2421, 'grad_norm': 1.0104808807373047, 'learning_rate': 3.7826535994040676e-05, 'epoch': 12.05}
+{'loss': 1.2414, 'grad_norm': 1.0342261791229248, 'learning_rate': 3.7780123901562717e-05, 'epoch': 12.06}
+{'loss': 1.2371, 'grad_norm': 1.0249075889587402, 'learning_rate': 3.773372300805786e-05, 'epoch': 12.06}
+[WARNING|trainer.py:761] 2025-05-16 01:20:51,576 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:20:51,576 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:20:58,158 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:20:58,159 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:20:58,181 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:20:58,181 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:04,867 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:04,867 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:04,888 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:04,888 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:10,944 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:10,945 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:10,965 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:10,965 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:17,589 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:17,589 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:17,610 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:17,610 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:24,401 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:24,401 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:24,421 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:24,421 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:31,917 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:31,917 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:31,938 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:31,938 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:38,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:38,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:38,578 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:38,578 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:44,537 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:44,538 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:44,559 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:44,559 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:51,182 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:51,182 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:51,203 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:51,203 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:21:58,233 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:58,233 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:58,253 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:21:58,254 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:22:04,832 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:04,833 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:04,853 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:04,854 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:22:11,823 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:11,823 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:11,846 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:11,846 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:22:18,925 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:18,926 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:18,947 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:18,947 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:22:25,249 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:25,250 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:25,271 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:25,272 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:22:32,700 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:32,701 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:32,721 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:32,721 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:22:37,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:37,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:37,251 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:22:37,251 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0713833570480347, 'eval_wer': 0.08786303537122839, 'eval_runtime': 121.2057, 'eval_samples_per_second': 13.126, 'eval_steps_per_second': 0.14, 'epoch': 12.06}
+{'loss': 1.2443, 'grad_norm': 1.0830078125, 'learning_rate': 3.7687333356041806e-05, 'epoch': 12.07}
+{'loss': 1.2488, 'grad_norm': 1.0379953384399414, 'learning_rate': 3.764095498801987e-05, 'epoch': 12.07}
+{'loss': 1.2353, 'grad_norm': 1.0052080154418945, 'learning_rate': 3.759458794648709e-05, 'epoch': 12.08}
+{'loss': 1.2563, 'grad_norm': 1.0315632820129395, 'learning_rate': 3.754823227392811e-05, 'epoch': 12.09}
+{'loss': 1.2543, 'grad_norm': 1.0419727563858032, 'learning_rate': 3.750188801281713e-05, 'epoch': 12.09}
+{'loss': 1.2618, 'grad_norm': 1.0818511247634888, 'learning_rate': 3.745555520561795e-05, 'epoch': 12.1}
+{'loss': 1.2356, 'grad_norm': 1.0677670240402222, 'learning_rate': 3.7409233894783804e-05, 'epoch': 12.1}
+{'loss': 1.26, 'grad_norm': 1.043628215789795, 'learning_rate': 3.736292412275747e-05, 'epoch': 12.11}
+{'loss': 1.2465, 'grad_norm': 1.0647454261779785, 'learning_rate': 3.7316625931971103e-05, 'epoch': 12.11}
+{'loss': 1.2527, 'grad_norm': 0.9494752883911133, 'learning_rate': 3.727033936484623e-05, 'epoch': 12.12}
+{'loss': 1.2481, 'grad_norm': 0.9505246877670288, 'learning_rate': 3.7224064463793795e-05, 'epoch': 12.13}
+{'loss': 1.2433, 'grad_norm': 0.9982222318649292, 'learning_rate': 3.717780127121398e-05, 'epoch': 12.13}
+{'loss': 1.2582, 'grad_norm': 0.9857678413391113, 'learning_rate': 3.7131549829496285e-05, 'epoch': 12.14}
+{'loss': 1.2443, 'grad_norm': 1.1183850765228271, 'learning_rate': 3.708531018101945e-05, 'epoch': 12.14}
+{'loss': 1.2535, 'grad_norm': 0.9338358044624329, 'learning_rate': 3.703908236815134e-05, 'epoch': 12.15}
+{'loss': 1.2226, 'grad_norm': 0.8844596743583679, 'learning_rate': 3.699286643324908e-05, 'epoch': 12.15}
+{'loss': 1.2602, 'grad_norm': 1.0605865716934204, 'learning_rate': 3.694666241865881e-05, 'epoch': 12.16}
+{'loss': 1.2394, 'grad_norm': 0.9888694882392883, 'learning_rate': 3.6900470366715814e-05, 'epoch': 12.17}
+{'loss': 1.2525, 'grad_norm': 0.93047034740448, 'learning_rate': 3.685429031974442e-05, 'epoch': 12.17}
+{'loss': 1.249, 'grad_norm': 1.066928505897522, 'learning_rate': 3.6808122320057875e-05, 'epoch': 12.18}
+{'loss': 1.2517, 'grad_norm': 1.0635950565338135, 'learning_rate': 3.676196640995849e-05, 'epoch': 12.18}
+{'loss': 1.2491, 'grad_norm': 1.070138692855835, 'learning_rate': 3.671582263173743e-05, 'epoch': 12.19}
+{'loss': 1.2481, 'grad_norm': 0.9687944054603577, 'learning_rate': 3.666969102767478e-05, 'epoch': 12.19}
+{'loss': 1.228, 'grad_norm': 1.0232404470443726, 'learning_rate': 3.662357164003944e-05, 'epoch': 12.2}
+{'loss': 1.2202, 'grad_norm': 0.9780818819999695, 'learning_rate': 3.657746451108915e-05, 'epoch': 12.21}
+{'loss': 1.251, 'grad_norm': 0.9533660411834717, 'learning_rate': 3.65313696830704e-05, 'epoch': 12.21}
+{'loss': 1.243, 'grad_norm': 1.0098894834518433, 'learning_rate': 3.648528719821838e-05, 'epoch': 12.22}
+{'loss': 1.2453, 'grad_norm': 1.0104782581329346, 'learning_rate': 3.643921709875706e-05, 'epoch': 12.22}
+{'loss': 1.2481, 'grad_norm': 1.0211265087127686, 'learning_rate': 3.6393159426898924e-05, 'epoch': 12.23}
+{'loss': 1.2746, 'grad_norm': 1.142769455909729, 'learning_rate': 3.6347114224845216e-05, 'epoch': 12.23}
+{'loss': 1.2523, 'grad_norm': 0.9032977819442749, 'learning_rate': 3.630108153478565e-05, 'epoch': 12.24}
+{'loss': 1.2579, 'grad_norm': 1.1085121631622314, 'learning_rate': 3.6255061398898496e-05, 'epoch': 12.25}
+{'loss': 1.2448, 'grad_norm': 1.1852970123291016, 'learning_rate': 3.6209053859350585e-05, 'epoch': 12.25}
+{'loss': 1.251, 'grad_norm': 0.975518524646759, 'learning_rate': 3.6163058958297106e-05, 'epoch': 12.26}
+{'loss': 1.2638, 'grad_norm': 1.1111377477645874, 'learning_rate': 3.611707673788177e-05, 'epoch': 12.26}
+{'loss': 1.2595, 'grad_norm': 1.0246323347091675, 'learning_rate': 3.607110724023656e-05, 'epoch': 12.27}
+{'loss': 1.2645, 'grad_norm': 1.0392694473266602, 'learning_rate': 3.602515050748189e-05, 'epoch': 12.27}
+{'loss': 1.2368, 'grad_norm': 0.9927871227264404, 'learning_rate': 3.597920658172647e-05, 'epoch': 12.28}
+{'loss': 1.2691, 'grad_norm': 0.8740590810775757, 'learning_rate': 3.59332755050672e-05, 'epoch': 12.29}
+{'loss': 1.2567, 'grad_norm': 1.0087106227874756, 'learning_rate': 3.588735731958932e-05, 'epoch': 12.29}
+{'loss': 1.2333, 'grad_norm': 1.054331660270691, 'learning_rate': 3.5841452067366144e-05, 'epoch': 12.3}
+{'loss': 1.2509, 'grad_norm': 1.0606539249420166, 'learning_rate': 3.579555979045921e-05, 'epoch': 12.3}
+{'loss': 1.2487, 'grad_norm': 1.0268588066101074, 'learning_rate': 3.5749680530918164e-05, 'epoch': 12.31}
+{'loss': 1.2434, 'grad_norm': 1.0296322107315063, 'learning_rate': 3.570381433078068e-05, 'epoch': 12.31}
+{'loss': 1.258, 'grad_norm': 1.135090708732605, 'learning_rate': 3.565796123207251e-05, 'epoch': 12.32}
+{'loss': 1.2385, 'grad_norm': 1.1086962223052979, 'learning_rate': 3.561212127680739e-05, 'epoch': 12.33}
+{'loss': 1.2219, 'grad_norm': 1.06435227394104, 'learning_rate': 3.556629450698697e-05, 'epoch': 12.33}
+{'loss': 1.2543, 'grad_norm': 1.0489434003829956, 'learning_rate': 3.552048096460091e-05, 'epoch': 12.34}
+{'loss': 1.2493, 'grad_norm': 1.029554009437561, 'learning_rate': 3.547468069162665e-05, 'epoch': 12.34}
+{'loss': 1.2605, 'grad_norm': 1.0354934930801392, 'learning_rate': 3.542889373002956e-05, 'epoch': 12.35}
+{'loss': 1.2454, 'grad_norm': 1.0155259370803833, 'learning_rate': 3.5383120121762746e-05, 'epoch': 12.35}
+{'loss': 1.2403, 'grad_norm': 1.1830785274505615, 'learning_rate': 3.53373599087671e-05, 'epoch': 12.36}
+{'loss': 1.2652, 'grad_norm': 1.0363010168075562, 'learning_rate': 3.5291613132971266e-05, 'epoch': 12.37}
+{'loss': 1.2413, 'grad_norm': 1.0140489339828491, 'learning_rate': 3.5245879836291516e-05, 'epoch': 12.37}
+{'loss': 1.2383, 'grad_norm': 1.0690045356750488, 'learning_rate': 3.520016006063186e-05, 'epoch': 12.38}
+{'loss': 1.2908, 'grad_norm': 1.2001897096633911, 'learning_rate': 3.515445384788386e-05, 'epoch': 12.38}
+{'loss': 1.2463, 'grad_norm': 0.9489787817001343, 'learning_rate': 3.51087612399266e-05, 'epoch': 12.39}
+{'loss': 1.2617, 'grad_norm': 1.0735028982162476, 'learning_rate': 3.5063082278626843e-05, 'epoch': 12.4}
+{'loss': 1.2558, 'grad_norm': 0.9994289875030518, 'learning_rate': 3.50174170058387e-05, 'epoch': 12.4}
+{'loss': 1.2406, 'grad_norm': 0.9879858493804932, 'learning_rate': 3.4971765463403845e-05, 'epoch': 12.41}
+{'loss': 1.2361, 'grad_norm': 1.0495525598526, 'learning_rate': 3.4926127693151304e-05, 'epoch': 12.41}
+{'loss': 1.2708, 'grad_norm': 1.0661427974700928, 'learning_rate': 3.488050373689751e-05, 'epoch': 12.42}
+{'loss': 1.2548, 'grad_norm': 0.9698820114135742, 'learning_rate': 3.4834893636446254e-05, 'epoch': 12.42}
+{'loss': 1.251, 'grad_norm': 1.2068321704864502, 'learning_rate': 3.478929743358859e-05, 'epoch': 12.43}
+{'loss': 1.2482, 'grad_norm': 1.1306241750717163, 'learning_rate': 3.47437151701029e-05, 'epoch': 12.44}
+{'loss': 1.2236, 'grad_norm': 0.9876848459243774, 'learning_rate': 3.4698146887754725e-05, 'epoch': 12.44}
+{'loss': 1.2404, 'grad_norm': 1.0889356136322021, 'learning_rate': 3.465259262829685e-05, 'epoch': 12.45}
+{'loss': 1.2334, 'grad_norm': 0.9695348739624023, 'learning_rate': 3.4607052433469177e-05, 'epoch': 12.45}
+{'loss': 1.2517, 'grad_norm': 1.0182578563690186, 'learning_rate': 3.456152634499871e-05, 'epoch': 12.46}
+{'loss': 1.2448, 'grad_norm': 0.9320023655891418, 'learning_rate': 3.45160144045996e-05, 'epoch': 12.46}
+{'loss': 1.2461, 'grad_norm': 0.9913382530212402, 'learning_rate': 3.447051665397295e-05, 'epoch': 12.47}
+{'loss': 1.2474, 'grad_norm': 1.0610382556915283, 'learning_rate': 3.442503313480693e-05, 'epoch': 12.48}
+{'loss': 1.2703, 'grad_norm': 0.9985247254371643, 'learning_rate': 3.437956388877659e-05, 'epoch': 12.48}
+{'loss': 1.2527, 'grad_norm': 0.9466493725776672, 'learning_rate': 3.433410895754396e-05, 'epoch': 12.49}
+{'loss': 1.2589, 'grad_norm': 1.041614294052124, 'learning_rate': 3.428866838275799e-05, 'epoch': 12.49}
+{'loss': 1.2622, 'grad_norm': 1.0434848070144653, 'learning_rate': 3.424324220605437e-05, 'epoch': 12.5}
+{'loss': 1.2521, 'grad_norm': 1.0748556852340698, 'learning_rate': 3.41978304690557e-05, 'epoch': 12.5}
+{'loss': 1.2472, 'grad_norm': 0.997688889503479, 'learning_rate': 3.415243321337127e-05, 'epoch': 12.51}
+{'loss': 1.2282, 'grad_norm': 1.0677061080932617, 'learning_rate': 3.4107050480597144e-05, 'epoch': 12.52}
+{'loss': 1.2496, 'grad_norm': 0.9597499370574951, 'learning_rate': 3.4061682312316095e-05, 'epoch': 12.52}
+{'loss': 1.2565, 'grad_norm': 0.95613032579422, 'learning_rate': 3.40163287500975e-05, 'epoch': 12.53}
+{'loss': 1.2407, 'grad_norm': 1.0700112581253052, 'learning_rate': 3.397098983549739e-05, 'epoch': 12.53}
+{'loss': 1.241, 'grad_norm': 0.8729975819587708, 'learning_rate': 3.3925665610058394e-05, 'epoch': 12.54}
+{'loss': 1.251, 'grad_norm': 1.0821452140808105, 'learning_rate': 3.388035611530959e-05, 'epoch': 12.54}
+{'loss': 1.2518, 'grad_norm': 0.9793508648872375, 'learning_rate': 3.3835061392766695e-05, 'epoch': 12.55}
+{'loss': 1.2391, 'grad_norm': 1.0446723699569702, 'learning_rate': 3.378978148393176e-05, 'epoch': 12.56}
+{'loss': 1.2475, 'grad_norm': 0.9936966300010681, 'learning_rate': 3.374451643029334e-05, 'epoch': 12.56}
+{'loss': 1.2539, 'grad_norm': 0.998653769493103, 'learning_rate': 3.3699266273326376e-05, 'epoch': 12.57}
+{'loss': 1.2484, 'grad_norm': 0.9928255677223206, 'learning_rate': 3.36540310544921e-05, 'epoch': 12.57}
+{'loss': 1.2189, 'grad_norm': 0.9713891744613647, 'learning_rate': 3.360881081523815e-05, 'epoch': 12.58}
+{'loss': 1.2607, 'grad_norm': 1.2316539287567139, 'learning_rate': 3.3563605596998354e-05, 'epoch': 12.58}
+{'loss': 1.2658, 'grad_norm': 1.0364990234375, 'learning_rate': 3.351841544119281e-05, 'epoch': 12.59}
+{'loss': 1.2657, 'grad_norm': 1.0314924716949463, 'learning_rate': 3.3473240389227854e-05, 'epoch': 12.6}
+{'loss': 1.2526, 'grad_norm': 1.1862787008285522, 'learning_rate': 3.342808048249589e-05, 'epoch': 12.6}
+{'loss': 1.2587, 'grad_norm': 0.9992510676383972, 'learning_rate': 3.338293576237555e-05, 'epoch': 12.61}
+{'loss': 1.2811, 'grad_norm': 1.094550609588623, 'learning_rate': 3.3337806270231456e-05, 'epoch': 12.61}
+{'loss': 1.2506, 'grad_norm': 0.9854142069816589, 'learning_rate': 3.329269204741435e-05, 'epoch': 12.62}
+{'loss': 1.2441, 'grad_norm': 0.9363583326339722, 'learning_rate': 3.3247593135260954e-05, 'epoch': 12.62}
+{'loss': 1.2374, 'grad_norm': 0.9072157740592957, 'learning_rate': 3.320250957509393e-05, 'epoch': 12.63}
+{'loss': 1.2427, 'grad_norm': 0.997549295425415, 'learning_rate': 3.3157441408221946e-05, 'epoch': 12.64}
+[WARNING|trainer.py:761] 2025-05-16 01:37:48,263 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:37:48,263 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:37:54,804 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:37:54,804 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:37:54,825 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:37:54,825 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:01,668 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:01,668 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:01,688 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:01,688 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:07,961 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:07,962 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:07,982 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:07,982 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:14,408 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:14,408 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:14,428 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:14,428 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:21,053 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:21,053 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:21,076 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:21,076 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:28,520 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:28,521 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:28,540 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:28,540 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:35,071 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:35,071 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:35,092 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:35,092 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:41,021 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:41,022 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:41,042 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:41,042 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:47,622 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:47,622 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:47,643 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:47,643 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:38:54,916 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:54,916 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:54,937 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:38:54,937 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:39:01,300 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:01,301 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:01,321 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:01,321 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:39:08,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:08,418 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:08,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:08,438 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:39:15,249 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:15,249 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:15,269 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:15,269 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:39:21,593 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:21,594 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:21,614 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:21,614 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:39:29,278 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:29,279 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:29,299 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:29,299 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:39:33,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:33,781 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:33,801 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:39:33,801 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0694881677627563, 'eval_wer': 0.0892191208046107, 'eval_runtime': 121.1056, 'eval_samples_per_second': 13.137, 'eval_steps_per_second': 0.14, 'epoch': 12.64}
+{'loss': 1.2408, 'grad_norm': 1.0122162103652954, 'learning_rate': 3.3112388675939494e-05, 'epoch': 12.64}
+{'loss': 1.2548, 'grad_norm': 1.0155773162841797, 'learning_rate': 3.306735141952698e-05, 'epoch': 12.65}
+{'loss': 1.2448, 'grad_norm': 1.0692771673202515, 'learning_rate': 3.3022329680250605e-05, 'epoch': 12.65}
+{'loss': 1.2686, 'grad_norm': 0.9947674870491028, 'learning_rate': 3.2977323499362314e-05, 'epoch': 12.66}
+{'loss': 1.2434, 'grad_norm': 0.9661487936973572, 'learning_rate': 3.2932332918099876e-05, 'epoch': 12.67}
+{'loss': 1.2377, 'grad_norm': 1.0560882091522217, 'learning_rate': 3.288735797768669e-05, 'epoch': 12.67}
+{'loss': 1.2435, 'grad_norm': 1.0522441864013672, 'learning_rate': 3.2842398719331906e-05, 'epoch': 12.68}
+{'loss': 1.2457, 'grad_norm': 0.9267446398735046, 'learning_rate': 3.279745518423022e-05, 'epoch': 12.68}
+{'loss': 1.2522, 'grad_norm': 1.0738468170166016, 'learning_rate': 3.275252741356195e-05, 'epoch': 12.69}
+{'loss': 1.255, 'grad_norm': 1.0103540420532227, 'learning_rate': 3.2707615448492995e-05, 'epoch': 12.69}
+{'loss': 1.2417, 'grad_norm': 1.005452275276184, 'learning_rate': 3.266271933017476e-05, 'epoch': 12.7}
+{'loss': 1.2403, 'grad_norm': 1.0360212326049805, 'learning_rate': 3.261783909974413e-05, 'epoch': 12.71}
+{'loss': 1.2483, 'grad_norm': 0.938593327999115, 'learning_rate': 3.2572974798323406e-05, 'epoch': 12.71}
+{'loss': 1.2416, 'grad_norm': 1.0119835138320923, 'learning_rate': 3.2528126467020346e-05, 'epoch': 12.72}
+{'loss': 1.2364, 'grad_norm': 0.9499661922454834, 'learning_rate': 3.2483294146928014e-05, 'epoch': 12.72}
+{'loss': 1.2329, 'grad_norm': 0.9927830100059509, 'learning_rate': 3.243847787912484e-05, 'epoch': 12.73}
+{'loss': 1.2488, 'grad_norm': 1.033819556236267, 'learning_rate': 3.239367770467456e-05, 'epoch': 12.73}
+{'loss': 1.237, 'grad_norm': 1.0417524576187134, 'learning_rate': 3.2348893664626115e-05, 'epoch': 12.74}
+{'loss': 1.2343, 'grad_norm': 0.9829577207565308, 'learning_rate': 3.230412580001371e-05, 'epoch': 12.75}
+{'loss': 1.2463, 'grad_norm': 1.0233218669891357, 'learning_rate': 3.2259374151856724e-05, 'epoch': 12.75}
+{'loss': 1.2692, 'grad_norm': 1.0613200664520264, 'learning_rate': 3.2214638761159635e-05, 'epoch': 12.76}
+{'loss': 1.2563, 'grad_norm': 0.987410843372345, 'learning_rate': 3.2169919668912066e-05, 'epoch': 12.76}
+{'loss': 1.2236, 'grad_norm': 0.9725896120071411, 'learning_rate': 3.212521691608868e-05, 'epoch': 12.77}
+{'loss': 1.2574, 'grad_norm': 1.0240734815597534, 'learning_rate': 3.208053054364922e-05, 'epoch': 12.77}
+{'loss': 1.2579, 'grad_norm': 1.0398136377334595, 'learning_rate': 3.203586059253836e-05, 'epoch': 12.78}
+{'loss': 1.2539, 'grad_norm': 1.025903582572937, 'learning_rate': 3.199120710368573e-05, 'epoch': 12.79}
+{'loss': 1.2507, 'grad_norm': 0.9504820108413696, 'learning_rate': 3.194657011800593e-05, 'epoch': 12.79}
+{'loss': 1.253, 'grad_norm': 1.1003867387771606, 'learning_rate': 3.190194967639838e-05, 'epoch': 12.8}
+{'loss': 1.2495, 'grad_norm': 1.0308908224105835, 'learning_rate': 3.185734581974739e-05, 'epoch': 12.8}
+{'loss': 1.235, 'grad_norm': 0.9987902641296387, 'learning_rate': 3.1812758588922045e-05, 'epoch': 12.81}
+{'loss': 1.251, 'grad_norm': 0.9599257707595825, 'learning_rate': 3.176818802477617e-05, 'epoch': 12.81}
+{'loss': 1.2369, 'grad_norm': 1.0296530723571777, 'learning_rate': 3.172363416814839e-05, 'epoch': 12.82}
+{'loss': 1.2493, 'grad_norm': 0.9570682048797607, 'learning_rate': 3.167909705986196e-05, 'epoch': 12.83}
+{'loss': 1.2749, 'grad_norm': 1.0246185064315796, 'learning_rate': 3.163457674072482e-05, 'epoch': 12.83}
+{'loss': 1.2472, 'grad_norm': 1.042843222618103, 'learning_rate': 3.1590073251529524e-05, 'epoch': 12.84}
+{'loss': 1.2397, 'grad_norm': 0.9533725380897522, 'learning_rate': 3.1545586633053173e-05, 'epoch': 12.84}
+{'loss': 1.2495, 'grad_norm': 1.073738694190979, 'learning_rate': 3.150111692605746e-05, 'epoch': 12.85}
+{'loss': 1.253, 'grad_norm': 0.970797598361969, 'learning_rate': 3.1456664171288556e-05, 'epoch': 12.85}
+{'loss': 1.2473, 'grad_norm': 1.119827389717102, 'learning_rate': 3.141222840947709e-05, 'epoch': 12.86}
+{'loss': 1.257, 'grad_norm': 1.013615369796753, 'learning_rate': 3.136780968133816e-05, 'epoch': 12.87}
+{'loss': 1.2395, 'grad_norm': 1.1204568147659302, 'learning_rate': 3.1323408027571174e-05, 'epoch': 12.87}
+{'loss': 1.2319, 'grad_norm': 1.0731607675552368, 'learning_rate': 3.127902348886e-05, 'epoch': 12.88}
+{'loss': 1.2648, 'grad_norm': 1.1322605609893799, 'learning_rate': 3.123465610587274e-05, 'epoch': 12.88}
+{'loss': 1.2615, 'grad_norm': 1.0746358633041382, 'learning_rate': 3.1190305919261865e-05, 'epoch': 12.89}
+{'loss': 1.2632, 'grad_norm': 1.0055949687957764, 'learning_rate': 3.114597296966399e-05, 'epoch': 12.89}
+{'loss': 1.2579, 'grad_norm': 1.0397506952285767, 'learning_rate': 3.110165729769997e-05, 'epoch': 12.9}
+{'loss': 1.2484, 'grad_norm': 1.0291892290115356, 'learning_rate': 3.105735894397487e-05, 'epoch': 12.91}
+{'loss': 1.2496, 'grad_norm': 1.0710965394973755, 'learning_rate': 3.101307794907784e-05, 'epoch': 12.91}
+{'loss': 1.2731, 'grad_norm': 1.2363033294677734, 'learning_rate': 3.096881435358217e-05, 'epoch': 12.92}
+{'loss': 1.236, 'grad_norm': 1.0314826965332031, 'learning_rate': 3.0924568198045164e-05, 'epoch': 12.92}
+{'loss': 1.2726, 'grad_norm': 1.1028001308441162, 'learning_rate': 3.088033952300814e-05, 'epoch': 12.93}
+{'loss': 1.2563, 'grad_norm': 0.9568919539451599, 'learning_rate': 3.083612836899646e-05, 'epoch': 12.94}
+{'loss': 1.2386, 'grad_norm': 1.0045106410980225, 'learning_rate': 3.079193477651936e-05, 'epoch': 12.94}
+{'loss': 1.2591, 'grad_norm': 0.9620433449745178, 'learning_rate': 3.0747758786070044e-05, 'epoch': 12.95}
+{'loss': 1.2382, 'grad_norm': 1.0270787477493286, 'learning_rate': 3.070360043812553e-05, 'epoch': 12.95}
+{'loss': 1.2453, 'grad_norm': 1.0438264608383179, 'learning_rate': 3.0659459773146746e-05, 'epoch': 12.96}
+{'loss': 1.2453, 'grad_norm': 1.002175211906433, 'learning_rate': 3.0615336831578347e-05, 'epoch': 12.96}
+{'loss': 1.2472, 'grad_norm': 1.0425161123275757, 'learning_rate': 3.057123165384876e-05, 'epoch': 12.97}
+{'loss': 1.2487, 'grad_norm': 0.9981757998466492, 'learning_rate': 3.052714428037021e-05, 'epoch': 12.98}
+{'loss': 1.2571, 'grad_norm': 1.0290584564208984, 'learning_rate': 3.0483074751538482e-05, 'epoch': 12.98}
+{'loss': 1.2563, 'grad_norm': 0.9339661598205566, 'learning_rate': 3.043902310773312e-05, 'epoch': 12.99}
+{'loss': 1.2517, 'grad_norm': 1.0874369144439697, 'learning_rate': 3.039498938931724e-05, 'epoch': 12.99}
+{'loss': 1.2597, 'grad_norm': 1.0075799226760864, 'learning_rate': 3.03509736366375e-05, 'epoch': 13.0}
+{'loss': 1.2482, 'grad_norm': 0.9720813632011414, 'learning_rate': 3.030697589002417e-05, 'epoch': 13.0}
+{'loss': 1.2316, 'grad_norm': 0.9604555368423462, 'learning_rate': 3.026299618979095e-05, 'epoch': 13.01}
+{'loss': 1.2197, 'grad_norm': 1.0735442638397217, 'learning_rate': 3.0219034576235043e-05, 'epoch': 13.02}
+{'loss': 1.2381, 'grad_norm': 1.1345727443695068, 'learning_rate': 3.0175091089637093e-05, 'epoch': 13.02}
+{'loss': 1.2299, 'grad_norm': 1.0326781272888184, 'learning_rate': 3.0131165770261087e-05, 'epoch': 13.03}
+{'loss': 1.2204, 'grad_norm': 1.0122668743133545, 'learning_rate': 3.008725865835441e-05, 'epoch': 13.03}
+{'loss': 1.2183, 'grad_norm': 0.9963854551315308, 'learning_rate': 3.004336979414773e-05, 'epoch': 13.04}
+{'loss': 1.2172, 'grad_norm': 0.9391648173332214, 'learning_rate': 2.9999499217855038e-05, 'epoch': 13.04}
+{'loss': 1.2265, 'grad_norm': 0.9927622675895691, 'learning_rate': 2.9955646969673527e-05, 'epoch': 13.05}
+{'loss': 1.2267, 'grad_norm': 1.011696219444275, 'learning_rate': 2.99118130897836e-05, 'epoch': 13.06}
+{'loss': 1.2418, 'grad_norm': 1.04385244846344, 'learning_rate': 2.986799761834888e-05, 'epoch': 13.06}
+{'loss': 1.2238, 'grad_norm': 1.0134224891662598, 'learning_rate': 2.982420059551604e-05, 'epoch': 13.07}
+{'loss': 1.2041, 'grad_norm': 0.9780691266059875, 'learning_rate': 2.978042206141492e-05, 'epoch': 13.07}
+{'loss': 1.2422, 'grad_norm': 1.0055365562438965, 'learning_rate': 2.9736662056158405e-05, 'epoch': 13.08}
+{'loss': 1.2419, 'grad_norm': 0.9709728956222534, 'learning_rate': 2.9692920619842353e-05, 'epoch': 13.08}
+{'loss': 1.2198, 'grad_norm': 1.033838152885437, 'learning_rate': 2.9649197792545675e-05, 'epoch': 13.09}
+{'loss': 1.231, 'grad_norm': 0.9667700529098511, 'learning_rate': 2.960549361433019e-05, 'epoch': 13.1}
+{'loss': 1.2333, 'grad_norm': 0.9930551052093506, 'learning_rate': 2.9561808125240663e-05, 'epoch': 13.1}
+{'loss': 1.2274, 'grad_norm': 1.0348711013793945, 'learning_rate': 2.9518141365304704e-05, 'epoch': 13.11}
+{'loss': 1.2124, 'grad_norm': 1.003509521484375, 'learning_rate': 2.9474493374532743e-05, 'epoch': 13.11}
+{'loss': 1.2189, 'grad_norm': 1.1533737182617188, 'learning_rate': 2.943086419291806e-05, 'epoch': 13.12}
+{'loss': 1.2327, 'grad_norm': 0.988194465637207, 'learning_rate': 2.9387253860436685e-05, 'epoch': 13.12}
+{'loss': 1.236, 'grad_norm': 1.0287445783615112, 'learning_rate': 2.9343662417047396e-05, 'epoch': 13.13}
+{'loss': 1.2272, 'grad_norm': 0.9780846238136292, 'learning_rate': 2.930008990269161e-05, 'epoch': 13.14}
+{'loss': 1.2257, 'grad_norm': 0.9711022973060608, 'learning_rate': 2.9256536357293424e-05, 'epoch': 13.14}
+{'loss': 1.2346, 'grad_norm': 1.114785075187683, 'learning_rate': 2.9213001820759583e-05, 'epoch': 13.15}
+{'loss': 1.2381, 'grad_norm': 1.0094363689422607, 'learning_rate': 2.916948633297939e-05, 'epoch': 13.15}
+{'loss': 1.2226, 'grad_norm': 1.045957088470459, 'learning_rate': 2.912598993382468e-05, 'epoch': 13.16}
+{'loss': 1.2424, 'grad_norm': 1.175858974456787, 'learning_rate': 2.908251266314985e-05, 'epoch': 13.16}
+{'loss': 1.235, 'grad_norm': 0.9187557697296143, 'learning_rate': 2.90390545607917e-05, 'epoch': 13.17}
+{'loss': 1.2335, 'grad_norm': 0.9896097183227539, 'learning_rate': 2.8995615666569544e-05, 'epoch': 13.18}
+{'loss': 1.2168, 'grad_norm': 0.9177210927009583, 'learning_rate': 2.8952196020285e-05, 'epoch': 13.18}
+{'loss': 1.2454, 'grad_norm': 0.9632211327552795, 'learning_rate': 2.8908795661722155e-05, 'epoch': 13.19}
+{'loss': 1.2199, 'grad_norm': 1.0591082572937012, 'learning_rate': 2.8865414630647323e-05, 'epoch': 13.19}
+{'loss': 1.2242, 'grad_norm': 1.0240976810455322, 'learning_rate': 2.8822052966809215e-05, 'epoch': 13.2}
+{'loss': 1.2325, 'grad_norm': 0.9828415513038635, 'learning_rate': 2.8778710709938707e-05, 'epoch': 13.21}
+{'loss': 1.2471, 'grad_norm': 0.9983562231063843, 'learning_rate': 2.87353878997489e-05, 'epoch': 13.21}
+[WARNING|trainer.py:761] 2025-05-16 01:54:59,589 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:54:59,590 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:06,383 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:06,384 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:06,405 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:06,406 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:13,188 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:13,189 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:13,210 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:13,210 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:19,534 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:19,535 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:19,556 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:19,556 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:25,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:25,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:25,896 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:25,896 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:32,981 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:32,981 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:33,002 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:33,002 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:40,543 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:40,543 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:40,564 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:40,564 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:47,149 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:47,149 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:47,170 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:47,170 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:53,177 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:53,178 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:53,198 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:53,198 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:55:59,880 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:59,880 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:59,901 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:55:59,901 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:56:06,980 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:06,980 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:07,001 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:07,001 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:56:13,422 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:13,423 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:13,447 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:13,447 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:56:20,790 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:20,790 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:20,812 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:20,812 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:56:27,758 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:27,758 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:27,779 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:27,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:56:34,112 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:34,112 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:34,134 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:34,134 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:56:41,788 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:41,788 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:41,809 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:41,809 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 01:56:46,257 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:46,257 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:46,277 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 01:56:46,278 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0588030815124512, 'eval_wer': 0.08557464120239575, 'eval_runtime': 122.0845, 'eval_samples_per_second': 13.032, 'eval_steps_per_second': 0.139, 'epoch': 13.21}
+{'loss': 1.24, 'grad_norm': 0.9553768038749695, 'learning_rate': 2.8692084575935135e-05, 'epoch': 13.22}
+{'loss': 1.2232, 'grad_norm': 0.8903969526290894, 'learning_rate': 2.864880077817486e-05, 'epoch': 13.22}
+{'loss': 1.2307, 'grad_norm': 0.9967452883720398, 'learning_rate': 2.8605536546127658e-05, 'epoch': 13.23}
+{'loss': 1.2195, 'grad_norm': 1.0698235034942627, 'learning_rate': 2.8562291919435146e-05, 'epoch': 13.23}
+{'loss': 1.2226, 'grad_norm': 0.9739837050437927, 'learning_rate': 2.8519066937720973e-05, 'epoch': 13.24}
+{'loss': 1.2163, 'grad_norm': 1.014878511428833, 'learning_rate': 2.847586164059085e-05, 'epoch': 13.25}
+{'loss': 1.2345, 'grad_norm': 1.1119699478149414, 'learning_rate': 2.8432676067632363e-05, 'epoch': 13.25}
+{'loss': 1.2405, 'grad_norm': 1.0444631576538086, 'learning_rate': 2.838951025841513e-05, 'epoch': 13.26}
+{'loss': 1.2238, 'grad_norm': 1.0360527038574219, 'learning_rate': 2.8346364252490566e-05, 'epoch': 13.26}
+{'loss': 1.2506, 'grad_norm': 1.0620757341384888, 'learning_rate': 2.8303238089391982e-05, 'epoch': 13.27}
+{'loss': 1.2183, 'grad_norm': 0.9800290465354919, 'learning_rate': 2.8260131808634527e-05, 'epoch': 13.27}
+{'loss': 1.2316, 'grad_norm': 1.0119231939315796, 'learning_rate': 2.8217045449715092e-05, 'epoch': 13.28}
+{'loss': 1.222, 'grad_norm': 1.0038931369781494, 'learning_rate': 2.817397905211234e-05, 'epoch': 13.29}
+{'loss': 1.23, 'grad_norm': 1.0422852039337158, 'learning_rate': 2.8130932655286646e-05, 'epoch': 13.29}
+{'loss': 1.2369, 'grad_norm': 1.2609690427780151, 'learning_rate': 2.8087906298680018e-05, 'epoch': 13.3}
+{'loss': 1.2403, 'grad_norm': 0.9615899920463562, 'learning_rate': 2.804490002171617e-05, 'epoch': 13.3}
+{'loss': 1.2475, 'grad_norm': 1.066990852355957, 'learning_rate': 2.800191386380034e-05, 'epoch': 13.31}
+{'loss': 1.2261, 'grad_norm': 1.0014039278030396, 'learning_rate': 2.7958947864319412e-05, 'epoch': 13.31}
+{'loss': 1.2355, 'grad_norm': 1.010463833808899, 'learning_rate': 2.7916002062641733e-05, 'epoch': 13.32}
+{'loss': 1.2278, 'grad_norm': 1.3250781297683716, 'learning_rate': 2.787307649811718e-05, 'epoch': 13.33}
+{'loss': 1.2316, 'grad_norm': 1.0303561687469482, 'learning_rate': 2.7830171210077094e-05, 'epoch': 13.33}
+{'loss': 1.2257, 'grad_norm': 1.0535682439804077, 'learning_rate': 2.7787286237834193e-05, 'epoch': 13.34}
+{'loss': 1.2408, 'grad_norm': 1.1015154123306274, 'learning_rate': 2.7744421620682636e-05, 'epoch': 13.34}
+{'loss': 1.2442, 'grad_norm': 1.029428482055664, 'learning_rate': 2.7701577397897894e-05, 'epoch': 13.35}
+{'loss': 1.2237, 'grad_norm': 1.0226709842681885, 'learning_rate': 2.7658753608736726e-05, 'epoch': 13.35}
+{'loss': 1.2644, 'grad_norm': 1.0162632465362549, 'learning_rate': 2.761595029243726e-05, 'epoch': 13.36}
+{'loss': 1.2385, 'grad_norm': 0.9599072933197021, 'learning_rate': 2.7573167488218764e-05, 'epoch': 13.37}
+{'loss': 1.2263, 'grad_norm': 0.9452846050262451, 'learning_rate': 2.753040523528177e-05, 'epoch': 13.37}
+{'loss': 1.2265, 'grad_norm': 0.9728118181228638, 'learning_rate': 2.7487663572807992e-05, 'epoch': 13.38}
+{'loss': 1.2334, 'grad_norm': 1.0152369737625122, 'learning_rate': 2.7444942539960204e-05, 'epoch': 13.38}
+{'loss': 1.223, 'grad_norm': 0.9801512360572815, 'learning_rate': 2.7402242175882375e-05, 'epoch': 13.39}
+{'loss': 1.2292, 'grad_norm': 1.009696364402771, 'learning_rate': 2.7359562519699434e-05, 'epoch': 13.39}
+{'loss': 1.2197, 'grad_norm': 1.152689814567566, 'learning_rate': 2.7316903610517436e-05, 'epoch': 13.4}
+{'loss': 1.2333, 'grad_norm': 1.09321129322052, 'learning_rate': 2.7274265487423356e-05, 'epoch': 13.41}
+{'loss': 1.2236, 'grad_norm': 1.1807641983032227, 'learning_rate': 2.723164818948512e-05, 'epoch': 13.41}
+{'loss': 1.2364, 'grad_norm': 1.0430477857589722, 'learning_rate': 2.718905175575165e-05, 'epoch': 13.42}
+{'loss': 1.2427, 'grad_norm': 1.0594213008880615, 'learning_rate': 2.7146476225252647e-05, 'epoch': 13.42}
+{'loss': 1.2251, 'grad_norm': 0.9445695877075195, 'learning_rate': 2.7103921636998735e-05, 'epoch': 13.43}
+{'loss': 1.221, 'grad_norm': 1.036017894744873, 'learning_rate': 2.7061388029981333e-05, 'epoch': 13.43}
+{'loss': 1.2158, 'grad_norm': 1.6682243347167969, 'learning_rate': 2.701887544317263e-05, 'epoch': 13.44}
+{'loss': 1.2261, 'grad_norm': 0.8891414999961853, 'learning_rate': 2.6976383915525554e-05, 'epoch': 13.45}
+{'loss': 1.2463, 'grad_norm': 0.9824521541595459, 'learning_rate': 2.6933913485973693e-05, 'epoch': 13.45}
+{'loss': 1.2352, 'grad_norm': 0.9425431489944458, 'learning_rate': 2.6891464193431405e-05, 'epoch': 13.46}
+{'loss': 1.2335, 'grad_norm': 0.9886574745178223, 'learning_rate': 2.6849036076793564e-05, 'epoch': 13.46}
+{'loss': 1.2191, 'grad_norm': 1.0540603399276733, 'learning_rate': 2.6806629174935754e-05, 'epoch': 13.47}
+{'loss': 1.2313, 'grad_norm': 1.169461727142334, 'learning_rate': 2.676424352671403e-05, 'epoch': 13.48}
+{'loss': 1.2429, 'grad_norm': 0.9283115267753601, 'learning_rate': 2.6721879170965003e-05, 'epoch': 13.48}
+{'loss': 1.2523, 'grad_norm': 0.9985254406929016, 'learning_rate': 2.667953614650583e-05, 'epoch': 13.49}
+{'loss': 1.2378, 'grad_norm': 1.0303760766983032, 'learning_rate': 2.663721449213401e-05, 'epoch': 13.49}
+{'loss': 1.24, 'grad_norm': 1.1579179763793945, 'learning_rate': 2.6594914246627578e-05, 'epoch': 13.5}
+{'loss': 1.2366, 'grad_norm': 1.0409373044967651, 'learning_rate': 2.6552635448744872e-05, 'epoch': 13.5}
+{'loss': 1.2455, 'grad_norm': 1.0083309412002563, 'learning_rate': 2.6510378137224585e-05, 'epoch': 13.51}
+{'loss': 1.2384, 'grad_norm': 1.0123381614685059, 'learning_rate': 2.6468142350785786e-05, 'epoch': 13.52}
+{'loss': 1.2192, 'grad_norm': 1.0339261293411255, 'learning_rate': 2.642592812812774e-05, 'epoch': 13.52}
+{'loss': 1.2116, 'grad_norm': 0.8907485604286194, 'learning_rate': 2.638373550793003e-05, 'epoch': 13.53}
+{'loss': 1.2301, 'grad_norm': 0.9731130003929138, 'learning_rate': 2.634156452885236e-05, 'epoch': 13.53}
+{'loss': 1.218, 'grad_norm': 0.959918737411499, 'learning_rate': 2.629941522953468e-05, 'epoch': 13.54}
+{'loss': 1.2277, 'grad_norm': 1.192635178565979, 'learning_rate': 2.6257287648597073e-05, 'epoch': 13.54}
+{'loss': 1.2133, 'grad_norm': 1.036597728729248, 'learning_rate': 2.6215181824639647e-05, 'epoch': 13.55}
+{'loss': 1.2291, 'grad_norm': 1.0206176042556763, 'learning_rate': 2.6173097796242657e-05, 'epoch': 13.56}
+{'loss': 1.2176, 'grad_norm': 1.0097376108169556, 'learning_rate': 2.613103560196636e-05, 'epoch': 13.56}
+{'loss': 1.2231, 'grad_norm': 0.9872629046440125, 'learning_rate': 2.6088995280350958e-05, 'epoch': 13.57}
+{'loss': 1.2332, 'grad_norm': 1.01505446434021, 'learning_rate': 2.6046976869916712e-05, 'epoch': 13.57}
+{'loss': 1.25, 'grad_norm': 1.026518702507019, 'learning_rate': 2.6004980409163705e-05, 'epoch': 13.58}
+{'loss': 1.2366, 'grad_norm': 1.0941832065582275, 'learning_rate': 2.596300593657196e-05, 'epoch': 13.58}
+{'loss': 1.237, 'grad_norm': 0.9591879844665527, 'learning_rate': 2.5921053490601388e-05, 'epoch': 13.59}
+{'loss': 1.2458, 'grad_norm': 1.0955452919006348, 'learning_rate': 2.5879123109691635e-05, 'epoch': 13.6}
+{'loss': 1.2363, 'grad_norm': 1.0414639711380005, 'learning_rate': 2.5837214832262192e-05, 'epoch': 13.6}
+{'loss': 1.2187, 'grad_norm': 0.9564809203147888, 'learning_rate': 2.5795328696712246e-05, 'epoch': 13.61}
+{'loss': 1.2278, 'grad_norm': 0.9911343455314636, 'learning_rate': 2.5753464741420775e-05, 'epoch': 13.61}
+{'loss': 1.2483, 'grad_norm': 0.9907875657081604, 'learning_rate': 2.5711623004746348e-05, 'epoch': 13.62}
+{'loss': 1.2296, 'grad_norm': 0.9678093194961548, 'learning_rate': 2.5669803525027207e-05, 'epoch': 13.62}
+{'loss': 1.2111, 'grad_norm': 1.058763027191162, 'learning_rate': 2.5628006340581244e-05, 'epoch': 13.63}
+{'loss': 1.2418, 'grad_norm': 0.9545002579689026, 'learning_rate': 2.558623148970584e-05, 'epoch': 13.64}
+{'loss': 1.2363, 'grad_norm': 0.9811776876449585, 'learning_rate': 2.5544479010677984e-05, 'epoch': 13.64}
+{'loss': 1.2347, 'grad_norm': 1.0909405946731567, 'learning_rate': 2.5502748941754155e-05, 'epoch': 13.65}
+{'loss': 1.2231, 'grad_norm': 0.9519487023353577, 'learning_rate': 2.5461041321170243e-05, 'epoch': 13.65}
+{'loss': 1.2307, 'grad_norm': 0.944462776184082, 'learning_rate': 2.5419356187141652e-05, 'epoch': 13.66}
+{'loss': 1.2123, 'grad_norm': 0.9848902821540833, 'learning_rate': 2.5377693577863092e-05, 'epoch': 13.66}
+{'loss': 1.2451, 'grad_norm': 1.0787533521652222, 'learning_rate': 2.5336053531508737e-05, 'epoch': 13.67}
+{'loss': 1.2285, 'grad_norm': 0.9055966138839722, 'learning_rate': 2.529443608623198e-05, 'epoch': 13.68}
+{'loss': 1.2488, 'grad_norm': 1.0509308576583862, 'learning_rate': 2.5252841280165606e-05, 'epoch': 13.68}
+{'loss': 1.2443, 'grad_norm': 0.9895369410514832, 'learning_rate': 2.521126915142156e-05, 'epoch': 13.69}
+{'loss': 1.2213, 'grad_norm': 1.0254125595092773, 'learning_rate': 2.5169719738091092e-05, 'epoch': 13.69}
+{'loss': 1.2458, 'grad_norm': 0.9926055073738098, 'learning_rate': 2.5128193078244606e-05, 'epoch': 13.7}
+{'loss': 1.2353, 'grad_norm': 0.9813425540924072, 'learning_rate': 2.508668920993162e-05, 'epoch': 13.7}
+{'loss': 1.2543, 'grad_norm': 0.9867540597915649, 'learning_rate': 2.504520817118084e-05, 'epoch': 13.71}
+{'loss': 1.2295, 'grad_norm': 1.0961766242980957, 'learning_rate': 2.5003750000000016e-05, 'epoch': 13.72}
+{'loss': 1.2372, 'grad_norm': 1.0170906782150269, 'learning_rate': 2.4962314734375903e-05, 'epoch': 13.72}
+{'loss': 1.2597, 'grad_norm': 1.052619457244873, 'learning_rate': 2.4920902412274367e-05, 'epoch': 13.73}
+{'loss': 1.2159, 'grad_norm': 0.94364333152771, 'learning_rate': 2.4879513071640153e-05, 'epoch': 13.73}
+{'loss': 1.2217, 'grad_norm': 0.9344938397407532, 'learning_rate': 2.4838146750397033e-05, 'epoch': 13.74}
+{'loss': 1.2478, 'grad_norm': 0.9291685819625854, 'learning_rate': 2.479680348644761e-05, 'epoch': 13.74}
+{'loss': 1.218, 'grad_norm': 0.9887988567352295, 'learning_rate': 2.4755483317673416e-05, 'epoch': 13.75}
+{'loss': 1.2275, 'grad_norm': 1.0006673336029053, 'learning_rate': 2.4714186281934818e-05, 'epoch': 13.76}
+{'loss': 1.2175, 'grad_norm': 1.0098106861114502, 'learning_rate': 2.467291241707094e-05, 'epoch': 13.76}
+{'loss': 1.2232, 'grad_norm': 1.0578207969665527, 'learning_rate': 2.4631661760899736e-05, 'epoch': 13.77}
+{'loss': 1.2104, 'grad_norm': 0.9974209666252136, 'learning_rate': 2.459043435121785e-05, 'epoch': 13.77}
+{'loss': 1.2082, 'grad_norm': 1.015912413597107, 'learning_rate': 2.454923022580063e-05, 'epoch': 13.78}
+{'loss': 1.2125, 'grad_norm': 1.0176284313201904, 'learning_rate': 2.450804942240213e-05, 'epoch': 13.79}
+[WARNING|trainer.py:761] 2025-05-16 02:11:57,459 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:11:57,459 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:04,020 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:04,021 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:04,041 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:04,041 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:10,971 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:10,971 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:10,993 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:10,993 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:17,201 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:17,202 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:17,222 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:17,222 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:23,738 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:23,739 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:23,759 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:23,759 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:30,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:30,724 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:30,744 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:30,744 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:38,070 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:38,071 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:38,093 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:38,093 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:44,801 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:44,801 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:44,822 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:44,822 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:50,944 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:50,944 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:50,967 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:50,967 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:12:57,642 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:57,642 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:57,662 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:12:57,662 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:13:04,622 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:04,623 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:04,643 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:04,643 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:13:11,021 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:11,022 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:11,042 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:11,042 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:13:18,224 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:18,225 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:18,245 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:18,245 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:13:25,058 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:25,058 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:25,081 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:25,081 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:13:31,342 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:31,343 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:31,363 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:31,363 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:13:38,983 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:38,983 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:39,006 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:39,006 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:13:43,257 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:43,257 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:43,277 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:13:43,277 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0619091987609863, 'eval_wer': 0.087778280031642, 'eval_runtime': 121.1691, 'eval_samples_per_second': 13.13, 'eval_steps_per_second': 0.14, 'epoch': 13.79}
+{'loss': 1.2323, 'grad_norm': 1.0536777973175049, 'learning_rate': 2.446689197875498e-05, 'epoch': 13.79}
+{'loss': 1.2295, 'grad_norm': 1.0505125522613525, 'learning_rate': 2.4425757932570432e-05, 'epoch': 13.8}
+{'loss': 1.2154, 'grad_norm': 0.9551796317100525, 'learning_rate': 2.438464732153833e-05, 'epoch': 13.8}
+{'loss': 1.2203, 'grad_norm': 0.989189624786377, 'learning_rate': 2.434356018332698e-05, 'epoch': 13.81}
+{'loss': 1.2311, 'grad_norm': 1.0429370403289795, 'learning_rate': 2.4302496555583244e-05, 'epoch': 13.81}
+{'loss': 1.2467, 'grad_norm': 1.084020972251892, 'learning_rate': 2.426145647593239e-05, 'epoch': 13.82}
+{'loss': 1.2244, 'grad_norm': 0.9452738761901855, 'learning_rate': 2.422043998197815e-05, 'epoch': 13.83}
+{'loss': 1.2372, 'grad_norm': 1.0351113080978394, 'learning_rate': 2.417944711130263e-05, 'epoch': 13.83}
+{'loss': 1.2173, 'grad_norm': 1.043131947517395, 'learning_rate': 2.4138477901466256e-05, 'epoch': 13.84}
+{'loss': 1.2379, 'grad_norm': 1.017194151878357, 'learning_rate': 2.4097532390007852e-05, 'epoch': 13.84}
+{'loss': 1.2276, 'grad_norm': 0.9793208837509155, 'learning_rate': 2.4056610614444442e-05, 'epoch': 13.85}
+{'loss': 1.2177, 'grad_norm': 1.0079565048217773, 'learning_rate': 2.4015712612271366e-05, 'epoch': 13.85}
+{'loss': 1.2359, 'grad_norm': 1.075614094734192, 'learning_rate': 2.397483842096217e-05, 'epoch': 13.86}
+{'loss': 1.2285, 'grad_norm': 0.9938237071037292, 'learning_rate': 2.393398807796854e-05, 'epoch': 13.87}
+{'loss': 1.2554, 'grad_norm': 1.0977957248687744, 'learning_rate': 2.3893161620720377e-05, 'epoch': 13.87}
+{'loss': 1.2522, 'grad_norm': 1.1225249767303467, 'learning_rate': 2.3852359086625622e-05, 'epoch': 13.88}
+{'loss': 1.2193, 'grad_norm': 1.0598392486572266, 'learning_rate': 2.381158051307038e-05, 'epoch': 13.88}
+{'loss': 1.2353, 'grad_norm': 0.9928282499313354, 'learning_rate': 2.3770825937418726e-05, 'epoch': 13.89}
+{'loss': 1.2427, 'grad_norm': 1.024247646331787, 'learning_rate': 2.373009539701276e-05, 'epoch': 13.89}
+{'loss': 1.2163, 'grad_norm': 0.9893248677253723, 'learning_rate': 2.36893889291726e-05, 'epoch': 13.9}
+{'loss': 1.218, 'grad_norm': 0.9153217077255249, 'learning_rate': 2.36487065711963e-05, 'epoch': 13.91}
+{'loss': 1.2391, 'grad_norm': 0.9943744540214539, 'learning_rate': 2.3608048360359765e-05, 'epoch': 13.91}
+{'loss': 1.2227, 'grad_norm': 1.0962735414505005, 'learning_rate': 2.3567414333916867e-05, 'epoch': 13.92}
+{'loss': 1.232, 'grad_norm': 1.0162806510925293, 'learning_rate': 2.352680452909921e-05, 'epoch': 13.92}
+{'loss': 1.2315, 'grad_norm': 1.024606466293335, 'learning_rate': 2.348621898311631e-05, 'epoch': 13.93}
+{'loss': 1.2247, 'grad_norm': 0.9210469126701355, 'learning_rate': 2.3445657733155372e-05, 'epoch': 13.93}
+{'loss': 1.2463, 'grad_norm': 1.0622237920761108, 'learning_rate': 2.3405120816381412e-05, 'epoch': 13.94}
+{'loss': 1.2414, 'grad_norm': 1.0887614488601685, 'learning_rate': 2.336460826993707e-05, 'epoch': 13.95}
+{'loss': 1.2, 'grad_norm': 0.9074932932853699, 'learning_rate': 2.332412013094274e-05, 'epoch': 13.95}
+{'loss': 1.2436, 'grad_norm': 1.0141096115112305, 'learning_rate': 2.3283656436496378e-05, 'epoch': 13.96}
+{'loss': 1.2228, 'grad_norm': 0.9717239737510681, 'learning_rate': 2.324321722367359e-05, 'epoch': 13.96}
+{'loss': 1.2488, 'grad_norm': 1.0706043243408203, 'learning_rate': 2.320280252952755e-05, 'epoch': 13.97}
+{'loss': 1.2416, 'grad_norm': 0.9823508262634277, 'learning_rate': 2.3162412391088918e-05, 'epoch': 13.97}
+{'loss': 1.2404, 'grad_norm': 1.0465178489685059, 'learning_rate': 2.312204684536593e-05, 'epoch': 13.98}
+{'loss': 1.2414, 'grad_norm': 1.1321772336959839, 'learning_rate': 2.3081705929344234e-05, 'epoch': 13.99}
+{'loss': 1.2296, 'grad_norm': 1.0251168012619019, 'learning_rate': 2.3041389679986896e-05, 'epoch': 13.99}
+{'loss': 1.2338, 'grad_norm': 1.0465214252471924, 'learning_rate': 2.300109813423444e-05, 'epoch': 14.0}
+{'loss': 1.2389, 'grad_norm': 1.0605627298355103, 'learning_rate': 2.29608313290047e-05, 'epoch': 14.0}
+{'loss': 1.2097, 'grad_norm': 1.0412893295288086, 'learning_rate': 2.29205893011929e-05, 'epoch': 14.01}
+{'loss': 1.2198, 'grad_norm': 1.0431143045425415, 'learning_rate': 2.2880372087671476e-05, 'epoch': 14.01}
+{'loss': 1.2208, 'grad_norm': 0.9980940222740173, 'learning_rate': 2.2840179725290204e-05, 'epoch': 14.02}
+{'loss': 1.2142, 'grad_norm': 1.017864465713501, 'learning_rate': 2.2800012250876087e-05, 'epoch': 14.03}
+{'loss': 1.1941, 'grad_norm': 1.0230566263198853, 'learning_rate': 2.2759869701233248e-05, 'epoch': 14.03}
+{'loss': 1.2045, 'grad_norm': 0.939879834651947, 'learning_rate': 2.2719752113143074e-05, 'epoch': 14.04}
+{'loss': 1.204, 'grad_norm': 0.9331865906715393, 'learning_rate': 2.267965952336401e-05, 'epoch': 14.04}
+{'loss': 1.225, 'grad_norm': 1.0055807828903198, 'learning_rate': 2.2639591968631596e-05, 'epoch': 14.05}
+{'loss': 1.2118, 'grad_norm': 0.9420186281204224, 'learning_rate': 2.2599549485658487e-05, 'epoch': 14.06}
+{'loss': 1.2139, 'grad_norm': 0.9405049681663513, 'learning_rate': 2.2559532111134298e-05, 'epoch': 14.06}
+{'loss': 1.215, 'grad_norm': 1.0664889812469482, 'learning_rate': 2.2519539881725692e-05, 'epoch': 14.07}
+{'loss': 1.238, 'grad_norm': 0.9530662894248962, 'learning_rate': 2.247957283407629e-05, 'epoch': 14.07}
+{'loss': 1.2432, 'grad_norm': 1.040010929107666, 'learning_rate': 2.2439631004806593e-05, 'epoch': 14.08}
+{'loss': 1.1997, 'grad_norm': 0.9727911949157715, 'learning_rate': 2.2399714430514043e-05, 'epoch': 14.08}
+{'loss': 1.2534, 'grad_norm': 0.9158945679664612, 'learning_rate': 2.2359823147772902e-05, 'epoch': 14.09}
+{'loss': 1.2164, 'grad_norm': 0.9205055236816406, 'learning_rate': 2.2319957193134302e-05, 'epoch': 14.1}
+{'loss': 1.23, 'grad_norm': 1.0510560274124146, 'learning_rate': 2.2280116603126145e-05, 'epoch': 14.1}
+{'loss': 1.205, 'grad_norm': 0.9652541875839233, 'learning_rate': 2.2240301414253058e-05, 'epoch': 14.11}
+{'loss': 1.2223, 'grad_norm': 1.0684396028518677, 'learning_rate': 2.220051166299647e-05, 'epoch': 14.11}
+{'loss': 1.2192, 'grad_norm': 0.9396750926971436, 'learning_rate': 2.2160747385814422e-05, 'epoch': 14.12}
+{'loss': 1.2215, 'grad_norm': 1.0323659181594849, 'learning_rate': 2.2121008619141676e-05, 'epoch': 14.12}
+{'loss': 1.2476, 'grad_norm': 1.0589594841003418, 'learning_rate': 2.208129539938961e-05, 'epoch': 14.13}
+{'loss': 1.2275, 'grad_norm': 0.9992800951004028, 'learning_rate': 2.204160776294614e-05, 'epoch': 14.14}
+{'loss': 1.2274, 'grad_norm': 0.9543492197990417, 'learning_rate': 2.200194574617582e-05, 'epoch': 14.14}
+{'loss': 1.2171, 'grad_norm': 0.9667035937309265, 'learning_rate': 2.1962309385419655e-05, 'epoch': 14.15}
+{'loss': 1.2041, 'grad_norm': 1.0217777490615845, 'learning_rate': 2.192269871699521e-05, 'epoch': 14.15}
+{'loss': 1.2276, 'grad_norm': 0.9827529191970825, 'learning_rate': 2.188311377719646e-05, 'epoch': 14.16}
+{'loss': 1.2354, 'grad_norm': 0.9652236104011536, 'learning_rate': 2.184355460229381e-05, 'epoch': 14.16}
+{'loss': 1.2382, 'grad_norm': 1.102372646331787, 'learning_rate': 2.1804021228534077e-05, 'epoch': 14.17}
+{'loss': 1.2267, 'grad_norm': 0.9392674565315247, 'learning_rate': 2.176451369214043e-05, 'epoch': 14.18}
+{'loss': 1.2246, 'grad_norm': 0.967389702796936, 'learning_rate': 2.172503202931239e-05, 'epoch': 14.18}
+{'loss': 1.2129, 'grad_norm': 1.061562418937683, 'learning_rate': 2.1685576276225707e-05, 'epoch': 14.19}
+{'loss': 1.2152, 'grad_norm': 1.068269968032837, 'learning_rate': 2.164614646903246e-05, 'epoch': 14.19}
+{'loss': 1.2033, 'grad_norm': 0.9657204151153564, 'learning_rate': 2.1606742643860903e-05, 'epoch': 14.2}
+{'loss': 1.2323, 'grad_norm': 1.0366562604904175, 'learning_rate': 2.156736483681549e-05, 'epoch': 14.2}
+{'loss': 1.2072, 'grad_norm': 1.034131407737732, 'learning_rate': 2.152801308397689e-05, 'epoch': 14.21}
+{'loss': 1.2291, 'grad_norm': 0.977993905544281, 'learning_rate': 2.1488687421401806e-05, 'epoch': 14.22}
+{'loss': 1.238, 'grad_norm': 1.0195544958114624, 'learning_rate': 2.144938788512314e-05, 'epoch': 14.22}
+{'loss': 1.2294, 'grad_norm': 0.9511464238166809, 'learning_rate': 2.1410114511149752e-05, 'epoch': 14.23}
+{'loss': 1.2182, 'grad_norm': 1.0745797157287598, 'learning_rate': 2.1370867335466615e-05, 'epoch': 14.23}
+{'loss': 1.1998, 'grad_norm': 0.9654967784881592, 'learning_rate': 2.1331646394034675e-05, 'epoch': 14.24}
+{'loss': 1.2385, 'grad_norm': 1.0536357164382935, 'learning_rate': 2.1292451722790784e-05, 'epoch': 14.24}
+{'loss': 1.2212, 'grad_norm': 1.0275930166244507, 'learning_rate': 2.1253283357647812e-05, 'epoch': 14.25}
+{'loss': 1.2286, 'grad_norm': 0.9694525599479675, 'learning_rate': 2.1214141334494466e-05, 'epoch': 14.26}
+{'loss': 1.2172, 'grad_norm': 0.9446169137954712, 'learning_rate': 2.117502568919531e-05, 'epoch': 14.26}
+{'loss': 1.2329, 'grad_norm': 1.020424485206604, 'learning_rate': 2.11359364575908e-05, 'epoch': 14.27}
+{'loss': 1.2319, 'grad_norm': 1.0075353384017944, 'learning_rate': 2.1096873675497118e-05, 'epoch': 14.27}
+{'loss': 1.1959, 'grad_norm': 1.0493297576904297, 'learning_rate': 2.1057837378706257e-05, 'epoch': 14.28}
+{'loss': 1.2303, 'grad_norm': 1.0635554790496826, 'learning_rate': 2.101882760298595e-05, 'epoch': 14.28}
+{'loss': 1.2118, 'grad_norm': 0.9816174507141113, 'learning_rate': 2.097984438407957e-05, 'epoch': 14.29}
+{'loss': 1.2054, 'grad_norm': 0.9723330140113831, 'learning_rate': 2.0940887757706244e-05, 'epoch': 14.3}
+{'loss': 1.1977, 'grad_norm': 1.0326104164123535, 'learning_rate': 2.090195775956063e-05, 'epoch': 14.3}
+{'loss': 1.2239, 'grad_norm': 0.9113220572471619, 'learning_rate': 2.0863054425313096e-05, 'epoch': 14.31}
+{'loss': 1.2089, 'grad_norm': 1.0533758401870728, 'learning_rate': 2.08241777906095e-05, 'epoch': 14.31}
+{'loss': 1.2031, 'grad_norm': 1.024215579032898, 'learning_rate': 2.0785327891071247e-05, 'epoch': 14.32}
+{'loss': 1.211, 'grad_norm': 1.2030800580978394, 'learning_rate': 2.074650476229529e-05, 'epoch': 14.33}
+{'loss': 1.2509, 'grad_norm': 1.03361177444458, 'learning_rate': 2.070770843985399e-05, 'epoch': 14.33}
+{'loss': 1.2166, 'grad_norm': 1.013210654258728, 'learning_rate': 2.06689389592952e-05, 'epoch': 14.34}
+{'loss': 1.1984, 'grad_norm': 1.0044347047805786, 'learning_rate': 2.0630196356142172e-05, 'epoch': 14.34}
+{'loss': 1.213, 'grad_norm': 1.1455705165863037, 'learning_rate': 2.059148066589348e-05, 'epoch': 14.35}
+{'loss': 1.2113, 'grad_norm': 0.9642274379730225, 'learning_rate': 2.055279192402312e-05, 'epoch': 14.35}
+{'loss': 1.2086, 'grad_norm': 1.0105242729187012, 'learning_rate': 2.0514130165980297e-05, 'epoch': 14.36}
+[WARNING|trainer.py:761] 2025-05-16 02:29:06,849 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:06,849 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:13,405 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:13,406 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:13,426 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:13,426 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:20,159 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:20,160 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:20,180 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:20,180 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:26,368 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:26,368 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:26,388 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:26,389 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:32,819 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:32,819 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:32,839 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:32,839 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:39,598 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:39,599 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:39,620 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:39,620 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:47,066 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:47,067 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:47,088 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:47,088 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:53,782 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:53,782 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:53,804 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:53,805 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:29:59,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:59,922 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:59,943 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:29:59,943 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:06,607 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:06,607 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:06,629 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:06,629 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:13,636 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:13,636 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:13,657 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:13,658 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:20,067 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:20,068 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:20,091 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:20,092 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:27,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:27,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:27,332 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:27,333 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:34,382 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:34,382 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:34,403 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:34,403 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:40,791 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:40,791 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:40,813 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:40,813 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:48,393 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:48,393 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:48,414 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:48,414 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:30:52,658 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:52,659 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:52,678 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:30:52,678 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0593957901000977, 'eval_wer': 0.08608317323991412, 'eval_runtime': 121.3666, 'eval_samples_per_second': 13.109, 'eval_steps_per_second': 0.14, 'epoch': 14.36}
+{'loss': 1.2109, 'grad_norm': 1.089063048362732, 'learning_rate': 2.0475495427189602e-05, 'epoch': 14.37}
+{'loss': 1.2312, 'grad_norm': 1.0358047485351562, 'learning_rate': 2.0436887743050785e-05, 'epoch': 14.37}
+{'loss': 1.2302, 'grad_norm': 1.117578387260437, 'learning_rate': 2.0398307148938818e-05, 'epoch': 14.38}
+{'loss': 1.1883, 'grad_norm': 1.0078582763671875, 'learning_rate': 2.0359753680203885e-05, 'epoch': 14.38}
+{'loss': 1.2141, 'grad_norm': 1.0129399299621582, 'learning_rate': 2.0321227372171307e-05, 'epoch': 14.39}
+{'loss': 1.2164, 'grad_norm': 1.097625970840454, 'learning_rate': 2.028272826014151e-05, 'epoch': 14.39}
+{'loss': 1.2005, 'grad_norm': 1.108125925064087, 'learning_rate': 2.024425637939e-05, 'epoch': 14.4}
+{'loss': 1.2327, 'grad_norm': 0.993674635887146, 'learning_rate': 2.0205811765167314e-05, 'epoch': 14.41}
+{'loss': 1.2324, 'grad_norm': 1.1155519485473633, 'learning_rate': 2.0167394452699055e-05, 'epoch': 14.41}
+{'loss': 1.2309, 'grad_norm': 1.074629545211792, 'learning_rate': 2.0129004477185746e-05, 'epoch': 14.42}
+{'loss': 1.225, 'grad_norm': 1.0510847568511963, 'learning_rate': 2.0090641873802928e-05, 'epoch': 14.42}
+{'loss': 1.2274, 'grad_norm': 1.0449714660644531, 'learning_rate': 2.005230667770101e-05, 'epoch': 14.43}
+{'loss': 1.1983, 'grad_norm': 1.1334681510925293, 'learning_rate': 2.0013998924005328e-05, 'epoch': 14.43}
+{'loss': 1.2274, 'grad_norm': 0.948148250579834, 'learning_rate': 1.997571864781602e-05, 'epoch': 14.44}
+{'loss': 1.2123, 'grad_norm': 0.9665245413780212, 'learning_rate': 1.9937465884208113e-05, 'epoch': 14.45}
+{'loss': 1.2072, 'grad_norm': 1.0260932445526123, 'learning_rate': 1.9899240668231394e-05, 'epoch': 14.45}
+{'loss': 1.2143, 'grad_norm': 1.0720040798187256, 'learning_rate': 1.986104303491038e-05, 'epoch': 14.46}
+{'loss': 1.2226, 'grad_norm': 1.108367681503296, 'learning_rate': 1.9822873019244378e-05, 'epoch': 14.46}
+{'loss': 1.2209, 'grad_norm': 0.973435640335083, 'learning_rate': 1.9784730656207343e-05, 'epoch': 14.47}
+{'loss': 1.2345, 'grad_norm': 1.114501714706421, 'learning_rate': 1.974661598074788e-05, 'epoch': 14.47}
+{'loss': 1.2116, 'grad_norm': 0.8884481191635132, 'learning_rate': 1.9708529027789286e-05, 'epoch': 14.48}
+{'loss': 1.2274, 'grad_norm': 0.9580786824226379, 'learning_rate': 1.967046983222939e-05, 'epoch': 14.49}
+{'loss': 1.2077, 'grad_norm': 1.047084927558899, 'learning_rate': 1.963243842894063e-05, 'epoch': 14.49}
+{'loss': 1.2192, 'grad_norm': 1.1091161966323853, 'learning_rate': 1.9594434852769982e-05, 'epoch': 14.5}
+{'loss': 1.2207, 'grad_norm': 1.1419296264648438, 'learning_rate': 1.955645913853889e-05, 'epoch': 14.5}
+{'loss': 1.2002, 'grad_norm': 0.9813277721405029, 'learning_rate': 1.9518511321043305e-05, 'epoch': 14.51}
+{'loss': 1.2263, 'grad_norm': 0.9757702946662903, 'learning_rate': 1.9480591435053577e-05, 'epoch': 14.51}
+{'loss': 1.2213, 'grad_norm': 1.0747148990631104, 'learning_rate': 1.944269951531452e-05, 'epoch': 14.52}
+{'loss': 1.2205, 'grad_norm': 1.0319701433181763, 'learning_rate': 1.940483559654527e-05, 'epoch': 14.53}
+{'loss': 1.2032, 'grad_norm': 1.0581765174865723, 'learning_rate': 1.9366999713439317e-05, 'epoch': 14.53}
+{'loss': 1.2185, 'grad_norm': 1.0285146236419678, 'learning_rate': 1.9329191900664502e-05, 'epoch': 14.54}
+{'loss': 1.2142, 'grad_norm': 1.0385221242904663, 'learning_rate': 1.9291412192862882e-05, 'epoch': 14.54}
+{'loss': 1.2249, 'grad_norm': 1.051267385482788, 'learning_rate': 1.925366062465082e-05, 'epoch': 14.55}
+{'loss': 1.2199, 'grad_norm': 0.9933992624282837, 'learning_rate': 1.9215937230618887e-05, 'epoch': 14.55}
+{'loss': 1.2047, 'grad_norm': 1.0396558046340942, 'learning_rate': 1.917824204533179e-05, 'epoch': 14.56}
+{'loss': 1.2137, 'grad_norm': 0.9974486827850342, 'learning_rate': 1.9140575103328458e-05, 'epoch': 14.57}
+{'loss': 1.2289, 'grad_norm': 1.0098021030426025, 'learning_rate': 1.9102936439121875e-05, 'epoch': 14.57}
+{'loss': 1.2322, 'grad_norm': 0.8930213451385498, 'learning_rate': 1.906532608719918e-05, 'epoch': 14.58}
+{'loss': 1.2089, 'grad_norm': 0.9245844483375549, 'learning_rate': 1.9027744082021522e-05, 'epoch': 14.58}
+{'loss': 1.2083, 'grad_norm': 1.0075827836990356, 'learning_rate': 1.8990190458024077e-05, 'epoch': 14.59}
+{'loss': 1.2129, 'grad_norm': 1.068303108215332, 'learning_rate': 1.8952665249616052e-05, 'epoch': 14.6}
+{'loss': 1.2246, 'grad_norm': 0.9758381247520447, 'learning_rate': 1.8915168491180593e-05, 'epoch': 14.6}
+{'loss': 1.2073, 'grad_norm': 0.9314061999320984, 'learning_rate': 1.88777002170748e-05, 'epoch': 14.61}
+{'loss': 1.2079, 'grad_norm': 0.9090464115142822, 'learning_rate': 1.884026046162964e-05, 'epoch': 14.61}
+{'loss': 1.24, 'grad_norm': 1.012971043586731, 'learning_rate': 1.880284925914995e-05, 'epoch': 14.62}
+{'loss': 1.1976, 'grad_norm': 0.982789158821106, 'learning_rate': 1.8765466643914452e-05, 'epoch': 14.62}
+{'loss': 1.1945, 'grad_norm': 0.9931904077529907, 'learning_rate': 1.8728112650175616e-05, 'epoch': 14.63}
+{'loss': 1.2369, 'grad_norm': 1.1287841796875, 'learning_rate': 1.8690787312159744e-05, 'epoch': 14.64}
+{'loss': 1.2278, 'grad_norm': 0.9044769406318665, 'learning_rate': 1.865349066406683e-05, 'epoch': 14.64}
+{'loss': 1.2289, 'grad_norm': 1.0848132371902466, 'learning_rate': 1.8616222740070592e-05, 'epoch': 14.65}
+{'loss': 1.1974, 'grad_norm': 0.9106241464614868, 'learning_rate': 1.857898357431846e-05, 'epoch': 14.65}
+{'loss': 1.2334, 'grad_norm': 1.0156275033950806, 'learning_rate': 1.8541773200931487e-05, 'epoch': 14.66}
+{'loss': 1.2123, 'grad_norm': 1.0207141637802124, 'learning_rate': 1.850459165400436e-05, 'epoch': 14.66}
+{'loss': 1.246, 'grad_norm': 0.9943966865539551, 'learning_rate': 1.8467438967605322e-05, 'epoch': 14.67}
+{'loss': 1.2132, 'grad_norm': 0.9694631099700928, 'learning_rate': 1.8430315175776226e-05, 'epoch': 14.68}
+{'loss': 1.212, 'grad_norm': 1.0691896677017212, 'learning_rate': 1.8393220312532396e-05, 'epoch': 14.68}
+{'loss': 1.2189, 'grad_norm': 0.967818558216095, 'learning_rate': 1.8356154411862655e-05, 'epoch': 14.69}
+{'loss': 1.2235, 'grad_norm': 0.9793399572372437, 'learning_rate': 1.831911750772934e-05, 'epoch': 14.69}
+{'loss': 1.2139, 'grad_norm': 0.9611982703208923, 'learning_rate': 1.828210963406815e-05, 'epoch': 14.7}
+{'loss': 1.2317, 'grad_norm': 1.0509424209594727, 'learning_rate': 1.8245130824788237e-05, 'epoch': 14.7}
+{'loss': 1.2313, 'grad_norm': 0.9915058016777039, 'learning_rate': 1.820818111377212e-05, 'epoch': 14.71}
+{'loss': 1.2234, 'grad_norm': 1.0132150650024414, 'learning_rate': 1.8171260534875604e-05, 'epoch': 14.72}
+{'loss': 1.2068, 'grad_norm': 1.0299506187438965, 'learning_rate': 1.8134369121927874e-05, 'epoch': 14.72}
+{'loss': 1.2268, 'grad_norm': 0.9782707691192627, 'learning_rate': 1.8097506908731316e-05, 'epoch': 14.73}
+{'loss': 1.216, 'grad_norm': 0.9715372323989868, 'learning_rate': 1.8060673929061638e-05, 'epoch': 14.73}
+{'loss': 1.2265, 'grad_norm': 0.9990441799163818, 'learning_rate': 1.80238702166677e-05, 'epoch': 14.74}
+{'loss': 1.2174, 'grad_norm': 0.9666119813919067, 'learning_rate': 1.798709580527156e-05, 'epoch': 14.74}
+{'loss': 1.247, 'grad_norm': 1.1548281908035278, 'learning_rate': 1.795035072856847e-05, 'epoch': 14.75}
+{'loss': 1.2118, 'grad_norm': 1.0683759450912476, 'learning_rate': 1.7913635020226733e-05, 'epoch': 14.76}
+{'loss': 1.2155, 'grad_norm': 1.0158852338790894, 'learning_rate': 1.7876948713887797e-05, 'epoch': 14.76}
+{'loss': 1.2346, 'grad_norm': 0.9987695813179016, 'learning_rate': 1.784029184316618e-05, 'epoch': 14.77}
+{'loss': 1.2072, 'grad_norm': 1.07984459400177, 'learning_rate': 1.7803664441649354e-05, 'epoch': 14.77}
+{'loss': 1.2144, 'grad_norm': 1.0457539558410645, 'learning_rate': 1.7767066542897885e-05, 'epoch': 14.78}
+{'loss': 1.232, 'grad_norm': 1.0007987022399902, 'learning_rate': 1.7730498180445218e-05, 'epoch': 14.78}
+{'loss': 1.207, 'grad_norm': 0.9794312119483948, 'learning_rate': 1.7693959387797817e-05, 'epoch': 14.79}
+{'loss': 1.1933, 'grad_norm': 1.0783519744873047, 'learning_rate': 1.765745019843499e-05, 'epoch': 14.8}
+{'loss': 1.2129, 'grad_norm': 1.0177414417266846, 'learning_rate': 1.762097064580892e-05, 'epoch': 14.8}
+{'loss': 1.2239, 'grad_norm': 0.9529037475585938, 'learning_rate': 1.7584520763344678e-05, 'epoch': 14.81}
+{'loss': 1.1922, 'grad_norm': 0.9531726241111755, 'learning_rate': 1.7548100584440135e-05, 'epoch': 14.81}
+{'loss': 1.1997, 'grad_norm': 0.9784784317016602, 'learning_rate': 1.7511710142465952e-05, 'epoch': 14.82}
+{'loss': 1.2282, 'grad_norm': 0.9810519218444824, 'learning_rate': 1.74753494707655e-05, 'epoch': 14.82}
+{'loss': 1.2145, 'grad_norm': 0.982638955116272, 'learning_rate': 1.7439018602654902e-05, 'epoch': 14.83}
+{'loss': 1.2024, 'grad_norm': 0.9705809354782104, 'learning_rate': 1.7402717571422997e-05, 'epoch': 14.84}
+{'loss': 1.2163, 'grad_norm': 1.0295052528381348, 'learning_rate': 1.736644641033123e-05, 'epoch': 14.84}
+{'loss': 1.2159, 'grad_norm': 0.99381422996521, 'learning_rate': 1.7330205152613747e-05, 'epoch': 14.85}
+{'loss': 1.2219, 'grad_norm': 1.071428656578064, 'learning_rate': 1.729399383147723e-05, 'epoch': 14.85}
+{'loss': 1.22, 'grad_norm': 1.031275987625122, 'learning_rate': 1.725781248010094e-05, 'epoch': 14.86}
+{'loss': 1.2225, 'grad_norm': 1.0345505475997925, 'learning_rate': 1.722166113163672e-05, 'epoch': 14.87}
+{'loss': 1.1921, 'grad_norm': 1.0205128192901611, 'learning_rate': 1.7185539819208894e-05, 'epoch': 14.87}
+{'loss': 1.229, 'grad_norm': 1.00784432888031, 'learning_rate': 1.7149448575914286e-05, 'epoch': 14.88}
+{'loss': 1.2114, 'grad_norm': 0.9938313364982605, 'learning_rate': 1.7113387434822123e-05, 'epoch': 14.88}
+{'loss': 1.2292, 'grad_norm': 1.09950590133667, 'learning_rate': 1.7077356428974066e-05, 'epoch': 14.89}
+{'loss': 1.2272, 'grad_norm': 1.1125129461288452, 'learning_rate': 1.7041355591384214e-05, 'epoch': 14.89}
+{'loss': 1.2249, 'grad_norm': 0.9555776715278625, 'learning_rate': 1.700538495503895e-05, 'epoch': 14.9}
+{'loss': 1.2001, 'grad_norm': 1.0296878814697266, 'learning_rate': 1.6969444552897054e-05, 'epoch': 14.91}
+{'loss': 1.2054, 'grad_norm': 1.0420628786087036, 'learning_rate': 1.6933534417889535e-05, 'epoch': 14.91}
+{'loss': 1.2044, 'grad_norm': 0.9140343070030212, 'learning_rate': 1.6897654582919716e-05, 'epoch': 14.92}
+{'loss': 1.2347, 'grad_norm': 0.995277464389801, 'learning_rate': 1.686180508086317e-05, 'epoch': 14.92}
+{'loss': 1.225, 'grad_norm': 0.9565374851226807, 'learning_rate': 1.682598594456761e-05, 'epoch': 14.93}
+{'loss': 1.2379, 'grad_norm': 1.0220321416854858, 'learning_rate': 1.6790197206853004e-05, 'epoch': 14.93}
+[WARNING|trainer.py:761] 2025-05-16 02:46:04,619 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:04,619 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:11,215 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:11,216 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:11,236 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:11,236 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:18,110 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:18,110 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:18,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:18,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:24,345 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:24,346 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:24,367 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:24,367 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:30,830 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:30,831 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:30,851 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:30,852 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:37,630 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:37,630 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:37,651 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:37,651 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:45,151 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:45,152 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:45,172 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:45,172 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:51,777 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:51,777 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:51,798 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:51,798 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:46:57,984 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:57,984 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:58,005 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:46:58,005 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:04,637 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:04,638 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:04,658 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:04,658 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:11,821 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:11,822 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:11,844 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:11,845 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:18,483 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:18,484 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:18,504 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:18,504 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:25,715 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:25,715 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:25,736 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:25,736 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:32,668 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:32,668 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:32,689 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:32,689 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:39,049 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:39,049 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:39,070 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:39,070 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:46,763 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:46,763 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:46,784 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:46,784 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 02:47:51,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:51,230 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:51,250 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 02:47:51,250 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.057450294494629, 'eval_wer': 0.08630918747881117, 'eval_runtime': 122.2652, 'eval_samples_per_second': 13.013, 'eval_steps_per_second': 0.139, 'epoch': 14.93}
+{'loss': 1.2218, 'grad_norm': 1.063464641571045, 'learning_rate': 1.67544389005114e-05, 'epoch': 14.94}
+{'loss': 1.247, 'grad_norm': 0.9798442125320435, 'learning_rate': 1.6718711058307017e-05, 'epoch': 14.95}
+{'loss': 1.2189, 'grad_norm': 0.999824047088623, 'learning_rate': 1.6683013712976128e-05, 'epoch': 14.95}
+{'loss': 1.2255, 'grad_norm': 1.012591004371643, 'learning_rate': 1.664734689722706e-05, 'epoch': 14.96}
+{'loss': 1.2255, 'grad_norm': 0.9571306705474854, 'learning_rate': 1.6611710643740194e-05, 'epoch': 14.96}
+{'loss': 1.2273, 'grad_norm': 1.0604947805404663, 'learning_rate': 1.6576104985167873e-05, 'epoch': 14.97}
+{'loss': 1.2183, 'grad_norm': 1.0356248617172241, 'learning_rate': 1.6540529954134434e-05, 'epoch': 14.97}
+{'loss': 1.2371, 'grad_norm': 1.0434683561325073, 'learning_rate': 1.650498558323616e-05, 'epoch': 14.98}
+{'loss': 1.2066, 'grad_norm': 1.0114096403121948, 'learning_rate': 1.64694719050412e-05, 'epoch': 14.99}
+{'loss': 1.2161, 'grad_norm': 1.0262424945831299, 'learning_rate': 1.6433988952089623e-05, 'epoch': 14.99}
+{'loss': 1.2244, 'grad_norm': 0.999446451663971, 'learning_rate': 1.63985367568933e-05, 'epoch': 15.0}
+{'loss': 1.2119, 'grad_norm': 0.973579466342926, 'learning_rate': 1.636311535193598e-05, 'epoch': 15.0}
+{'loss': 1.2061, 'grad_norm': 1.0167733430862427, 'learning_rate': 1.632772476967315e-05, 'epoch': 15.01}
+{'loss': 1.1875, 'grad_norm': 0.9677587747573853, 'learning_rate': 1.6292365042532053e-05, 'epoch': 15.01}
+{'loss': 1.2005, 'grad_norm': 0.9801494479179382, 'learning_rate': 1.6257036202911688e-05, 'epoch': 15.02}
+{'loss': 1.1977, 'grad_norm': 0.9402710795402527, 'learning_rate': 1.6221738283182757e-05, 'epoch': 15.03}
+{'loss': 1.1928, 'grad_norm': 0.977249801158905, 'learning_rate': 1.618647131568762e-05, 'epoch': 15.03}
+{'loss': 1.2096, 'grad_norm': 1.024449348449707, 'learning_rate': 1.6151235332740262e-05, 'epoch': 15.04}
+{'loss': 1.208, 'grad_norm': 0.8933520913124084, 'learning_rate': 1.6116030366626283e-05, 'epoch': 15.04}
+{'loss': 1.2106, 'grad_norm': 0.9599255919456482, 'learning_rate': 1.608085644960289e-05, 'epoch': 15.05}
+{'loss': 1.2126, 'grad_norm': 1.0584702491760254, 'learning_rate': 1.6045713613898794e-05, 'epoch': 15.05}
+{'loss': 1.1861, 'grad_norm': 1.0307273864746094, 'learning_rate': 1.601060189171428e-05, 'epoch': 15.06}
+{'loss': 1.2033, 'grad_norm': 1.0065584182739258, 'learning_rate': 1.597552131522109e-05, 'epoch': 15.07}
+{'loss': 1.2197, 'grad_norm': 0.9939149022102356, 'learning_rate': 1.5940471916562417e-05, 'epoch': 15.07}
+{'loss': 1.1874, 'grad_norm': 0.9140249490737915, 'learning_rate': 1.5905453727852918e-05, 'epoch': 15.08}
+{'loss': 1.2016, 'grad_norm': 0.9340547323226929, 'learning_rate': 1.587046678117865e-05, 'epoch': 15.08}
+{'loss': 1.2326, 'grad_norm': 0.9199875593185425, 'learning_rate': 1.583551110859704e-05, 'epoch': 15.09}
+{'loss': 1.2127, 'grad_norm': 1.003050446510315, 'learning_rate': 1.5800586742136862e-05, 'epoch': 15.09}
+{'loss': 1.2017, 'grad_norm': 1.009954571723938, 'learning_rate': 1.5765693713798156e-05, 'epoch': 15.1}
+{'loss': 1.2086, 'grad_norm': 1.0128146409988403, 'learning_rate': 1.5730832055552337e-05, 'epoch': 15.11}
+{'loss': 1.207, 'grad_norm': 0.9843529462814331, 'learning_rate': 1.569600179934199e-05, 'epoch': 15.11}
+{'loss': 1.2059, 'grad_norm': 1.0136809349060059, 'learning_rate': 1.5661202977081003e-05, 'epoch': 15.12}
+{'loss': 1.1945, 'grad_norm': 0.9684053659439087, 'learning_rate': 1.56264356206544e-05, 'epoch': 15.12}
+{'loss': 1.2, 'grad_norm': 1.0100078582763672, 'learning_rate': 1.5591699761918404e-05, 'epoch': 15.13}
+{'loss': 1.206, 'grad_norm': 0.9501697421073914, 'learning_rate': 1.5556995432700398e-05, 'epoch': 15.13}
+{'loss': 1.2397, 'grad_norm': 0.969898521900177, 'learning_rate': 1.5522322664798815e-05, 'epoch': 15.14}
+{'loss': 1.204, 'grad_norm': 1.0443209409713745, 'learning_rate': 1.5487681489983243e-05, 'epoch': 15.15}
+{'loss': 1.2084, 'grad_norm': 1.0347651243209839, 'learning_rate': 1.5453071939994268e-05, 'epoch': 15.15}
+{'loss': 1.213, 'grad_norm': 0.9488282203674316, 'learning_rate': 1.5418494046543493e-05, 'epoch': 15.16}
+{'loss': 1.2372, 'grad_norm': 1.0040168762207031, 'learning_rate': 1.5383947841313576e-05, 'epoch': 15.16}
+{'loss': 1.2067, 'grad_norm': 1.0397101640701294, 'learning_rate': 1.534943335595807e-05, 'epoch': 15.17}
+{'loss': 1.2078, 'grad_norm': 0.9035594463348389, 'learning_rate': 1.5314950622101527e-05, 'epoch': 15.18}
+{'loss': 1.205, 'grad_norm': 0.9689311385154724, 'learning_rate': 1.5280499671339345e-05, 'epoch': 15.18}
+{'loss': 1.1817, 'grad_norm': 1.0225797891616821, 'learning_rate': 1.5246080535237839e-05, 'epoch': 15.19}
+{'loss': 1.2068, 'grad_norm': 1.2207682132720947, 'learning_rate': 1.5211693245334194e-05, 'epoch': 15.19}
+{'loss': 1.1952, 'grad_norm': 1.0378779172897339, 'learning_rate': 1.5177337833136343e-05, 'epoch': 15.2}
+{'loss': 1.1989, 'grad_norm': 0.9449943900108337, 'learning_rate': 1.514301433012309e-05, 'epoch': 15.2}
+{'loss': 1.2315, 'grad_norm': 1.0502628087997437, 'learning_rate': 1.5108722767743935e-05, 'epoch': 15.21}
+{'loss': 1.1943, 'grad_norm': 1.0287044048309326, 'learning_rate': 1.5074463177419179e-05, 'epoch': 15.22}
+{'loss': 1.2185, 'grad_norm': 0.9346133470535278, 'learning_rate': 1.5040235590539761e-05, 'epoch': 15.22}
+{'loss': 1.196, 'grad_norm': 0.9057783484458923, 'learning_rate': 1.500604003846732e-05, 'epoch': 15.23}
+{'loss': 1.1938, 'grad_norm': 0.9676570892333984, 'learning_rate': 1.4971876552534158e-05, 'epoch': 15.23}
+{'loss': 1.2041, 'grad_norm': 1.1092582941055298, 'learning_rate': 1.4937745164043218e-05, 'epoch': 15.24}
+{'loss': 1.1981, 'grad_norm': 1.1173124313354492, 'learning_rate': 1.4903645904267952e-05, 'epoch': 15.24}
+{'loss': 1.2139, 'grad_norm': 1.0028637647628784, 'learning_rate': 1.4869578804452464e-05, 'epoch': 15.25}
+{'loss': 1.2187, 'grad_norm': 1.071292757987976, 'learning_rate': 1.4835543895811321e-05, 'epoch': 15.26}
+{'loss': 1.2194, 'grad_norm': 1.0676053762435913, 'learning_rate': 1.4801541209529652e-05, 'epoch': 15.26}
+{'loss': 1.2018, 'grad_norm': 0.9352045655250549, 'learning_rate': 1.4767570776762996e-05, 'epoch': 15.27}
+{'loss': 1.2017, 'grad_norm': 0.922773003578186, 'learning_rate': 1.4733632628637418e-05, 'epoch': 15.27}
+{'loss': 1.209, 'grad_norm': 1.0585378408432007, 'learning_rate': 1.4699726796249333e-05, 'epoch': 15.28}
+{'loss': 1.2247, 'grad_norm': 0.938613772392273, 'learning_rate': 1.4665853310665572e-05, 'epoch': 15.28}
+{'loss': 1.1999, 'grad_norm': 1.286502480506897, 'learning_rate': 1.4632012202923332e-05, 'epoch': 15.29}
+{'loss': 1.2082, 'grad_norm': 0.9761466383934021, 'learning_rate': 1.4598203504030145e-05, 'epoch': 15.3}
+{'loss': 1.1948, 'grad_norm': 1.0073760747909546, 'learning_rate': 1.4564427244963854e-05, 'epoch': 15.3}
+{'loss': 1.2152, 'grad_norm': 1.2302110195159912, 'learning_rate': 1.4530683456672557e-05, 'epoch': 15.31}
+{'loss': 1.22, 'grad_norm': 1.0625994205474854, 'learning_rate': 1.4496972170074594e-05, 'epoch': 15.31}
+{'loss': 1.2128, 'grad_norm': 0.9122873544692993, 'learning_rate': 1.4463293416058565e-05, 'epoch': 15.32}
+{'loss': 1.2064, 'grad_norm': 0.9717715382575989, 'learning_rate': 1.442964722548322e-05, 'epoch': 15.32}
+{'loss': 1.2213, 'grad_norm': 0.9961033463478088, 'learning_rate': 1.4396033629177507e-05, 'epoch': 15.33}
+{'loss': 1.1985, 'grad_norm': 0.9851220846176147, 'learning_rate': 1.436245265794047e-05, 'epoch': 15.34}
+{'loss': 1.2056, 'grad_norm': 1.0120820999145508, 'learning_rate': 1.4328904342541302e-05, 'epoch': 15.34}
+{'loss': 1.2156, 'grad_norm': 0.8697179555892944, 'learning_rate': 1.4295388713719232e-05, 'epoch': 15.35}
+{'loss': 1.2147, 'grad_norm': 0.9076546430587769, 'learning_rate': 1.4261905802183573e-05, 'epoch': 15.35}
+{'loss': 1.2012, 'grad_norm': 1.0316888093948364, 'learning_rate': 1.4228455638613663e-05, 'epoch': 15.36}
+{'loss': 1.2034, 'grad_norm': 1.0450801849365234, 'learning_rate': 1.4195038253658808e-05, 'epoch': 15.36}
+{'loss': 1.2104, 'grad_norm': 0.9911081790924072, 'learning_rate': 1.4161653677938266e-05, 'epoch': 15.37}
+{'loss': 1.1989, 'grad_norm': 1.050289273262024, 'learning_rate': 1.4128301942041303e-05, 'epoch': 15.38}
+{'loss': 1.1955, 'grad_norm': 0.9373721480369568, 'learning_rate': 1.4094983076527004e-05, 'epoch': 15.38}
+{'loss': 1.2119, 'grad_norm': 0.9938370585441589, 'learning_rate': 1.4061697111924426e-05, 'epoch': 15.39}
+{'loss': 1.2222, 'grad_norm': 0.9579716920852661, 'learning_rate': 1.4028444078732397e-05, 'epoch': 15.39}
+{'loss': 1.2209, 'grad_norm': 0.9794312119483948, 'learning_rate': 1.3995224007419633e-05, 'epoch': 15.4}
+{'loss': 1.1973, 'grad_norm': 0.9548497200012207, 'learning_rate': 1.3962036928424632e-05, 'epoch': 15.4}
+{'loss': 1.2074, 'grad_norm': 1.0342283248901367, 'learning_rate': 1.3928882872155625e-05, 'epoch': 15.41}
+{'loss': 1.2119, 'grad_norm': 0.8523366451263428, 'learning_rate': 1.3895761868990653e-05, 'epoch': 15.42}
+{'loss': 1.1826, 'grad_norm': 1.1082189083099365, 'learning_rate': 1.38626739492774e-05, 'epoch': 15.42}
+{'loss': 1.2187, 'grad_norm': 1.024062156677246, 'learning_rate': 1.38296191433333e-05, 'epoch': 15.43}
+{'loss': 1.1904, 'grad_norm': 0.9709998369216919, 'learning_rate': 1.3796597481445404e-05, 'epoch': 15.43}
+{'loss': 1.2262, 'grad_norm': 1.0230603218078613, 'learning_rate': 1.3763608993870383e-05, 'epoch': 15.44}
+{'loss': 1.2181, 'grad_norm': 0.9761072397232056, 'learning_rate': 1.3730653710834585e-05, 'epoch': 15.45}
+{'loss': 1.2181, 'grad_norm': 0.8359770178794861, 'learning_rate': 1.3697731662533832e-05, 'epoch': 15.45}
+{'loss': 1.2029, 'grad_norm': 0.9193968772888184, 'learning_rate': 1.3664842879133575e-05, 'epoch': 15.46}
+{'loss': 1.2085, 'grad_norm': 0.9340499043464661, 'learning_rate': 1.3631987390768764e-05, 'epoch': 15.46}
+{'loss': 1.2169, 'grad_norm': 0.9572991132736206, 'learning_rate': 1.3599165227543815e-05, 'epoch': 15.47}
+{'loss': 1.2216, 'grad_norm': 1.0473037958145142, 'learning_rate': 1.3566376419532643e-05, 'epoch': 15.47}
+{'loss': 1.1989, 'grad_norm': 0.9519008994102478, 'learning_rate': 1.353362099677857e-05, 'epoch': 15.48}
+{'loss': 1.2199, 'grad_norm': 1.0680210590362549, 'learning_rate': 1.3500898989294365e-05, 'epoch': 15.49}
+{'loss': 1.1942, 'grad_norm': 1.0191963911056519, 'learning_rate': 1.346821042706215e-05, 'epoch': 15.49}
+{'loss': 1.1902, 'grad_norm': 1.0114282369613647, 'learning_rate': 1.3435555340033393e-05, 'epoch': 15.5}
+{'loss': 1.2106, 'grad_norm': 1.073899269104004, 'learning_rate': 1.3402933758128927e-05, 'epoch': 15.5}
+{'loss': 1.1943, 'grad_norm': 1.086017370223999, 'learning_rate': 1.3370345711238862e-05, 'epoch': 15.51}
+[WARNING|trainer.py:761] 2025-05-16 03:03:13,608 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:13,608 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:03:20,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:20,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:20,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:20,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:03:27,171 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:27,171 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:27,192 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:27,192 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:03:33,394 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:33,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:33,415 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:33,416 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:03:39,840 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:39,840 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:39,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:39,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:03:46,804 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:46,804 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:46,824 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:46,825 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:03:54,300 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:54,301 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:54,321 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:03:54,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:00,911 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:00,911 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:00,932 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:00,932 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:06,873 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:06,873 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:06,893 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:06,894 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:13,504 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:13,505 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:13,525 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:13,525 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:20,576 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:20,577 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:20,597 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:20,597 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:27,157 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:27,157 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:27,178 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:27,178 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:34,120 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:34,120 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:34,141 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:34,141 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:40,969 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:40,970 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:40,990 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:40,990 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:47,268 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:47,268 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:47,289 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:47,289 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:54,962 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:54,962 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:54,984 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:54,984 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:04:59,358 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:59,358 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:59,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:04:59,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0578992366790771, 'eval_wer': 0.08602666968018985, 'eval_runtime': 121.2853, 'eval_samples_per_second': 13.118, 'eval_steps_per_second': 0.14, 'epoch': 15.51}
+{'loss': 1.2073, 'grad_norm': 1.0317455530166626, 'learning_rate': 1.3337791229222601e-05, 'epoch': 15.51}
+{'loss': 1.2108, 'grad_norm': 0.9488269090652466, 'learning_rate': 1.3305270341908765e-05, 'epoch': 15.52}
+{'loss': 1.198, 'grad_norm': 0.9255710244178772, 'learning_rate': 1.3272783079095186e-05, 'epoch': 15.53}
+{'loss': 1.2126, 'grad_norm': 0.9926071166992188, 'learning_rate': 1.3240329470548934e-05, 'epoch': 15.53}
+{'loss': 1.2114, 'grad_norm': 0.9667512774467468, 'learning_rate': 1.3207909546006188e-05, 'epoch': 15.54}
+{'loss': 1.2192, 'grad_norm': 1.0259897708892822, 'learning_rate': 1.3175523335172329e-05, 'epoch': 15.54}
+{'loss': 1.201, 'grad_norm': 1.0754188299179077, 'learning_rate': 1.3143170867721779e-05, 'epoch': 15.55}
+{'loss': 1.21, 'grad_norm': 0.9826086163520813, 'learning_rate': 1.3110852173298063e-05, 'epoch': 15.55}
+{'loss': 1.1986, 'grad_norm': 0.9746337532997131, 'learning_rate': 1.3078567281513784e-05, 'epoch': 15.56}
+{'loss': 1.1878, 'grad_norm': 0.9189111590385437, 'learning_rate': 1.3046316221950558e-05, 'epoch': 15.57}
+{'loss': 1.1633, 'grad_norm': 0.9347783923149109, 'learning_rate': 1.3014099024159018e-05, 'epoch': 15.57}
+{'loss': 1.2166, 'grad_norm': 1.175068974494934, 'learning_rate': 1.298191571765873e-05, 'epoch': 15.58}
+{'loss': 1.1993, 'grad_norm': 0.9539526700973511, 'learning_rate': 1.2949766331938229e-05, 'epoch': 15.58}
+{'loss': 1.191, 'grad_norm': 0.9957134127616882, 'learning_rate': 1.2917650896454992e-05, 'epoch': 15.59}
+{'loss': 1.2132, 'grad_norm': 1.019853115081787, 'learning_rate': 1.2885569440635337e-05, 'epoch': 15.59}
+{'loss': 1.1935, 'grad_norm': 0.992588996887207, 'learning_rate': 1.2853521993874512e-05, 'epoch': 15.6}
+{'loss': 1.2166, 'grad_norm': 0.9598777294158936, 'learning_rate': 1.282150858553654e-05, 'epoch': 15.61}
+{'loss': 1.2074, 'grad_norm': 1.043892502784729, 'learning_rate': 1.2789529244954304e-05, 'epoch': 15.61}
+{'loss': 1.1988, 'grad_norm': 0.9710313677787781, 'learning_rate': 1.2757584001429457e-05, 'epoch': 15.62}
+{'loss': 1.2019, 'grad_norm': 0.9652072191238403, 'learning_rate': 1.2725672884232382e-05, 'epoch': 15.62}
+{'loss': 1.2206, 'grad_norm': 1.0439345836639404, 'learning_rate': 1.2693795922602247e-05, 'epoch': 15.63}
+{'loss': 1.2044, 'grad_norm': 1.0208942890167236, 'learning_rate': 1.2661953145746882e-05, 'epoch': 15.63}
+{'loss': 1.2024, 'grad_norm': 1.0519356727600098, 'learning_rate': 1.2630144582842793e-05, 'epoch': 15.64}
+{'loss': 1.2136, 'grad_norm': 0.9655662775039673, 'learning_rate': 1.259837026303517e-05, 'epoch': 15.65}
+{'loss': 1.1995, 'grad_norm': 1.1176307201385498, 'learning_rate': 1.2566630215437792e-05, 'epoch': 15.65}
+{'loss': 1.2094, 'grad_norm': 0.9592282772064209, 'learning_rate': 1.2534924469133069e-05, 'epoch': 15.66}
+{'loss': 1.2095, 'grad_norm': 1.111539363861084, 'learning_rate': 1.2503253053171949e-05, 'epoch': 15.66}
+{'loss': 1.222, 'grad_norm': 1.0378633737564087, 'learning_rate': 1.2471615996573943e-05, 'epoch': 15.67}
+{'loss': 1.1971, 'grad_norm': 0.9379689693450928, 'learning_rate': 1.2440013328327096e-05, 'epoch': 15.67}
+{'loss': 1.2135, 'grad_norm': 1.015716552734375, 'learning_rate': 1.2408445077387889e-05, 'epoch': 15.68}
+{'loss': 1.2213, 'grad_norm': 1.0179091691970825, 'learning_rate': 1.2376911272681341e-05, 'epoch': 15.69}
+{'loss': 1.2129, 'grad_norm': 1.0006569623947144, 'learning_rate': 1.234541194310083e-05, 'epoch': 15.69}
+{'loss': 1.214, 'grad_norm': 1.0056092739105225, 'learning_rate': 1.2313947117508231e-05, 'epoch': 15.7}
+{'loss': 1.1937, 'grad_norm': 1.4138686656951904, 'learning_rate': 1.228251682473373e-05, 'epoch': 15.7}
+{'loss': 1.199, 'grad_norm': 1.0444179773330688, 'learning_rate': 1.2251121093575897e-05, 'epoch': 15.71}
+{'loss': 1.2043, 'grad_norm': 0.9492107033729553, 'learning_rate': 1.2219759952801644e-05, 'epoch': 15.72}
+{'loss': 1.2019, 'grad_norm': 1.0371536016464233, 'learning_rate': 1.218843343114619e-05, 'epoch': 15.72}
+{'loss': 1.2015, 'grad_norm': 1.1378275156021118, 'learning_rate': 1.2157141557313044e-05, 'epoch': 15.73}
+{'loss': 1.2177, 'grad_norm': 1.0947866439819336, 'learning_rate': 1.2125884359973927e-05, 'epoch': 15.73}
+{'loss': 1.2088, 'grad_norm': 0.9873200058937073, 'learning_rate': 1.2094661867768801e-05, 'epoch': 15.74}
+{'loss': 1.1984, 'grad_norm': 1.0540186166763306, 'learning_rate': 1.2063474109305876e-05, 'epoch': 15.74}
+{'loss': 1.2346, 'grad_norm': 1.0627162456512451, 'learning_rate': 1.2032321113161456e-05, 'epoch': 15.75}
+{'loss': 1.2072, 'grad_norm': 0.9104661345481873, 'learning_rate': 1.200120290788008e-05, 'epoch': 15.76}
+{'loss': 1.2329, 'grad_norm': 1.0108287334442139, 'learning_rate': 1.1970119521974346e-05, 'epoch': 15.76}
+{'loss': 1.2033, 'grad_norm': 0.9816228747367859, 'learning_rate': 1.1939070983924949e-05, 'epoch': 15.77}
+{'loss': 1.1988, 'grad_norm': 1.0340903997421265, 'learning_rate': 1.1908057322180694e-05, 'epoch': 15.77}
+{'loss': 1.1879, 'grad_norm': 0.9723082780838013, 'learning_rate': 1.1877078565158409e-05, 'epoch': 15.78}
+{'loss': 1.212, 'grad_norm': 1.0375847816467285, 'learning_rate': 1.1846134741242952e-05, 'epoch': 15.78}
+{'loss': 1.2155, 'grad_norm': 0.9549993872642517, 'learning_rate': 1.1815225878787154e-05, 'epoch': 15.79}
+{'loss': 1.2144, 'grad_norm': 1.015122413635254, 'learning_rate': 1.1784352006111796e-05, 'epoch': 15.8}
+{'loss': 1.1924, 'grad_norm': 0.8969539999961853, 'learning_rate': 1.1753513151505652e-05, 'epoch': 15.8}
+{'loss': 1.1867, 'grad_norm': 0.9606672525405884, 'learning_rate': 1.1722709343225355e-05, 'epoch': 15.81}
+{'loss': 1.2042, 'grad_norm': 0.9681193828582764, 'learning_rate': 1.1691940609495476e-05, 'epoch': 15.81}
+{'loss': 1.189, 'grad_norm': 1.0136154890060425, 'learning_rate': 1.1661206978508403e-05, 'epoch': 15.82}
+{'loss': 1.2053, 'grad_norm': 0.9765663146972656, 'learning_rate': 1.1630508478424388e-05, 'epoch': 15.82}
+{'loss': 1.2252, 'grad_norm': 1.080919623374939, 'learning_rate': 1.15998451373715e-05, 'epoch': 15.83}
+{'loss': 1.2141, 'grad_norm': 0.9988478422164917, 'learning_rate': 1.1569216983445558e-05, 'epoch': 15.84}
+{'loss': 1.199, 'grad_norm': 1.012364387512207, 'learning_rate': 1.1538624044710187e-05, 'epoch': 15.84}
+{'loss': 1.1986, 'grad_norm': 0.9939747452735901, 'learning_rate': 1.1508066349196705e-05, 'epoch': 15.85}
+{'loss': 1.1975, 'grad_norm': 1.1809818744659424, 'learning_rate': 1.1477543924904143e-05, 'epoch': 15.85}
+{'loss': 1.2076, 'grad_norm': 1.0233080387115479, 'learning_rate': 1.1447056799799245e-05, 'epoch': 15.86}
+{'loss': 1.2136, 'grad_norm': 0.9648825526237488, 'learning_rate': 1.1416605001816368e-05, 'epoch': 15.86}
+{'loss': 1.1985, 'grad_norm': 0.9563939571380615, 'learning_rate': 1.1386188558857551e-05, 'epoch': 15.87}
+{'loss': 1.1903, 'grad_norm': 0.9492806196212769, 'learning_rate': 1.1355807498792378e-05, 'epoch': 15.88}
+{'loss': 1.1999, 'grad_norm': 0.997193455696106, 'learning_rate': 1.132546184945806e-05, 'epoch': 15.88}
+{'loss': 1.2149, 'grad_norm': 1.0065877437591553, 'learning_rate': 1.1295151638659367e-05, 'epoch': 15.89}
+{'loss': 1.2254, 'grad_norm': 0.9710814952850342, 'learning_rate': 1.126487689416854e-05, 'epoch': 15.89}
+{'loss': 1.2135, 'grad_norm': 1.055302619934082, 'learning_rate': 1.1234637643725394e-05, 'epoch': 15.9}
+{'loss': 1.2132, 'grad_norm': 0.9559252262115479, 'learning_rate': 1.1204433915037178e-05, 'epoch': 15.9}
+{'loss': 1.2118, 'grad_norm': 0.950984537601471, 'learning_rate': 1.1174265735778583e-05, 'epoch': 15.91}
+{'loss': 1.2188, 'grad_norm': 1.0113270282745361, 'learning_rate': 1.1144133133591784e-05, 'epoch': 15.92}
+{'loss': 1.1844, 'grad_norm': 0.8991410136222839, 'learning_rate': 1.1114036136086298e-05, 'epoch': 15.92}
+{'loss': 1.2061, 'grad_norm': 1.0259344577789307, 'learning_rate': 1.1083974770839044e-05, 'epoch': 15.93}
+{'loss': 1.2012, 'grad_norm': 0.9925030469894409, 'learning_rate': 1.1053949065394301e-05, 'epoch': 15.93}
+{'loss': 1.1916, 'grad_norm': 0.9454563856124878, 'learning_rate': 1.1023959047263672e-05, 'epoch': 15.94}
+{'loss': 1.197, 'grad_norm': 0.9770966172218323, 'learning_rate': 1.0994004743926045e-05, 'epoch': 15.94}
+{'loss': 1.2327, 'grad_norm': 1.0804015398025513, 'learning_rate': 1.0964086182827582e-05, 'epoch': 15.95}
+{'loss': 1.2285, 'grad_norm': 1.069285273551941, 'learning_rate': 1.0934203391381723e-05, 'epoch': 15.96}
+{'loss': 1.2229, 'grad_norm': 1.0548807382583618, 'learning_rate': 1.0904356396969095e-05, 'epoch': 15.96}
+{'loss': 1.2163, 'grad_norm': 0.9684779047966003, 'learning_rate': 1.087454522693757e-05, 'epoch': 15.97}
+{'loss': 1.2312, 'grad_norm': 1.0450820922851562, 'learning_rate': 1.0844769908602166e-05, 'epoch': 15.97}
+{'loss': 1.1967, 'grad_norm': 0.9897649884223938, 'learning_rate': 1.081503046924503e-05, 'epoch': 15.98}
+{'loss': 1.1866, 'grad_norm': 0.969822347164154, 'learning_rate': 1.078532693611549e-05, 'epoch': 15.99}
+{'loss': 1.2109, 'grad_norm': 1.0288376808166504, 'learning_rate': 1.075565933642993e-05, 'epoch': 15.99}
+{'loss': 1.1967, 'grad_norm': 0.9943313598632812, 'learning_rate': 1.0726027697371854e-05, 'epoch': 16.0}
+{'loss': 1.1938, 'grad_norm': 0.9977245926856995, 'learning_rate': 1.0696432046091763e-05, 'epoch': 16.0}
+{'loss': 1.1955, 'grad_norm': 0.9767646193504333, 'learning_rate': 1.0666872409707193e-05, 'epoch': 16.01}
+{'loss': 1.2149, 'grad_norm': 0.9896988272666931, 'learning_rate': 1.0637348815302727e-05, 'epoch': 16.01}
+{'loss': 1.2041, 'grad_norm': 0.9613653421401978, 'learning_rate': 1.0607861289929868e-05, 'epoch': 16.02}
+{'loss': 1.2045, 'grad_norm': 0.9446055889129639, 'learning_rate': 1.0578409860607114e-05, 'epoch': 16.03}
+{'loss': 1.1803, 'grad_norm': 0.9424024820327759, 'learning_rate': 1.0548994554319847e-05, 'epoch': 16.03}
+{'loss': 1.1856, 'grad_norm': 0.9718156456947327, 'learning_rate': 1.0519615398020385e-05, 'epoch': 16.04}
+{'loss': 1.1876, 'grad_norm': 0.9116566777229309, 'learning_rate': 1.049027241862793e-05, 'epoch': 16.04}
+{'loss': 1.1925, 'grad_norm': 0.9529868960380554, 'learning_rate': 1.0460965643028485e-05, 'epoch': 16.05}
+{'loss': 1.1906, 'grad_norm': 1.213744878768921, 'learning_rate': 1.0431695098074936e-05, 'epoch': 16.05}
+{'loss': 1.2019, 'grad_norm': 0.9598230123519897, 'learning_rate': 1.0402460810586947e-05, 'epoch': 16.06}
+{'loss': 1.1894, 'grad_norm': 1.0964374542236328, 'learning_rate': 1.037326280735094e-05, 'epoch': 16.07}
+{'loss': 1.1687, 'grad_norm': 1.0539747476577759, 'learning_rate': 1.0344101115120144e-05, 'epoch': 16.07}
+{'loss': 1.2158, 'grad_norm': 1.2400903701782227, 'learning_rate': 1.031497576061446e-05, 'epoch': 16.08}
+{'loss': 1.2002, 'grad_norm': 1.0825668573379517, 'learning_rate': 1.0285886770520548e-05, 'epoch': 16.08}
+[WARNING|trainer.py:761] 2025-05-16 03:20:22,358 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:22,358 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:20:28,925 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:28,925 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:28,946 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:28,946 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:20:35,823 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:35,824 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:35,844 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:35,845 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:20:42,043 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:42,043 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:42,065 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:42,065 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:20:48,500 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:48,500 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:48,521 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:48,521 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:20:55,291 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:55,292 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:55,313 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:20:55,313 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:02,796 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:02,796 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:02,817 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:02,817 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:09,398 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:09,398 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:09,419 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:09,419 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:15,433 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:15,433 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:15,453 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:15,454 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:22,062 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:22,063 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:22,086 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:22,086 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:29,042 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:29,043 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:29,064 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:29,064 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:35,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:35,656 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:35,676 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:35,676 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:42,820 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:42,821 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:42,843 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:42,843 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:49,931 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:49,932 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:49,953 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:49,953 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:21:55,993 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:55,994 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:56,014 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:21:56,014 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:22:03,692 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:22:03,692 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:22:03,712 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:22:03,712 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:22:08,177 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:22:08,177 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:22:08,197 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:22:08,197 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0573391914367676, 'eval_wer': 0.08639394281839756, 'eval_runtime': 121.4206, 'eval_samples_per_second': 13.103, 'eval_steps_per_second': 0.14, 'epoch': 16.08}
+{'loss': 1.1982, 'grad_norm': 1.1023013591766357, 'learning_rate': 1.0256834171491693e-05, 'epoch': 16.09}
+{'loss': 1.205, 'grad_norm': 1.0633989572525024, 'learning_rate': 1.0227817990147873e-05, 'epoch': 16.09}
+{'loss': 1.1883, 'grad_norm': 1.0366227626800537, 'learning_rate': 1.0198838253075715e-05, 'epoch': 16.1}
+{'loss': 1.2044, 'grad_norm': 0.9466197490692139, 'learning_rate': 1.016989498682839e-05, 'epoch': 16.11}
+{'loss': 1.2066, 'grad_norm': 0.9514585137367249, 'learning_rate': 1.0140988217925718e-05, 'epoch': 16.11}
+{'loss': 1.1944, 'grad_norm': 1.1074148416519165, 'learning_rate': 1.0112117972854033e-05, 'epoch': 16.12}
+{'loss': 1.1962, 'grad_norm': 0.9759691953659058, 'learning_rate': 1.0083284278066212e-05, 'epoch': 16.12}
+{'loss': 1.2013, 'grad_norm': 1.005771279335022, 'learning_rate': 1.005448715998167e-05, 'epoch': 16.13}
+{'loss': 1.1918, 'grad_norm': 0.8988441824913025, 'learning_rate': 1.0025726644986264e-05, 'epoch': 16.13}
+{'loss': 1.2157, 'grad_norm': 1.018329381942749, 'learning_rate': 9.99700275943235e-06, 'epoch': 16.14}
+{'loss': 1.1999, 'grad_norm': 0.9809838533401489, 'learning_rate': 9.968315529638716e-06, 'epoch': 16.15}
+{'loss': 1.1856, 'grad_norm': 1.1276025772094727, 'learning_rate': 9.939664981890534e-06, 'epoch': 16.15}
+{'loss': 1.2121, 'grad_norm': 0.9696183800697327, 'learning_rate': 9.911051142439412e-06, 'epoch': 16.16}
+{'loss': 1.2033, 'grad_norm': 0.9299204349517822, 'learning_rate': 9.882474037503268e-06, 'epoch': 16.16}
+{'loss': 1.1915, 'grad_norm': 1.0278395414352417, 'learning_rate': 9.853933693266419e-06, 'epoch': 16.17}
+{'loss': 1.2089, 'grad_norm': 0.9883560538291931, 'learning_rate': 9.82543013587945e-06, 'epoch': 16.17}
+{'loss': 1.2007, 'grad_norm': 0.9810996055603027, 'learning_rate': 9.796963391459275e-06, 'epoch': 16.18}
+{'loss': 1.1956, 'grad_norm': 1.1436527967453003, 'learning_rate': 9.768533486089066e-06, 'epoch': 16.19}
+{'loss': 1.1968, 'grad_norm': 0.97896409034729, 'learning_rate': 9.740140445818214e-06, 'epoch': 16.19}
+{'loss': 1.1971, 'grad_norm': 0.9986919164657593, 'learning_rate': 9.711784296662372e-06, 'epoch': 16.2}
+{'loss': 1.1995, 'grad_norm': 1.0654900074005127, 'learning_rate': 9.68346506460337e-06, 'epoch': 16.2}
+{'loss': 1.2014, 'grad_norm': 0.9688809514045715, 'learning_rate': 9.655182775589234e-06, 'epoch': 16.21}
+{'loss': 1.212, 'grad_norm': 1.0210652351379395, 'learning_rate': 9.626937455534115e-06, 'epoch': 16.21}
+{'loss': 1.1932, 'grad_norm': 0.9696595668792725, 'learning_rate': 9.598729130318278e-06, 'epoch': 16.22}
+{'loss': 1.214, 'grad_norm': 0.9565127491950989, 'learning_rate': 9.570557825788133e-06, 'epoch': 16.23}
+{'loss': 1.2043, 'grad_norm': 1.064549207687378, 'learning_rate': 9.54242356775613e-06, 'epoch': 16.23}
+{'loss': 1.1961, 'grad_norm': 0.9245190024375916, 'learning_rate': 9.514326382000815e-06, 'epoch': 16.24}
+{'loss': 1.2021, 'grad_norm': 1.0006709098815918, 'learning_rate': 9.486266294266716e-06, 'epoch': 16.24}
+{'loss': 1.2084, 'grad_norm': 0.9861505627632141, 'learning_rate': 9.458243330264414e-06, 'epoch': 16.25}
+{'loss': 1.2062, 'grad_norm': 1.1787704229354858, 'learning_rate': 9.430257515670456e-06, 'epoch': 16.26}
+{'loss': 1.1899, 'grad_norm': 0.9108131527900696, 'learning_rate': 9.402308876127336e-06, 'epoch': 16.26}
+{'loss': 1.1811, 'grad_norm': 1.0063194036483765, 'learning_rate': 9.374397437243523e-06, 'epoch': 16.27}
+{'loss': 1.1835, 'grad_norm': 0.9425542950630188, 'learning_rate': 9.346523224593368e-06, 'epoch': 16.27}
+{'loss': 1.1977, 'grad_norm': 1.0358150005340576, 'learning_rate': 9.318686263717099e-06, 'epoch': 16.28}
+{'loss': 1.2002, 'grad_norm': 0.9147601127624512, 'learning_rate': 9.290886580120874e-06, 'epoch': 16.28}
+{'loss': 1.208, 'grad_norm': 1.041288137435913, 'learning_rate': 9.263124199276624e-06, 'epoch': 16.29}
+{'loss': 1.1713, 'grad_norm': 0.9085084199905396, 'learning_rate': 9.235399146622156e-06, 'epoch': 16.3}
+{'loss': 1.2103, 'grad_norm': 0.9786022901535034, 'learning_rate': 9.207711447561029e-06, 'epoch': 16.3}
+{'loss': 1.1893, 'grad_norm': 1.0332207679748535, 'learning_rate': 9.180061127462613e-06, 'epoch': 16.31}
+{'loss': 1.191, 'grad_norm': 0.9504291415214539, 'learning_rate': 9.152448211662016e-06, 'epoch': 16.31}
+{'loss': 1.189, 'grad_norm': 1.037750244140625, 'learning_rate': 9.124872725460055e-06, 'epoch': 16.32}
+{'loss': 1.1838, 'grad_norm': 0.9503852128982544, 'learning_rate': 9.097334694123288e-06, 'epoch': 16.32}
+{'loss': 1.2221, 'grad_norm': 1.1074426174163818, 'learning_rate': 9.069834142883928e-06, 'epoch': 16.33}
+{'loss': 1.1997, 'grad_norm': 1.002485990524292, 'learning_rate': 9.04237109693984e-06, 'epoch': 16.34}
+{'loss': 1.1996, 'grad_norm': 1.118814468383789, 'learning_rate': 9.014945581454553e-06, 'epoch': 16.34}
+{'loss': 1.1958, 'grad_norm': 1.0240421295166016, 'learning_rate': 8.987557621557167e-06, 'epoch': 16.35}
+{'loss': 1.1989, 'grad_norm': 1.0071808099746704, 'learning_rate': 8.960207242342423e-06, 'epoch': 16.35}
+{'loss': 1.2046, 'grad_norm': 0.986801266670227, 'learning_rate': 8.932894468870596e-06, 'epoch': 16.36}
+{'loss': 1.2099, 'grad_norm': 1.0389275550842285, 'learning_rate': 8.905619326167489e-06, 'epoch': 16.36}
+{'loss': 1.1872, 'grad_norm': 1.093624472618103, 'learning_rate': 8.878381839224475e-06, 'epoch': 16.37}
+{'loss': 1.199, 'grad_norm': 1.0568568706512451, 'learning_rate': 8.85118203299836e-06, 'epoch': 16.38}
+{'loss': 1.2018, 'grad_norm': 1.1465950012207031, 'learning_rate': 8.824019932411489e-06, 'epoch': 16.38}
+{'loss': 1.1978, 'grad_norm': 1.0193283557891846, 'learning_rate': 8.796895562351616e-06, 'epoch': 16.39}
+{'loss': 1.209, 'grad_norm': 0.9369019269943237, 'learning_rate': 8.769808947671922e-06, 'epoch': 16.39}
+{'loss': 1.1999, 'grad_norm': 1.00782310962677, 'learning_rate': 8.74276011319103e-06, 'epoch': 16.4}
+{'loss': 1.189, 'grad_norm': 1.0319541692733765, 'learning_rate': 8.715749083692899e-06, 'epoch': 16.4}
+{'loss': 1.2012, 'grad_norm': 1.0399322509765625, 'learning_rate': 8.688775883926889e-06, 'epoch': 16.41}
+{'loss': 1.1888, 'grad_norm': 1.033645510673523, 'learning_rate': 8.661840538607685e-06, 'epoch': 16.42}
+{'loss': 1.1773, 'grad_norm': 0.9258694648742676, 'learning_rate': 8.634943072415283e-06, 'epoch': 16.42}
+{'loss': 1.1912, 'grad_norm': 0.9932130575180054, 'learning_rate': 8.608083509994975e-06, 'epoch': 16.43}
+{'loss': 1.2126, 'grad_norm': 1.056031584739685, 'learning_rate': 8.581261875957303e-06, 'epoch': 16.43}
+{'loss': 1.2104, 'grad_norm': 1.055188536643982, 'learning_rate': 8.554478194878099e-06, 'epoch': 16.44}
+{'loss': 1.1946, 'grad_norm': 0.9226313829421997, 'learning_rate': 8.527732491298365e-06, 'epoch': 16.44}
+{'loss': 1.1849, 'grad_norm': 1.0118293762207031, 'learning_rate': 8.501024789724371e-06, 'epoch': 16.45}
+{'loss': 1.1929, 'grad_norm': 0.9435645937919617, 'learning_rate': 8.474355114627498e-06, 'epoch': 16.46}
+{'loss': 1.196, 'grad_norm': 1.0594557523727417, 'learning_rate': 8.447723490444338e-06, 'epoch': 16.46}
+{'loss': 1.1903, 'grad_norm': 0.9332827925682068, 'learning_rate': 8.4211299415766e-06, 'epoch': 16.47}
+{'loss': 1.189, 'grad_norm': 0.9605672955513, 'learning_rate': 8.39457449239109e-06, 'epoch': 16.47}
+{'loss': 1.1995, 'grad_norm': 1.1050618886947632, 'learning_rate': 8.368057167219738e-06, 'epoch': 16.48}
+{'loss': 1.2191, 'grad_norm': 0.9725523591041565, 'learning_rate': 8.34157799035951e-06, 'epoch': 16.48}
+{'loss': 1.1942, 'grad_norm': 1.015174388885498, 'learning_rate': 8.31513698607242e-06, 'epoch': 16.49}
+{'loss': 1.1958, 'grad_norm': 0.9837433695793152, 'learning_rate': 8.288734178585535e-06, 'epoch': 16.5}
+{'loss': 1.169, 'grad_norm': 0.9460749626159668, 'learning_rate': 8.262369592090893e-06, 'epoch': 16.5}
+{'loss': 1.1832, 'grad_norm': 1.051423192024231, 'learning_rate': 8.236043250745537e-06, 'epoch': 16.51}
+{'loss': 1.1956, 'grad_norm': 0.9495314359664917, 'learning_rate': 8.209755178671432e-06, 'epoch': 16.51}
+{'loss': 1.1765, 'grad_norm': 0.9878236651420593, 'learning_rate': 8.183505399955516e-06, 'epoch': 16.52}
+{'loss': 1.2115, 'grad_norm': 0.9338296055793762, 'learning_rate': 8.15729393864963e-06, 'epoch': 16.52}
+{'loss': 1.188, 'grad_norm': 0.9370130300521851, 'learning_rate': 8.13112081877047e-06, 'epoch': 16.53}
+{'loss': 1.1928, 'grad_norm': 0.9579607844352722, 'learning_rate': 8.104986064299666e-06, 'epoch': 16.54}
+{'loss': 1.1843, 'grad_norm': 1.0250658988952637, 'learning_rate': 8.07888969918364e-06, 'epoch': 16.54}
+{'loss': 1.1911, 'grad_norm': 0.9766988158226013, 'learning_rate': 8.052831747333654e-06, 'epoch': 16.55}
+{'loss': 1.1961, 'grad_norm': 0.9715381264686584, 'learning_rate': 8.026812232625792e-06, 'epoch': 16.55}
+{'loss': 1.1933, 'grad_norm': 0.9229410886764526, 'learning_rate': 8.000831178900886e-06, 'epoch': 16.56}
+{'loss': 1.2201, 'grad_norm': 1.0843863487243652, 'learning_rate': 7.974888609964557e-06, 'epoch': 16.57}
+{'loss': 1.2018, 'grad_norm': 1.121579885482788, 'learning_rate': 7.948984549587168e-06, 'epoch': 16.57}
+{'loss': 1.2295, 'grad_norm': 1.0867716073989868, 'learning_rate': 7.923119021503753e-06, 'epoch': 16.58}
+{'loss': 1.1946, 'grad_norm': 0.9368448257446289, 'learning_rate': 7.897292049414097e-06, 'epoch': 16.58}
+{'loss': 1.2094, 'grad_norm': 0.8986218571662903, 'learning_rate': 7.871503656982604e-06, 'epoch': 16.59}
+{'loss': 1.1977, 'grad_norm': 0.9822723865509033, 'learning_rate': 7.845753867838389e-06, 'epoch': 16.59}
+{'loss': 1.1897, 'grad_norm': 0.9966803789138794, 'learning_rate': 7.820042705575133e-06, 'epoch': 16.6}
+{'loss': 1.1786, 'grad_norm': 0.9297454357147217, 'learning_rate': 7.794370193751156e-06, 'epoch': 16.61}
+{'loss': 1.208, 'grad_norm': 1.010553002357483, 'learning_rate': 7.768736355889381e-06, 'epoch': 16.61}
+{'loss': 1.1977, 'grad_norm': 0.9486767649650574, 'learning_rate': 7.743141215477244e-06, 'epoch': 16.62}
+{'loss': 1.2115, 'grad_norm': 1.0453968048095703, 'learning_rate': 7.71758479596678e-06, 'epoch': 16.62}
+{'loss': 1.2053, 'grad_norm': 1.0398608446121216, 'learning_rate': 7.692067120774517e-06, 'epoch': 16.63}
+{'loss': 1.2, 'grad_norm': 0.9172380566596985, 'learning_rate': 7.666588213281477e-06, 'epoch': 16.63}
+{'loss': 1.1999, 'grad_norm': 1.0411999225616455, 'learning_rate': 7.641148096833188e-06, 'epoch': 16.64}
+{'loss': 1.1999, 'grad_norm': 1.0267289876937866, 'learning_rate': 7.615746794739595e-06, 'epoch': 16.65}
+{'loss': 1.2097, 'grad_norm': 1.0688894987106323, 'learning_rate': 7.5903843302751204e-06, 'epoch': 16.65}
+{'loss': 1.1963, 'grad_norm': 0.9703477025032043, 'learning_rate': 7.565060726678552e-06, 'epoch': 16.66}
+[WARNING|trainer.py:761] 2025-05-16 03:37:20,044 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:20,044 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:37:26,748 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:26,748 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:26,772 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:26,772 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:37:33,729 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:33,730 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:33,750 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:33,750 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:37:40,024 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:40,025 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:40,048 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:40,048 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:37:46,546 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:46,547 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:46,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:46,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:37:53,387 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:53,388 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:53,409 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:37:53,409 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:00,958 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:00,958 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:00,979 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:00,979 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:07,741 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:07,741 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:07,763 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:07,764 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:13,831 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:13,831 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:13,852 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:13,852 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:20,525 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:20,526 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:20,547 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:20,547 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:27,557 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:27,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:27,579 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:27,579 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:34,033 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:34,034 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:34,055 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:34,055 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:41,242 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:41,242 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:41,263 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:41,263 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:48,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:48,396 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:48,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:48,417 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:38:54,587 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:54,588 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:54,608 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:38:54,608 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:39:02,540 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:39:02,540 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:39:02,560 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:39:02,560 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:39:07,005 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:39:07,006 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:39:07,025 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:39:07,025 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0564184188842773, 'eval_wer': 0.08554638942253362, 'eval_runtime': 122.5765, 'eval_samples_per_second': 12.98, 'eval_steps_per_second': 0.139, 'epoch': 16.66}
+{'loss': 1.2067, 'grad_norm': 0.9734466075897217, 'learning_rate': 7.539776007153135e-06, 'epoch': 16.66}
+{'loss': 1.1975, 'grad_norm': 0.9291802048683167, 'learning_rate': 7.514530194866423e-06, 'epoch': 16.67}
+{'loss': 1.2, 'grad_norm': 1.0431774854660034, 'learning_rate': 7.4893233129503704e-06, 'epoch': 16.67}
+{'loss': 1.2062, 'grad_norm': 1.0795116424560547, 'learning_rate': 7.4641553845012135e-06, 'epoch': 16.68}
+{'loss': 1.191, 'grad_norm': 0.9555503129959106, 'learning_rate': 7.43902643257954e-06, 'epoch': 16.69}
+{'loss': 1.2118, 'grad_norm': 1.025253176689148, 'learning_rate': 7.413936480210208e-06, 'epoch': 16.69}
+{'loss': 1.1814, 'grad_norm': 0.845024585723877, 'learning_rate': 7.38888555038234e-06, 'epoch': 16.7}
+{'loss': 1.1924, 'grad_norm': 1.0023993253707886, 'learning_rate': 7.36387366604928e-06, 'epoch': 16.7}
+{'loss': 1.2031, 'grad_norm': 0.9628487229347229, 'learning_rate': 7.3389008501286495e-06, 'epoch': 16.71}
+{'loss': 1.1901, 'grad_norm': 0.9806420803070068, 'learning_rate': 7.313967125502222e-06, 'epoch': 16.71}
+{'loss': 1.166, 'grad_norm': 1.0675193071365356, 'learning_rate': 7.289072515015991e-06, 'epoch': 16.72}
+{'loss': 1.1693, 'grad_norm': 1.0211138725280762, 'learning_rate': 7.264217041480069e-06, 'epoch': 16.73}
+{'loss': 1.1841, 'grad_norm': 0.9645518660545349, 'learning_rate': 7.239400727668755e-06, 'epoch': 16.73}
+{'loss': 1.2125, 'grad_norm': 1.025267243385315, 'learning_rate': 7.214623596320447e-06, 'epoch': 16.74}
+{'loss': 1.1923, 'grad_norm': 0.9313498139381409, 'learning_rate': 7.1898856701376194e-06, 'epoch': 16.74}
+{'loss': 1.19, 'grad_norm': 0.9631925821304321, 'learning_rate': 7.165186971786865e-06, 'epoch': 16.75}
+{'loss': 1.1989, 'grad_norm': 0.91645747423172, 'learning_rate': 7.140527523898805e-06, 'epoch': 16.75}
+{'loss': 1.1866, 'grad_norm': 1.0127781629562378, 'learning_rate': 7.115907349068095e-06, 'epoch': 16.76}
+{'loss': 1.2095, 'grad_norm': 1.0304737091064453, 'learning_rate': 7.091326469853429e-06, 'epoch': 16.77}
+{'loss': 1.193, 'grad_norm': 0.9764739274978638, 'learning_rate': 7.06678490877747e-06, 'epoch': 16.77}
+{'loss': 1.198, 'grad_norm': 1.0257683992385864, 'learning_rate': 7.042282688326887e-06, 'epoch': 16.78}
+{'loss': 1.2153, 'grad_norm': 1.0606697797775269, 'learning_rate': 7.017819830952253e-06, 'epoch': 16.78}
+{'loss': 1.1785, 'grad_norm': 0.9175252914428711, 'learning_rate': 6.993396359068124e-06, 'epoch': 16.79}
+{'loss': 1.1964, 'grad_norm': 1.086734414100647, 'learning_rate': 6.9690122950529556e-06, 'epoch': 16.79}
+{'loss': 1.1956, 'grad_norm': 0.9455732107162476, 'learning_rate': 6.944667661249064e-06, 'epoch': 16.8}
+{'loss': 1.2058, 'grad_norm': 1.0959241390228271, 'learning_rate': 6.920362479962677e-06, 'epoch': 16.81}
+{'loss': 1.1844, 'grad_norm': 1.000938892364502, 'learning_rate': 6.896096773463859e-06, 'epoch': 16.81}
+{'loss': 1.1967, 'grad_norm': 1.0796737670898438, 'learning_rate': 6.871870563986479e-06, 'epoch': 16.82}
+{'loss': 1.1806, 'grad_norm': 0.9358550310134888, 'learning_rate': 6.847683873728268e-06, 'epoch': 16.82}
+{'loss': 1.2444, 'grad_norm': 1.0473881959915161, 'learning_rate': 6.823536724850693e-06, 'epoch': 16.83}
+{'loss': 1.2198, 'grad_norm': 0.9135806560516357, 'learning_rate': 6.799429139479029e-06, 'epoch': 16.84}
+{'loss': 1.1831, 'grad_norm': 0.8903408646583557, 'learning_rate': 6.775361139702296e-06, 'epoch': 16.84}
+{'loss': 1.1738, 'grad_norm': 0.9620775580406189, 'learning_rate': 6.751332747573212e-06, 'epoch': 16.85}
+{'loss': 1.2052, 'grad_norm': 1.0818181037902832, 'learning_rate': 6.727343985108255e-06, 'epoch': 16.85}
+{'loss': 1.2024, 'grad_norm': 1.0362913608551025, 'learning_rate': 6.703394874287526e-06, 'epoch': 16.86}
+{'loss': 1.1935, 'grad_norm': 1.071187973022461, 'learning_rate': 6.679485437054868e-06, 'epoch': 16.86}
+{'loss': 1.1988, 'grad_norm': 1.0566585063934326, 'learning_rate': 6.655615695317711e-06, 'epoch': 16.87}
+{'loss': 1.1856, 'grad_norm': 1.0511890649795532, 'learning_rate': 6.631785670947139e-06, 'epoch': 16.88}
+{'loss': 1.1944, 'grad_norm': 1.0357812643051147, 'learning_rate': 6.607995385777858e-06, 'epoch': 16.88}
+{'loss': 1.1992, 'grad_norm': 1.0455526113510132, 'learning_rate': 6.584244861608126e-06, 'epoch': 16.89}
+{'loss': 1.1789, 'grad_norm': 0.9211399555206299, 'learning_rate': 6.560534120199799e-06, 'epoch': 16.89}
+{'loss': 1.1817, 'grad_norm': 1.0147125720977783, 'learning_rate': 6.536863183278284e-06, 'epoch': 16.9}
+{'loss': 1.1879, 'grad_norm': 1.0553264617919922, 'learning_rate': 6.513232072532488e-06, 'epoch': 16.9}
+{'loss': 1.198, 'grad_norm': 1.0018610954284668, 'learning_rate': 6.489640809614859e-06, 'epoch': 16.91}
+{'loss': 1.1865, 'grad_norm': 0.9988446831703186, 'learning_rate': 6.466089416141301e-06, 'epoch': 16.92}
+{'loss': 1.1996, 'grad_norm': 0.9795340299606323, 'learning_rate': 6.4425779136912235e-06, 'epoch': 16.92}
+{'loss': 1.1958, 'grad_norm': 1.0192444324493408, 'learning_rate': 6.419106323807446e-06, 'epoch': 16.93}
+{'loss': 1.1998, 'grad_norm': 0.9266735911369324, 'learning_rate': 6.395674667996256e-06, 'epoch': 16.93}
+{'loss': 1.1942, 'grad_norm': 0.9761055111885071, 'learning_rate': 6.3722829677273155e-06, 'epoch': 16.94}
+{'loss': 1.2028, 'grad_norm': 1.0179728269577026, 'learning_rate': 6.348931244433695e-06, 'epoch': 16.94}
+{'loss': 1.2141, 'grad_norm': 1.0008351802825928, 'learning_rate': 6.3256195195118555e-06, 'epoch': 16.95}
+{'loss': 1.2051, 'grad_norm': 0.9183552861213684, 'learning_rate': 6.302347814321556e-06, 'epoch': 16.96}
+{'loss': 1.21, 'grad_norm': 0.9476117491722107, 'learning_rate': 6.279116150185937e-06, 'epoch': 16.96}
+{'loss': 1.1879, 'grad_norm': 0.9979916214942932, 'learning_rate': 6.255924548391431e-06, 'epoch': 16.97}
+{'loss': 1.192, 'grad_norm': 0.9785417914390564, 'learning_rate': 6.232773030187744e-06, 'epoch': 16.97}
+{'loss': 1.1923, 'grad_norm': 1.0037745237350464, 'learning_rate': 6.209661616787891e-06, 'epoch': 16.98}
+{'loss': 1.2012, 'grad_norm': 1.12059485912323, 'learning_rate': 6.1865903293681105e-06, 'epoch': 16.98}
+{'loss': 1.1918, 'grad_norm': 0.9373881220817566, 'learning_rate': 6.163559189067901e-06, 'epoch': 16.99}
+{'loss': 1.1945, 'grad_norm': 1.027611255645752, 'learning_rate': 6.140568216989946e-06, 'epoch': 17.0}
+{'loss': 1.1651, 'grad_norm': 1.0132412910461426, 'learning_rate': 6.117617434200149e-06, 'epoch': 17.0}
+{'loss': 1.1986, 'grad_norm': 1.050065279006958, 'learning_rate': 6.09470686172758e-06, 'epoch': 17.01}
+{'loss': 1.1885, 'grad_norm': 1.0160305500030518, 'learning_rate': 6.071836520564459e-06, 'epoch': 17.01}
+{'loss': 1.1943, 'grad_norm': 1.2584477663040161, 'learning_rate': 6.049006431666157e-06, 'epoch': 17.02}
+{'loss': 1.1745, 'grad_norm': 0.9321852326393127, 'learning_rate': 6.026216615951157e-06, 'epoch': 17.02}
+{'loss': 1.1919, 'grad_norm': 0.9220076203346252, 'learning_rate': 6.003467094301026e-06, 'epoch': 17.03}
+{'loss': 1.2172, 'grad_norm': 1.0550299882888794, 'learning_rate': 5.980757887560441e-06, 'epoch': 17.04}
+{'loss': 1.1968, 'grad_norm': 0.9694183468818665, 'learning_rate': 5.958089016537105e-06, 'epoch': 17.04}
+{'loss': 1.1871, 'grad_norm': 1.0885531902313232, 'learning_rate': 5.935460502001793e-06, 'epoch': 17.05}
+{'loss': 1.1742, 'grad_norm': 0.993267834186554, 'learning_rate': 5.912872364688297e-06, 'epoch': 17.05}
+{'loss': 1.1916, 'grad_norm': 1.0666749477386475, 'learning_rate': 5.890324625293393e-06, 'epoch': 17.06}
+{'loss': 1.1915, 'grad_norm': 0.983528196811676, 'learning_rate': 5.867817304476871e-06, 'epoch': 17.06}
+{'loss': 1.1836, 'grad_norm': 1.036799669265747, 'learning_rate': 5.845350422861448e-06, 'epoch': 17.07}
+{'loss': 1.1815, 'grad_norm': 1.0437095165252686, 'learning_rate': 5.822924001032831e-06, 'epoch': 17.08}
+{'loss': 1.1897, 'grad_norm': 0.9241591095924377, 'learning_rate': 5.800538059539632e-06, 'epoch': 17.08}
+{'loss': 1.1859, 'grad_norm': 0.9938023686408997, 'learning_rate': 5.778192618893352e-06, 'epoch': 17.09}
+{'loss': 1.198, 'grad_norm': 0.988040030002594, 'learning_rate': 5.755887699568438e-06, 'epoch': 17.09}
+{'loss': 1.1805, 'grad_norm': 1.0079675912857056, 'learning_rate': 5.733623322002151e-06, 'epoch': 17.1}
+{'loss': 1.1906, 'grad_norm': 1.0408531427383423, 'learning_rate': 5.711399506594632e-06, 'epoch': 17.11}
+{'loss': 1.174, 'grad_norm': 1.0767842531204224, 'learning_rate': 5.689216273708877e-06, 'epoch': 17.11}
+{'loss': 1.1907, 'grad_norm': 1.0826375484466553, 'learning_rate': 5.667073643670644e-06, 'epoch': 17.12}
+{'loss': 1.1829, 'grad_norm': 1.1785517930984497, 'learning_rate': 5.644971636768544e-06, 'epoch': 17.12}
+{'loss': 1.1938, 'grad_norm': 1.0013254880905151, 'learning_rate': 5.622910273253913e-06, 'epoch': 17.13}
+{'loss': 1.1888, 'grad_norm': 0.9207583069801331, 'learning_rate': 5.6008895733409056e-06, 'epoch': 17.13}
+{'loss': 1.2028, 'grad_norm': 0.9881877899169922, 'learning_rate': 5.578909557206364e-06, 'epoch': 17.14}
+{'loss': 1.1878, 'grad_norm': 0.9341586828231812, 'learning_rate': 5.556970244989879e-06, 'epoch': 17.15}
+{'loss': 1.2037, 'grad_norm': 0.9626673460006714, 'learning_rate': 5.535071656793739e-06, 'epoch': 17.15}
+{'loss': 1.1734, 'grad_norm': 1.0223544836044312, 'learning_rate': 5.51321381268293e-06, 'epoch': 17.16}
+{'loss': 1.1859, 'grad_norm': 0.9245195388793945, 'learning_rate': 5.4913967326851015e-06, 'epoch': 17.16}
+{'loss': 1.194, 'grad_norm': 1.0195177793502808, 'learning_rate': 5.469620436790535e-06, 'epoch': 17.17}
+{'loss': 1.1908, 'grad_norm': 0.9807387590408325, 'learning_rate': 5.447884944952165e-06, 'epoch': 17.17}
+{'loss': 1.1836, 'grad_norm': 0.9793677926063538, 'learning_rate': 5.426190277085527e-06, 'epoch': 17.18}
+{'loss': 1.1843, 'grad_norm': 1.0263057947158813, 'learning_rate': 5.40453645306874e-06, 'epoch': 17.19}
+{'loss': 1.2058, 'grad_norm': 0.9091349840164185, 'learning_rate': 5.382923492742535e-06, 'epoch': 17.19}
+{'loss': 1.1817, 'grad_norm': 0.9294777512550354, 'learning_rate': 5.3613514159101476e-06, 'epoch': 17.2}
+{'loss': 1.1831, 'grad_norm': 1.07024347782135, 'learning_rate': 5.339820242337416e-06, 'epoch': 17.2}
+{'loss': 1.1948, 'grad_norm': 0.9532782435417175, 'learning_rate': 5.3183299917526434e-06, 'epoch': 17.21}
+{'loss': 1.1763, 'grad_norm': 0.9681318998336792, 'learning_rate': 5.2968806838466666e-06, 'epoch': 17.21}
+{'loss': 1.2035, 'grad_norm': 1.1072713136672974, 'learning_rate': 5.275472338272809e-06, 'epoch': 17.22}
+{'loss': 1.1763, 'grad_norm': 1.002629041671753, 'learning_rate': 5.2541049746468476e-06, 'epoch': 17.23}
+{'loss': 1.1754, 'grad_norm': 0.9318569898605347, 'learning_rate': 5.232778612547026e-06, 'epoch': 17.23}
+[WARNING|trainer.py:761] 2025-05-16 03:54:30,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:30,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:54:36,702 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:36,702 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:36,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:36,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:54:43,606 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:43,606 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:43,627 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:43,627 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:54:49,845 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:49,846 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:49,866 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:49,866 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:54:56,310 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:56,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:56,330 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:54:56,330 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:03,262 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:03,263 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:03,283 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:03,284 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:10,759 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:10,759 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:10,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:10,780 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:17,290 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:17,290 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:17,310 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:17,311 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:23,344 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:23,345 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:23,365 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:23,365 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:29,979 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:29,979 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:30,000 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:30,000 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:37,042 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:37,043 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:37,065 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:37,066 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:43,503 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:43,503 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:43,525 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:43,525 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:50,697 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:50,698 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:50,718 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:50,718 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:55:57,538 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:57,538 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:57,558 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:55:57,559 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:56:03,856 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:03,856 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:03,876 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:03,877 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:56:11,549 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:11,549 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:11,569 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:11,569 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 03:56:16,030 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:16,030 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:16,051 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 03:56:16,051 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0579822063446045, 'eval_wer': 0.08602666968018985, 'eval_runtime': 121.3648, 'eval_samples_per_second': 13.109, 'eval_steps_per_second': 0.14, 'epoch': 17.23}
+{'loss': 1.1944, 'grad_norm': 0.9345382452011108, 'learning_rate': 5.211493271514e-06, 'epoch': 17.24}
+{'loss': 1.179, 'grad_norm': 0.9140852093696594, 'learning_rate': 5.190248971050838e-06, 'epoch': 17.24}
+{'loss': 1.1886, 'grad_norm': 0.9444893002510071, 'learning_rate': 5.169045730623035e-06, 'epoch': 17.25}
+{'loss': 1.1847, 'grad_norm': 1.0549089908599854, 'learning_rate': 5.147883569658422e-06, 'epoch': 17.25}
+{'loss': 1.1913, 'grad_norm': 1.0795629024505615, 'learning_rate': 5.126762507547228e-06, 'epoch': 17.26}
+{'loss': 1.2006, 'grad_norm': 0.9579092860221863, 'learning_rate': 5.105682563642012e-06, 'epoch': 17.27}
+{'loss': 1.2115, 'grad_norm': 1.0866056680679321, 'learning_rate': 5.084643757257633e-06, 'epoch': 17.27}
+{'loss': 1.1883, 'grad_norm': 0.927370548248291, 'learning_rate': 5.063646107671302e-06, 'epoch': 17.28}
+{'loss': 1.1982, 'grad_norm': 1.0040650367736816, 'learning_rate': 5.042689634122476e-06, 'epoch': 17.28}
+{'loss': 1.1834, 'grad_norm': 1.0011693239212036, 'learning_rate': 5.02177435581292e-06, 'epoch': 17.29}
+{'loss': 1.204, 'grad_norm': 0.968258798122406, 'learning_rate': 5.000900291906624e-06, 'epoch': 17.29}
+{'loss': 1.1904, 'grad_norm': 0.874392569065094, 'learning_rate': 4.98006746152982e-06, 'epoch': 17.3}
+{'loss': 1.202, 'grad_norm': 1.0383871793746948, 'learning_rate': 4.95927588377098e-06, 'epoch': 17.31}
+{'loss': 1.1858, 'grad_norm': 1.0016822814941406, 'learning_rate': 4.938525577680753e-06, 'epoch': 17.31}
+{'loss': 1.2012, 'grad_norm': 0.9589056968688965, 'learning_rate': 4.9178165622719834e-06, 'epoch': 17.32}
+{'loss': 1.1949, 'grad_norm': 1.0535483360290527, 'learning_rate': 4.897148856519698e-06, 'epoch': 17.32}
+{'loss': 1.2121, 'grad_norm': 0.9668654799461365, 'learning_rate': 4.87652247936103e-06, 'epoch': 17.33}
+{'loss': 1.2017, 'grad_norm': 0.9578180909156799, 'learning_rate': 4.855937449695287e-06, 'epoch': 17.33}
+{'loss': 1.2035, 'grad_norm': 0.9804530739784241, 'learning_rate': 4.8353937863838665e-06, 'epoch': 17.34}
+{'loss': 1.1992, 'grad_norm': 0.9453611969947815, 'learning_rate': 4.814891508250284e-06, 'epoch': 17.35}
+{'loss': 1.1916, 'grad_norm': 1.0003318786621094, 'learning_rate': 4.794430634080113e-06, 'epoch': 17.35}
+{'loss': 1.1944, 'grad_norm': 1.0354970693588257, 'learning_rate': 4.774011182620992e-06, 'epoch': 17.36}
+{'loss': 1.1905, 'grad_norm': 0.9997474551200867, 'learning_rate': 4.753633172582621e-06, 'epoch': 17.36}
+{'loss': 1.1849, 'grad_norm': 0.9148712754249573, 'learning_rate': 4.733296622636721e-06, 'epoch': 17.37}
+{'loss': 1.1642, 'grad_norm': 0.9375751614570618, 'learning_rate': 4.713001551417031e-06, 'epoch': 17.38}
+{'loss': 1.1868, 'grad_norm': 1.0607540607452393, 'learning_rate': 4.692747977519268e-06, 'epoch': 17.38}
+{'loss': 1.2019, 'grad_norm': 1.0224499702453613, 'learning_rate': 4.672535919501126e-06, 'epoch': 17.39}
+{'loss': 1.167, 'grad_norm': 0.992601752281189, 'learning_rate': 4.65236539588229e-06, 'epoch': 17.39}
+{'loss': 1.201, 'grad_norm': 1.169980764389038, 'learning_rate': 4.632236425144348e-06, 'epoch': 17.4}
+{'loss': 1.1968, 'grad_norm': 0.9831385016441345, 'learning_rate': 4.612149025730849e-06, 'epoch': 17.4}
+{'loss': 1.1713, 'grad_norm': 0.8991706371307373, 'learning_rate': 4.592103216047218e-06, 'epoch': 17.41}
+{'loss': 1.2003, 'grad_norm': 0.9753699898719788, 'learning_rate': 4.572099014460809e-06, 'epoch': 17.42}
+{'loss': 1.2101, 'grad_norm': 1.0464894771575928, 'learning_rate': 4.552136439300821e-06, 'epoch': 17.42}
+{'loss': 1.1851, 'grad_norm': 1.0638798475265503, 'learning_rate': 4.532215508858323e-06, 'epoch': 17.43}
+{'loss': 1.2097, 'grad_norm': 1.0615841150283813, 'learning_rate': 4.512336241386242e-06, 'epoch': 17.43}
+{'loss': 1.1833, 'grad_norm': 0.949299156665802, 'learning_rate': 4.492498655099306e-06, 'epoch': 17.44}
+{'loss': 1.1972, 'grad_norm': 0.9039355516433716, 'learning_rate': 4.472702768174065e-06, 'epoch': 17.44}
+{'loss': 1.1778, 'grad_norm': 0.9006574749946594, 'learning_rate': 4.452948598748864e-06, 'epoch': 17.45}
+{'loss': 1.1795, 'grad_norm': 1.045052170753479, 'learning_rate': 4.433236164923797e-06, 'epoch': 17.46}
+{'loss': 1.1835, 'grad_norm': 1.006403923034668, 'learning_rate': 4.413565484760765e-06, 'epoch': 17.46}
+{'loss': 1.198, 'grad_norm': 0.9585305452346802, 'learning_rate': 4.393936576283358e-06, 'epoch': 17.47}
+{'loss': 1.2057, 'grad_norm': 0.9196950197219849, 'learning_rate': 4.374349457476937e-06, 'epoch': 17.47}
+{'loss': 1.1746, 'grad_norm': 0.9103960990905762, 'learning_rate': 4.354804146288554e-06, 'epoch': 17.48}
+{'loss': 1.2144, 'grad_norm': 0.9729591012001038, 'learning_rate': 4.335300660626942e-06, 'epoch': 17.48}
+{'loss': 1.1872, 'grad_norm': 0.9710026979446411, 'learning_rate': 4.3158390183625395e-06, 'epoch': 17.49}
+{'loss': 1.2105, 'grad_norm': 1.1012686491012573, 'learning_rate': 4.296419237327403e-06, 'epoch': 17.5}
+{'loss': 1.181, 'grad_norm': 0.9311768412590027, 'learning_rate': 4.27704133531529e-06, 'epoch': 17.5}
+{'loss': 1.1866, 'grad_norm': 0.9613198041915894, 'learning_rate': 4.257705330081526e-06, 'epoch': 17.51}
+{'loss': 1.1948, 'grad_norm': 0.9295112490653992, 'learning_rate': 4.238411239343087e-06, 'epoch': 17.51}
+{'loss': 1.196, 'grad_norm': 1.0412112474441528, 'learning_rate': 4.219159080778534e-06, 'epoch': 17.52}
+{'loss': 1.1879, 'grad_norm': 1.0489840507507324, 'learning_rate': 4.1999488720279975e-06, 'epoch': 17.52}
+{'loss': 1.1903, 'grad_norm': 0.9769622087478638, 'learning_rate': 4.180780630693182e-06, 'epoch': 17.53}
+{'loss': 1.217, 'grad_norm': 1.1007071733474731, 'learning_rate': 4.161654374337343e-06, 'epoch': 17.54}
+{'loss': 1.2118, 'grad_norm': 1.0456956624984741, 'learning_rate': 4.142570120485247e-06, 'epoch': 17.54}
+{'loss': 1.1848, 'grad_norm': 0.9357936382293701, 'learning_rate': 4.123527886623198e-06, 'epoch': 17.55}
+{'loss': 1.1712, 'grad_norm': 0.9416925311088562, 'learning_rate': 4.104527690198977e-06, 'epoch': 17.55}
+{'loss': 1.2017, 'grad_norm': 0.9844315052032471, 'learning_rate': 4.08556954862187e-06, 'epoch': 17.56}
+{'loss': 1.1916, 'grad_norm': 0.9683049321174622, 'learning_rate': 4.0666534792626114e-06, 'epoch': 17.56}
+{'loss': 1.1768, 'grad_norm': 1.000704050064087, 'learning_rate': 4.047779499453378e-06, 'epoch': 17.57}
+{'loss': 1.2011, 'grad_norm': 0.9367661476135254, 'learning_rate': 4.028947626487807e-06, 'epoch': 17.58}
+{'loss': 1.1763, 'grad_norm': 0.9693049192428589, 'learning_rate': 4.010157877620944e-06, 'epoch': 17.58}
+{'loss': 1.1906, 'grad_norm': 1.0307310819625854, 'learning_rate': 3.9914102700692405e-06, 'epoch': 17.59}
+{'loss': 1.1889, 'grad_norm': 0.9715161323547363, 'learning_rate': 3.972704821010528e-06, 'epoch': 17.59}
+{'loss': 1.1796, 'grad_norm': 1.0649501085281372, 'learning_rate': 3.954041547583995e-06, 'epoch': 17.6}
+{'loss': 1.2047, 'grad_norm': 1.0577764511108398, 'learning_rate': 3.935420466890235e-06, 'epoch': 17.6}
+{'loss': 1.1737, 'grad_norm': 1.1082143783569336, 'learning_rate': 3.916841595991117e-06, 'epoch': 17.61}
+{'loss': 1.2019, 'grad_norm': 1.0087838172912598, 'learning_rate': 3.898304951909895e-06, 'epoch': 17.62}
+{'loss': 1.1782, 'grad_norm': 0.9971638321876526, 'learning_rate': 3.879810551631093e-06, 'epoch': 17.62}
+{'loss': 1.2046, 'grad_norm': 0.9899203777313232, 'learning_rate': 3.861358412100526e-06, 'epoch': 17.63}
+{'loss': 1.21, 'grad_norm': 0.9599500298500061, 'learning_rate': 3.842948550225317e-06, 'epoch': 17.63}
+{'loss': 1.1916, 'grad_norm': 0.945087194442749, 'learning_rate': 3.824580982873834e-06, 'epoch': 17.64}
+{'loss': 1.1846, 'grad_norm': 0.9519335031509399, 'learning_rate': 3.806255726875696e-06, 'epoch': 17.65}
+{'loss': 1.2071, 'grad_norm': 0.9074278473854065, 'learning_rate': 3.787972799021735e-06, 'epoch': 17.65}
+{'loss': 1.183, 'grad_norm': 1.0127816200256348, 'learning_rate': 3.7697322160640307e-06, 'epoch': 17.66}
+{'loss': 1.1885, 'grad_norm': 0.9552931785583496, 'learning_rate': 3.751533994715843e-06, 'epoch': 17.66}
+{'loss': 1.1782, 'grad_norm': 1.101788878440857, 'learning_rate': 3.7333781516516065e-06, 'epoch': 17.67}
+{'loss': 1.1844, 'grad_norm': 0.9679074287414551, 'learning_rate': 3.7152647035069634e-06, 'epoch': 17.67}
+{'loss': 1.1903, 'grad_norm': 1.050503134727478, 'learning_rate': 3.6971936668786684e-06, 'epoch': 17.68}
+{'loss': 1.195, 'grad_norm': 0.9870368838310242, 'learning_rate': 3.6791650583246427e-06, 'epoch': 17.69}
+{'loss': 1.1929, 'grad_norm': 1.0412532091140747, 'learning_rate': 3.6611788943639354e-06, 'epoch': 17.69}
+{'loss': 1.1702, 'grad_norm': 1.0213820934295654, 'learning_rate': 3.643235191476682e-06, 'epoch': 17.7}
+{'loss': 1.2005, 'grad_norm': 0.9927578568458557, 'learning_rate': 3.6253339661041317e-06, 'epoch': 17.7}
+{'loss': 1.1871, 'grad_norm': 1.0043290853500366, 'learning_rate': 3.6074752346485976e-06, 'epoch': 17.71}
+{'loss': 1.215, 'grad_norm': 0.9973768591880798, 'learning_rate': 3.5896590134734723e-06, 'epoch': 17.71}
+{'loss': 1.1812, 'grad_norm': 1.0821785926818848, 'learning_rate': 3.5718853189031967e-06, 'epoch': 17.72}
+{'loss': 1.1897, 'grad_norm': 0.9004652500152588, 'learning_rate': 3.5541541672232182e-06, 'epoch': 17.73}
+{'loss': 1.1778, 'grad_norm': 0.9411226511001587, 'learning_rate': 3.5364655746800508e-06, 'epoch': 17.73}
+{'loss': 1.1797, 'grad_norm': 1.085516095161438, 'learning_rate': 3.5188195574811615e-06, 'epoch': 17.74}
+{'loss': 1.1883, 'grad_norm': 0.8895266056060791, 'learning_rate': 3.5012161317950537e-06, 'epoch': 17.74}
+{'loss': 1.1825, 'grad_norm': 1.0511223077774048, 'learning_rate': 3.4836553137511787e-06, 'epoch': 17.75}
+{'loss': 1.2005, 'grad_norm': 0.9958426356315613, 'learning_rate': 3.4661371194399487e-06, 'epoch': 17.75}
+{'loss': 1.1884, 'grad_norm': 0.9609330892562866, 'learning_rate': 3.4486615649127377e-06, 'epoch': 17.76}
+{'loss': 1.1998, 'grad_norm': 0.9471411108970642, 'learning_rate': 3.431228666181819e-06, 'epoch': 17.77}
+{'loss': 1.1837, 'grad_norm': 0.9301806688308716, 'learning_rate': 3.413838439220422e-06, 'epoch': 17.77}
+{'loss': 1.1943, 'grad_norm': 0.9926958084106445, 'learning_rate': 3.3964908999626476e-06, 'epoch': 17.78}
+{'loss': 1.188, 'grad_norm': 0.8857885599136353, 'learning_rate': 3.3791860643034864e-06, 'epoch': 17.78}
+{'loss': 1.1851, 'grad_norm': 1.0259875059127808, 'learning_rate': 3.36192394809881e-06, 'epoch': 17.79}
+{'loss': 1.1813, 'grad_norm': 0.9533064961433411, 'learning_rate': 3.344704567165342e-06, 'epoch': 17.79}
+{'loss': 1.2012, 'grad_norm': 0.9835970401763916, 'learning_rate': 3.3275279372806736e-06, 'epoch': 17.8}
+{'loss': 1.2093, 'grad_norm': 1.0173864364624023, 'learning_rate': 3.310394074183181e-06, 'epoch': 17.81}
+[WARNING|trainer.py:761] 2025-05-16 04:11:28,509 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:28,510 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:11:35,125 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:35,126 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:35,147 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:35,147 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:11:42,106 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:42,106 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:42,127 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:42,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:11:48,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:48,374 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:48,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:48,395 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:11:54,892 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:54,892 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:54,913 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:11:54,913 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:01,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:01,723 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:01,744 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:01,744 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:09,282 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:09,283 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:09,303 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:09,303 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:15,874 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:15,875 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:15,896 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:15,896 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:22,122 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:22,122 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:22,143 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:22,143 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:28,626 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:28,627 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:28,647 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:28,648 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:35,842 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:35,843 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:35,863 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:35,864 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:42,300 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:42,301 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:42,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:42,322 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:49,632 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:49,633 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:49,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:49,655 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:12:56,607 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:56,608 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:56,631 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:12:56,631 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:13:03,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:03,128 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:03,149 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:03,149 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:13:10,637 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:10,637 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:10,658 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:10,658 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:13:15,294 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:15,294 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:15,314 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:13:15,314 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0560516119003296, 'eval_wer': 0.0862526839190869, 'eval_runtime': 122.3847, 'eval_samples_per_second': 13.0, 'eval_steps_per_second': 0.139, 'epoch': 17.81}
+{'loss': 1.2035, 'grad_norm': 1.0129344463348389, 'learning_rate': 3.2933029935720725e-06, 'epoch': 17.81}
+{'loss': 1.1951, 'grad_norm': 1.0153981447219849, 'learning_rate': 3.276254711107376e-06, 'epoch': 17.82}
+{'loss': 1.1769, 'grad_norm': 0.9164778590202332, 'learning_rate': 3.2592492424098743e-06, 'epoch': 17.82}
+{'loss': 1.1893, 'grad_norm': 0.971153974533081, 'learning_rate': 3.2422866030611482e-06, 'epoch': 17.83}
+{'loss': 1.1841, 'grad_norm': 0.9555110931396484, 'learning_rate': 3.2253668086035185e-06, 'epoch': 17.83}
+{'loss': 1.1834, 'grad_norm': 0.9475175142288208, 'learning_rate': 3.208489874540043e-06, 'epoch': 17.84}
+{'loss': 1.2058, 'grad_norm': 1.0406694412231445, 'learning_rate': 3.191655816334522e-06, 'epoch': 17.85}
+{'loss': 1.1737, 'grad_norm': 0.9656884670257568, 'learning_rate': 3.174864649411473e-06, 'epoch': 17.85}
+{'loss': 1.2135, 'grad_norm': 1.022202968597412, 'learning_rate': 3.1581163891561085e-06, 'epoch': 17.86}
+{'loss': 1.1941, 'grad_norm': 1.0151762962341309, 'learning_rate': 3.1414110509143176e-06, 'epoch': 17.86}
+{'loss': 1.1856, 'grad_norm': 1.0387190580368042, 'learning_rate': 3.124748649992664e-06, 'epoch': 17.87}
+{'loss': 1.1797, 'grad_norm': 0.9732431769371033, 'learning_rate': 3.108129201658386e-06, 'epoch': 17.87}
+{'loss': 1.1878, 'grad_norm': 0.9476851224899292, 'learning_rate': 3.091552721139342e-06, 'epoch': 17.88}
+{'loss': 1.1827, 'grad_norm': 0.8947543501853943, 'learning_rate': 3.0750192236240436e-06, 'epoch': 17.89}
+{'loss': 1.1906, 'grad_norm': 0.9530948400497437, 'learning_rate': 3.0585287242615935e-06, 'epoch': 17.89}
+{'loss': 1.2048, 'grad_norm': 0.9605783820152283, 'learning_rate': 3.0420812381617147e-06, 'epoch': 17.9}
+{'loss': 1.1886, 'grad_norm': 1.0425201654434204, 'learning_rate': 3.0256767803947264e-06, 'epoch': 17.9}
+{'loss': 1.1935, 'grad_norm': 1.1017308235168457, 'learning_rate': 3.0093153659914917e-06, 'epoch': 17.91}
+{'loss': 1.1742, 'grad_norm': 1.0700063705444336, 'learning_rate': 2.9929970099434685e-06, 'epoch': 17.91}
+{'loss': 1.1897, 'grad_norm': 0.9036211967468262, 'learning_rate': 2.976721727202626e-06, 'epoch': 17.92}
+{'loss': 1.1783, 'grad_norm': 0.9064768552780151, 'learning_rate': 2.960489532681511e-06, 'epoch': 17.93}
+{'loss': 1.1909, 'grad_norm': 0.963930606842041, 'learning_rate': 2.944300441253144e-06, 'epoch': 17.93}
+{'loss': 1.1734, 'grad_norm': 0.9728797078132629, 'learning_rate': 2.928154467751077e-06, 'epoch': 17.94}
+{'loss': 1.2156, 'grad_norm': 0.9973131418228149, 'learning_rate': 2.9120516269693645e-06, 'epoch': 17.94}
+{'loss': 1.1853, 'grad_norm': 1.0095248222351074, 'learning_rate': 2.8959919336625044e-06, 'epoch': 17.95}
+{'loss': 1.1901, 'grad_norm': 1.0700557231903076, 'learning_rate': 2.8799754025454895e-06, 'epoch': 17.96}
+{'loss': 1.1801, 'grad_norm': 0.8967266082763672, 'learning_rate': 2.864002048293768e-06, 'epoch': 17.96}
+{'loss': 1.2058, 'grad_norm': 0.9925025701522827, 'learning_rate': 2.848071885543195e-06, 'epoch': 17.97}
+{'loss': 1.1764, 'grad_norm': 0.9694082140922546, 'learning_rate': 2.832184928890092e-06, 'epoch': 17.97}
+{'loss': 1.2049, 'grad_norm': 1.002292513847351, 'learning_rate': 2.816341192891147e-06, 'epoch': 17.98}
+{'loss': 1.1999, 'grad_norm': 1.0052485466003418, 'learning_rate': 2.8005406920634884e-06, 'epoch': 17.98}
+{'loss': 1.1952, 'grad_norm': 1.112763524055481, 'learning_rate': 2.784783440884605e-06, 'epoch': 17.99}
+{'loss': 1.1905, 'grad_norm': 1.0258405208587646, 'learning_rate': 2.7690694537923527e-06, 'epoch': 18.0}
+{'loss': 1.1983, 'grad_norm': 1.068730115890503, 'learning_rate': 2.753398745184966e-06, 'epoch': 18.0}
+{'loss': 1.1908, 'grad_norm': 1.0559611320495605, 'learning_rate': 2.7377713294210185e-06, 'epoch': 18.01}
+{'loss': 1.2084, 'grad_norm': 0.9972121119499207, 'learning_rate': 2.7221872208194012e-06, 'epoch': 18.01}
+{'loss': 1.1824, 'grad_norm': 1.0247503519058228, 'learning_rate': 2.7066464336593493e-06, 'epoch': 18.02}
+{'loss': 1.1857, 'grad_norm': 0.9227665662765503, 'learning_rate': 2.6911489821803816e-06, 'epoch': 18.02}
+{'loss': 1.1642, 'grad_norm': 0.8686926960945129, 'learning_rate': 2.6756948805823188e-06, 'epoch': 18.03}
+{'loss': 1.1863, 'grad_norm': 0.8699676990509033, 'learning_rate': 2.6602841430252627e-06, 'epoch': 18.04}
+{'loss': 1.1892, 'grad_norm': 1.0342296361923218, 'learning_rate': 2.6449167836295796e-06, 'epoch': 18.04}
+{'loss': 1.1944, 'grad_norm': 1.0260791778564453, 'learning_rate': 2.629592816475895e-06, 'epoch': 18.05}
+{'loss': 1.1782, 'grad_norm': 1.0384284257888794, 'learning_rate': 2.614312255605053e-06, 'epoch': 18.05}
+{'loss': 1.1956, 'grad_norm': 0.954505980014801, 'learning_rate': 2.599075115018159e-06, 'epoch': 18.06}
+{'loss': 1.1798, 'grad_norm': 0.8944472670555115, 'learning_rate': 2.5838814086765183e-06, 'epoch': 18.06}
+{'loss': 1.1888, 'grad_norm': 1.0629847049713135, 'learning_rate': 2.5687311505016487e-06, 'epoch': 18.07}
+{'loss': 1.2027, 'grad_norm': 1.10912024974823, 'learning_rate': 2.553624354375228e-06, 'epoch': 18.08}
+{'loss': 1.1833, 'grad_norm': 1.0266085863113403, 'learning_rate': 2.5385610341391366e-06, 'epoch': 18.08}
+{'loss': 1.1739, 'grad_norm': 0.9426797032356262, 'learning_rate': 2.5235412035954266e-06, 'epoch': 18.09}
+{'loss': 1.2078, 'grad_norm': 0.9277395009994507, 'learning_rate': 2.5085648765062725e-06, 'epoch': 18.09}
+{'loss': 1.191, 'grad_norm': 0.9199485182762146, 'learning_rate': 2.493632066594017e-06, 'epoch': 18.1}
+{'loss': 1.1759, 'grad_norm': 0.9879516363143921, 'learning_rate': 2.478742787541107e-06, 'epoch': 18.1}
+{'loss': 1.1975, 'grad_norm': 0.9990441799163818, 'learning_rate': 2.4638970529901317e-06, 'epoch': 18.11}
+{'loss': 1.1884, 'grad_norm': 0.9551469087600708, 'learning_rate': 2.4490948765437397e-06, 'epoch': 18.12}
+{'loss': 1.1935, 'grad_norm': 0.9738582968711853, 'learning_rate': 2.4343362717647036e-06, 'epoch': 18.12}
+{'loss': 1.1781, 'grad_norm': 0.9513758420944214, 'learning_rate': 2.419621252175874e-06, 'epoch': 18.13}
+{'loss': 1.1948, 'grad_norm': 0.9835777282714844, 'learning_rate': 2.404949831260141e-06, 'epoch': 18.13}
+{'loss': 1.2007, 'grad_norm': 0.9798340797424316, 'learning_rate': 2.39032202246045e-06, 'epoch': 18.14}
+{'loss': 1.1733, 'grad_norm': 1.0984320640563965, 'learning_rate': 2.3757378391798206e-06, 'epoch': 18.14}
+{'loss': 1.199, 'grad_norm': 0.9663336873054504, 'learning_rate': 2.3611972947812452e-06, 'epoch': 18.15}
+{'loss': 1.1802, 'grad_norm': 1.0654637813568115, 'learning_rate': 2.3467004025877882e-06, 'epoch': 18.16}
+{'loss': 1.1795, 'grad_norm': 0.9697952270507812, 'learning_rate': 2.3322471758824715e-06, 'epoch': 18.16}
+{'loss': 1.1708, 'grad_norm': 0.9033987522125244, 'learning_rate': 2.3178376279083267e-06, 'epoch': 18.17}
+{'loss': 1.1822, 'grad_norm': 1.0864723920822144, 'learning_rate': 2.3034717718683767e-06, 'epoch': 18.17}
+{'loss': 1.2006, 'grad_norm': 0.9678418040275574, 'learning_rate': 2.289149620925578e-06, 'epoch': 18.18}
+{'loss': 1.1933, 'grad_norm': 0.9530956149101257, 'learning_rate': 2.274871188202877e-06, 'epoch': 18.18}
+{'loss': 1.216, 'grad_norm': 1.038476586341858, 'learning_rate': 2.2606364867831256e-06, 'epoch': 18.19}
+{'loss': 1.1968, 'grad_norm': 1.0612119436264038, 'learning_rate': 2.2464455297091543e-06, 'epoch': 18.2}
+{'loss': 1.1929, 'grad_norm': 0.9730681777000427, 'learning_rate': 2.2322983299836623e-06, 'epoch': 18.2}
+{'loss': 1.1701, 'grad_norm': 0.9385014176368713, 'learning_rate': 2.218194900569281e-06, 'epoch': 18.21}
+{'loss': 1.1798, 'grad_norm': 1.0291447639465332, 'learning_rate': 2.2041352543885382e-06, 'epoch': 18.21}
+{'loss': 1.1933, 'grad_norm': 1.09242582321167, 'learning_rate': 2.190119404323829e-06, 'epoch': 18.22}
+{'loss': 1.1997, 'grad_norm': 1.0085396766662598, 'learning_rate': 2.176147363217443e-06, 'epoch': 18.23}
+{'loss': 1.1944, 'grad_norm': 0.8830893635749817, 'learning_rate': 2.1622191438715104e-06, 'epoch': 18.23}
+{'loss': 1.2072, 'grad_norm': 0.9416563510894775, 'learning_rate': 2.148334759048006e-06, 'epoch': 18.24}
+{'loss': 1.1861, 'grad_norm': 0.9617279171943665, 'learning_rate': 2.1344942214687613e-06, 'epoch': 18.24}
+{'loss': 1.1968, 'grad_norm': 1.0335792303085327, 'learning_rate': 2.1206975438154094e-06, 'epoch': 18.25}
+{'loss': 1.2038, 'grad_norm': 0.9486597776412964, 'learning_rate': 2.1069447387294097e-06, 'epoch': 18.25}
+{'loss': 1.1784, 'grad_norm': 0.8976007699966431, 'learning_rate': 2.093235818812025e-06, 'epoch': 18.26}
+{'loss': 1.1958, 'grad_norm': 0.9666115045547485, 'learning_rate': 2.0795707966242835e-06, 'epoch': 18.27}
+{'loss': 1.1718, 'grad_norm': 0.9059499502182007, 'learning_rate': 2.065949684687016e-06, 'epoch': 18.27}
+{'loss': 1.1764, 'grad_norm': 0.962051272392273, 'learning_rate': 2.052372495480825e-06, 'epoch': 18.28}
+{'loss': 1.1902, 'grad_norm': 0.9237242937088013, 'learning_rate': 2.0388392414460486e-06, 'epoch': 18.28}
+{'loss': 1.1695, 'grad_norm': 1.0864202976226807, 'learning_rate': 2.0253499349827687e-06, 'epoch': 18.29}
+{'loss': 1.1962, 'grad_norm': 1.0745251178741455, 'learning_rate': 2.0119045884508137e-06, 'epoch': 18.29}
+{'loss': 1.1918, 'grad_norm': 0.9637471437454224, 'learning_rate': 1.9985032141697234e-06, 'epoch': 18.3}
+{'loss': 1.1962, 'grad_norm': 1.0692942142486572, 'learning_rate': 1.9851458244187443e-06, 'epoch': 18.31}
+{'loss': 1.1932, 'grad_norm': 0.9761235117912292, 'learning_rate': 1.9718324314368356e-06, 'epoch': 18.31}
+{'loss': 1.2043, 'grad_norm': 1.0368660688400269, 'learning_rate': 1.958563047422633e-06, 'epoch': 18.32}
+{'loss': 1.1948, 'grad_norm': 0.9934616684913635, 'learning_rate': 1.945337684534437e-06, 'epoch': 18.32}
+{'loss': 1.207, 'grad_norm': 0.9699981808662415, 'learning_rate': 1.9321563548902415e-06, 'epoch': 18.33}
+{'loss': 1.1881, 'grad_norm': 0.9280322790145874, 'learning_rate': 1.919019070567665e-06, 'epoch': 18.33}
+{'loss': 1.1888, 'grad_norm': 0.9402063488960266, 'learning_rate': 1.905925843603993e-06, 'epoch': 18.34}
+{'loss': 1.183, 'grad_norm': 0.9985532760620117, 'learning_rate': 1.8928766859961331e-06, 'epoch': 18.35}
+{'loss': 1.1876, 'grad_norm': 0.8984982967376709, 'learning_rate': 1.8798716097005962e-06, 'epoch': 18.35}
+{'loss': 1.181, 'grad_norm': 0.9172433614730835, 'learning_rate': 1.866910626633531e-06, 'epoch': 18.36}
+{'loss': 1.1921, 'grad_norm': 1.0557652711868286, 'learning_rate': 1.8539937486706664e-06, 'epoch': 18.36}
+{'loss': 1.189, 'grad_norm': 0.9710733294487, 'learning_rate': 1.8411209876473316e-06, 'epoch': 18.37}
+{'loss': 1.1945, 'grad_norm': 0.9865237474441528, 'learning_rate': 1.828292355358423e-06, 'epoch': 18.37}
+{'loss': 1.1795, 'grad_norm': 1.0615195035934448, 'learning_rate': 1.8155078635584063e-06, 'epoch': 18.38}
+[WARNING|trainer.py:761] 2025-05-16 04:28:39,251 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:39,252 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:28:45,869 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:45,869 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:45,890 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:45,890 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:28:52,841 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:52,841 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:52,862 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:52,863 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:28:59,108 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:59,109 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:59,129 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:28:59,129 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:05,608 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:05,609 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:05,630 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:05,630 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:12,514 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:12,515 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:12,535 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:12,535 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:20,111 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:20,111 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:20,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:20,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:26,951 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:26,951 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:26,972 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:26,972 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:33,046 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:33,046 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:33,068 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:33,068 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:39,570 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:39,570 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:39,591 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:39,592 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:46,762 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:46,762 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:46,784 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:46,784 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:29:53,276 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:53,277 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:53,297 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:29:53,298 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:30:00,530 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:00,530 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:00,552 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:00,552 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:30:07,434 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:07,434 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:07,456 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:07,456 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:30:13,783 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:13,784 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:13,805 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:13,805 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:30:21,489 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:21,490 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:21,511 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:21,511 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:30:26,008 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:26,009 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:26,030 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:30:26,030 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0559861660003662, 'eval_wer': 0.08588541078087919, 'eval_runtime': 122.2621, 'eval_samples_per_second': 13.013, 'eval_steps_per_second': 0.139, 'epoch': 18.38}
+{'loss': 1.1753, 'grad_norm': 0.9324732422828674, 'learning_rate': 1.802767523961308e-06, 'epoch': 18.39}
+{'loss': 1.1895, 'grad_norm': 1.055492877960205, 'learning_rate': 1.7900713482406836e-06, 'epoch': 18.39}
+{'loss': 1.1777, 'grad_norm': 1.0246851444244385, 'learning_rate': 1.7774193480296508e-06, 'epoch': 18.4}
+{'loss': 1.183, 'grad_norm': 0.9835911393165588, 'learning_rate': 1.7648115349208183e-06, 'epoch': 18.4}
+{'loss': 1.1819, 'grad_norm': 1.0278693437576294, 'learning_rate': 1.7522479204663333e-06, 'epoch': 18.41}
+{'loss': 1.1835, 'grad_norm': 1.0746480226516724, 'learning_rate': 1.7397285161778282e-06, 'epoch': 18.41}
+{'loss': 1.1732, 'grad_norm': 0.9996069073677063, 'learning_rate': 1.7272533335264362e-06, 'epoch': 18.42}
+{'loss': 1.1926, 'grad_norm': 0.9989613890647888, 'learning_rate': 1.7148223839427695e-06, 'epoch': 18.43}
+{'loss': 1.1912, 'grad_norm': 1.0255465507507324, 'learning_rate': 1.7024356788169027e-06, 'epoch': 18.43}
+{'loss': 1.1802, 'grad_norm': 0.9210498929023743, 'learning_rate': 1.6900932294983836e-06, 'epoch': 18.44}
+{'loss': 1.2272, 'grad_norm': 1.0370471477508545, 'learning_rate': 1.6777950472962167e-06, 'epoch': 18.44}
+{'loss': 1.157, 'grad_norm': 0.8572918772697449, 'learning_rate': 1.6655411434788132e-06, 'epoch': 18.45}
+{'loss': 1.1988, 'grad_norm': 1.078244686126709, 'learning_rate': 1.6533315292740461e-06, 'epoch': 18.45}
+{'loss': 1.1818, 'grad_norm': 1.0443696975708008, 'learning_rate': 1.641166215869196e-06, 'epoch': 18.46}
+{'loss': 1.1871, 'grad_norm': 0.9752913117408752, 'learning_rate': 1.629045214410944e-06, 'epoch': 18.47}
+{'loss': 1.1836, 'grad_norm': 0.9803406000137329, 'learning_rate': 1.6169685360053896e-06, 'epoch': 18.47}
+{'loss': 1.171, 'grad_norm': 0.9486103057861328, 'learning_rate': 1.6049361917179883e-06, 'epoch': 18.48}
+{'loss': 1.217, 'grad_norm': 1.0817418098449707, 'learning_rate': 1.5929481925736087e-06, 'epoch': 18.48}
+{'loss': 1.1813, 'grad_norm': 1.0366880893707275, 'learning_rate': 1.5810045495564643e-06, 'epoch': 18.49}
+{'loss': 1.1788, 'grad_norm': 0.9360283613204956, 'learning_rate': 1.5691052736101425e-06, 'epoch': 18.5}
+{'loss': 1.18, 'grad_norm': 1.003732442855835, 'learning_rate': 1.557250375637565e-06, 'epoch': 18.5}
+{'loss': 1.1881, 'grad_norm': 1.027153730392456, 'learning_rate': 1.5454398665009885e-06, 'epoch': 18.51}
+{'loss': 1.1785, 'grad_norm': 0.9948772192001343, 'learning_rate': 1.5336737570220205e-06, 'epoch': 18.51}
+{'loss': 1.208, 'grad_norm': 0.9291689991950989, 'learning_rate': 1.521952057981559e-06, 'epoch': 18.52}
+{'loss': 1.1772, 'grad_norm': 1.1291691064834595, 'learning_rate': 1.5102747801198303e-06, 'epoch': 18.52}
+{'loss': 1.1735, 'grad_norm': 0.9160462617874146, 'learning_rate': 1.498641934136352e-06, 'epoch': 18.53}
+{'loss': 1.2046, 'grad_norm': 0.9377362132072449, 'learning_rate': 1.4870535306899193e-06, 'epoch': 18.54}
+{'loss': 1.1899, 'grad_norm': 0.9862871170043945, 'learning_rate': 1.4755095803986246e-06, 'epoch': 18.54}
+{'loss': 1.192, 'grad_norm': 0.9550046324729919, 'learning_rate': 1.4640100938398162e-06, 'epoch': 18.55}
+{'loss': 1.1963, 'grad_norm': 1.0236836671829224, 'learning_rate': 1.4525550815501215e-06, 'epoch': 18.55}
+{'loss': 1.2119, 'grad_norm': 1.028032660484314, 'learning_rate': 1.4411445540253867e-06, 'epoch': 18.56}
+{'loss': 1.1742, 'grad_norm': 0.9778861403465271, 'learning_rate': 1.4297785217207136e-06, 'epoch': 18.56}
+{'loss': 1.1922, 'grad_norm': 0.9274613261222839, 'learning_rate': 1.4184569950504512e-06, 'epoch': 18.57}
+{'loss': 1.1774, 'grad_norm': 0.9358683228492737, 'learning_rate': 1.4071799843881318e-06, 'epoch': 18.58}
+{'loss': 1.1746, 'grad_norm': 0.9302921891212463, 'learning_rate': 1.3959475000665397e-06, 'epoch': 18.58}
+{'loss': 1.17, 'grad_norm': 0.9335759878158569, 'learning_rate': 1.3847595523776216e-06, 'epoch': 18.59}
+{'loss': 1.1884, 'grad_norm': 1.0395796298980713, 'learning_rate': 1.3736161515725535e-06, 'epoch': 18.59}
+{'loss': 1.1852, 'grad_norm': 0.9471568465232849, 'learning_rate': 1.3625173078616738e-06, 'epoch': 18.6}
+{'loss': 1.193, 'grad_norm': 0.919293224811554, 'learning_rate': 1.351463031414494e-06, 'epoch': 18.6}
+{'loss': 1.1889, 'grad_norm': 0.9507539868354797, 'learning_rate': 1.3404533323596998e-06, 'epoch': 18.61}
+{'loss': 1.1826, 'grad_norm': 0.9733325839042664, 'learning_rate': 1.329488220785128e-06, 'epoch': 18.62}
+{'loss': 1.1923, 'grad_norm': 0.9237587451934814, 'learning_rate': 1.3185677067377502e-06, 'epoch': 18.62}
+{'loss': 1.2273, 'grad_norm': 1.0180895328521729, 'learning_rate': 1.3076918002237004e-06, 'epoch': 18.63}
+{'loss': 1.1925, 'grad_norm': 0.9843405485153198, 'learning_rate': 1.2968605112082086e-06, 'epoch': 18.63}
+{'loss': 1.1794, 'grad_norm': 1.0176849365234375, 'learning_rate': 1.2860738496156563e-06, 'epoch': 18.64}
+{'loss': 1.1787, 'grad_norm': 0.9655718207359314, 'learning_rate': 1.2753318253294982e-06, 'epoch': 18.64}
+{'loss': 1.1795, 'grad_norm': 0.9129777550697327, 'learning_rate': 1.264634448192319e-06, 'epoch': 18.65}
+{'loss': 1.2009, 'grad_norm': 1.025109887123108, 'learning_rate': 1.2539817280057926e-06, 'epoch': 18.66}
+{'loss': 1.2032, 'grad_norm': 0.9512131214141846, 'learning_rate': 1.2433736745306454e-06, 'epoch': 18.66}
+{'loss': 1.1762, 'grad_norm': 1.0156642198562622, 'learning_rate': 1.2328102974867215e-06, 'epoch': 18.67}
+{'loss': 1.1854, 'grad_norm': 0.9579278826713562, 'learning_rate': 1.222291606552883e-06, 'epoch': 18.67}
+{'loss': 1.1762, 'grad_norm': 1.0485162734985352, 'learning_rate': 1.2118176113670935e-06, 'epoch': 18.68}
+{'loss': 1.1946, 'grad_norm': 1.087209701538086, 'learning_rate': 1.201388321526324e-06, 'epoch': 18.68}
+{'loss': 1.1928, 'grad_norm': 0.9611390233039856, 'learning_rate': 1.191003746586602e-06, 'epoch': 18.69}
+{'loss': 1.1799, 'grad_norm': 1.0697816610336304, 'learning_rate': 1.1806638960629846e-06, 'epoch': 18.7}
+{'loss': 1.1836, 'grad_norm': 0.9938270449638367, 'learning_rate': 1.1703687794295473e-06, 'epoch': 18.7}
+{'loss': 1.1621, 'grad_norm': 0.9449156522750854, 'learning_rate': 1.160118406119383e-06, 'epoch': 18.71}
+{'loss': 1.1878, 'grad_norm': 1.0239744186401367, 'learning_rate': 1.1499127855245757e-06, 'epoch': 18.71}
+{'loss': 1.1806, 'grad_norm': 1.0607497692108154, 'learning_rate': 1.1397519269962052e-06, 'epoch': 18.72}
+{'loss': 1.1927, 'grad_norm': 0.9377030730247498, 'learning_rate': 1.1296358398443468e-06, 'epoch': 18.72}
+{'loss': 1.1766, 'grad_norm': 0.9128755331039429, 'learning_rate': 1.1195645333380452e-06, 'epoch': 18.73}
+{'loss': 1.1831, 'grad_norm': 0.9334362149238586, 'learning_rate': 1.1095380167053283e-06, 'epoch': 18.74}
+{'loss': 1.1927, 'grad_norm': 0.9193927645683289, 'learning_rate': 1.0995562991331604e-06, 'epoch': 18.74}
+{'loss': 1.1877, 'grad_norm': 0.9001800417900085, 'learning_rate': 1.089619389767473e-06, 'epoch': 18.75}
+{'loss': 1.1864, 'grad_norm': 0.9730002880096436, 'learning_rate': 1.0797272977131387e-06, 'epoch': 18.75}
+{'loss': 1.1819, 'grad_norm': 0.9310572147369385, 'learning_rate': 1.06988003203397e-06, 'epoch': 18.76}
+{'loss': 1.1957, 'grad_norm': 0.9590122699737549, 'learning_rate': 1.060077601752704e-06, 'epoch': 18.77}
+{'loss': 1.1865, 'grad_norm': 1.3960466384887695, 'learning_rate': 1.0503200158509892e-06, 'epoch': 18.77}
+{'loss': 1.1931, 'grad_norm': 0.9677202105522156, 'learning_rate': 1.0406072832693883e-06, 'epoch': 18.78}
+{'loss': 1.2012, 'grad_norm': 0.9956695437431335, 'learning_rate': 1.0309394129073758e-06, 'epoch': 18.78}
+{'loss': 1.1648, 'grad_norm': 1.0677580833435059, 'learning_rate': 1.0213164136233057e-06, 'epoch': 18.79}
+{'loss': 1.1991, 'grad_norm': 1.025475025177002, 'learning_rate': 1.011738294234428e-06, 'epoch': 18.79}
+{'loss': 1.1715, 'grad_norm': 1.043155312538147, 'learning_rate': 1.002205063516867e-06, 'epoch': 18.8}
+{'loss': 1.1792, 'grad_norm': 0.9822032451629639, 'learning_rate': 9.927167302056206e-07, 'epoch': 18.81}
+{'loss': 1.1938, 'grad_norm': 0.9842929244041443, 'learning_rate': 9.832733029945434e-07, 'epoch': 18.81}
+{'loss': 1.2057, 'grad_norm': 1.0182658433914185, 'learning_rate': 9.738747905363475e-07, 'epoch': 18.82}
+{'loss': 1.1899, 'grad_norm': 0.9370742440223694, 'learning_rate': 9.645212014425863e-07, 'epoch': 18.82}
+{'loss': 1.1832, 'grad_norm': 1.0303369760513306, 'learning_rate': 9.552125442836639e-07, 'epoch': 18.83}
+{'loss': 1.1831, 'grad_norm': 0.9194797873497009, 'learning_rate': 9.459488275887919e-07, 'epoch': 18.83}
+{'loss': 1.175, 'grad_norm': 0.9884278178215027, 'learning_rate': 9.367300598460334e-07, 'epoch': 18.84}
+{'loss': 1.1639, 'grad_norm': 0.9763996601104736, 'learning_rate': 9.275562495022369e-07, 'epoch': 18.85}
+{'loss': 1.1939, 'grad_norm': 0.9939215779304504, 'learning_rate': 9.184274049630856e-07, 'epoch': 18.85}
+{'loss': 1.1871, 'grad_norm': 1.0694992542266846, 'learning_rate': 9.093435345930311e-07, 'epoch': 18.86}
+{'loss': 1.1876, 'grad_norm': 0.9541735053062439, 'learning_rate': 9.003046467153492e-07, 'epoch': 18.86}
+{'loss': 1.1885, 'grad_norm': 0.9616324305534363, 'learning_rate': 8.913107496120836e-07, 'epoch': 18.87}
+{'loss': 1.2023, 'grad_norm': 1.0270761251449585, 'learning_rate': 8.823618515240467e-07, 'epoch': 18.87}
+{'loss': 1.1777, 'grad_norm': 0.9661944508552551, 'learning_rate': 8.734579606508359e-07, 'epoch': 18.88}
+{'loss': 1.1776, 'grad_norm': 0.9591684341430664, 'learning_rate': 8.645990851507945e-07, 'epoch': 18.89}
+{'loss': 1.1814, 'grad_norm': 1.0537124872207642, 'learning_rate': 8.557852331410345e-07, 'epoch': 18.89}
+{'loss': 1.1817, 'grad_norm': 0.8942594528198242, 'learning_rate': 8.470164126974029e-07, 'epoch': 18.9}
+{'loss': 1.1912, 'grad_norm': 0.9840949773788452, 'learning_rate': 8.382926318544929e-07, 'epoch': 18.9}
+{'loss': 1.1892, 'grad_norm': 0.9735470414161682, 'learning_rate': 8.296138986056215e-07, 'epoch': 18.91}
+{'loss': 1.1832, 'grad_norm': 1.0625840425491333, 'learning_rate': 8.209802209028356e-07, 'epoch': 18.91}
+{'loss': 1.185, 'grad_norm': 0.9278374910354614, 'learning_rate': 8.123916066569109e-07, 'epoch': 18.92}
+{'loss': 1.1968, 'grad_norm': 0.9827959537506104, 'learning_rate': 8.038480637373089e-07, 'epoch': 18.93}
+{'loss': 1.1976, 'grad_norm': 1.1904926300048828, 'learning_rate': 7.953495999722039e-07, 'epoch': 18.93}
+{'loss': 1.2011, 'grad_norm': 0.9505891799926758, 'learning_rate': 7.868962231484717e-07, 'epoch': 18.94}
+{'loss': 1.1795, 'grad_norm': 0.9961323738098145, 'learning_rate': 7.784879410116677e-07, 'epoch': 18.94}
+{'loss': 1.1804, 'grad_norm': 0.9580272436141968, 'learning_rate': 7.701247612660436e-07, 'epoch': 18.95}
+{'loss': 1.1807, 'grad_norm': 0.8720689415931702, 'learning_rate': 7.61806691574503e-07, 'epoch': 18.95}
+[WARNING|trainer.py:761] 2025-05-16 04:45:39,488 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:39,488 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:45:46,056 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:46,056 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:46,079 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:46,079 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:45:52,964 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:52,965 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:52,985 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:52,985 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:45:59,188 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:59,189 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:59,208 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:45:59,208 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:05,641 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:05,641 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:05,661 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:05,661 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:12,428 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:12,429 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:12,449 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:12,449 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:19,905 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:19,906 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:19,926 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:19,926 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:26,496 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:26,497 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:26,516 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:26,517 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:32,535 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:32,535 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:32,555 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:32,556 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:39,154 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:39,155 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:39,174 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:39,174 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:46,299 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:46,300 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:46,320 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:46,320 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:52,741 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:52,742 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:52,762 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:52,762 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:46:59,954 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:59,954 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:59,974 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:46:59,974 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:47:06,856 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:06,857 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:06,877 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:06,877 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:47:13,157 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:13,158 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:13,178 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:13,178 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:47:20,871 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:20,871 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:20,891 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:20,891 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 04:47:25,362 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:25,362 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:25,382 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 04:47:25,383 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0560623407363892, 'eval_wer': 0.08574415188156854, 'eval_runtime': 121.4757, 'eval_samples_per_second': 13.097, 'eval_steps_per_second': 0.14, 'epoch': 18.95}
+{'loss': 1.1946, 'grad_norm': 1.044963002204895, 'learning_rate': 7.535337395586235e-07, 'epoch': 18.96}
+{'loss': 1.1666, 'grad_norm': 0.8906787037849426, 'learning_rate': 7.453059127986563e-07, 'epoch': 18.97}
+{'loss': 1.1744, 'grad_norm': 1.0831100940704346, 'learning_rate': 7.37123218833494e-07, 'epoch': 18.97}
+{'loss': 1.1814, 'grad_norm': 0.9545280337333679, 'learning_rate': 7.289856651606806e-07, 'epoch': 18.98}
+{'loss': 1.1851, 'grad_norm': 1.0840380191802979, 'learning_rate': 7.208932592363951e-07, 'epoch': 18.98}
+{'loss': 1.1579, 'grad_norm': 0.9227370619773865, 'learning_rate': 7.128460084754465e-07, 'epoch': 18.99}
+{'loss': 1.1892, 'grad_norm': 0.9979352355003357, 'learning_rate': 7.048439202512788e-07, 'epoch': 18.99}
+{'loss': 1.1995, 'grad_norm': 0.9541153311729431, 'learning_rate': 6.968870018959487e-07, 'epoch': 19.0}
+{'loss': 1.1864, 'grad_norm': 0.9431100487709045, 'learning_rate': 6.889752607001263e-07, 'epoch': 19.01}
+{'loss': 1.1761, 'grad_norm': 0.9281498789787292, 'learning_rate': 6.811087039130835e-07, 'epoch': 19.01}
+{'loss': 1.1613, 'grad_norm': 0.8648608922958374, 'learning_rate': 6.732873387426991e-07, 'epoch': 19.02}
+{'loss': 1.1939, 'grad_norm': 1.0289045572280884, 'learning_rate': 6.655111723554488e-07, 'epoch': 19.02}
+{'loss': 1.1727, 'grad_norm': 0.964759111404419, 'learning_rate': 6.57780211876371e-07, 'epoch': 19.03}
+{'loss': 1.1965, 'grad_norm': 1.0692437887191772, 'learning_rate': 6.500944643891058e-07, 'epoch': 19.04}
+{'loss': 1.186, 'grad_norm': 0.9712770581245422, 'learning_rate': 6.424539369358568e-07, 'epoch': 19.04}
+{'loss': 1.1949, 'grad_norm': 1.029645323753357, 'learning_rate': 6.348586365173956e-07, 'epoch': 19.05}
+{'loss': 1.2041, 'grad_norm': 0.9500347971916199, 'learning_rate': 6.273085700930517e-07, 'epoch': 19.05}
+{'loss': 1.1813, 'grad_norm': 0.9927458167076111, 'learning_rate': 6.198037445807118e-07, 'epoch': 19.06}
+{'loss': 1.1713, 'grad_norm': 1.0557481050491333, 'learning_rate': 6.123441668568088e-07, 'epoch': 19.06}
+{'loss': 1.2059, 'grad_norm': 1.0194036960601807, 'learning_rate': 6.049298437563168e-07, 'epoch': 19.07}
+{'loss': 1.1889, 'grad_norm': 1.1165223121643066, 'learning_rate': 5.975607820727337e-07, 'epoch': 19.08}
+{'loss': 1.1689, 'grad_norm': 1.0386104583740234, 'learning_rate': 5.902369885581151e-07, 'epoch': 19.08}
+{'loss': 1.2036, 'grad_norm': 1.050809383392334, 'learning_rate': 5.829584699229959e-07, 'epoch': 19.09}
+{'loss': 1.1688, 'grad_norm': 0.9038121104240417, 'learning_rate': 5.757252328364692e-07, 'epoch': 19.09}
+{'loss': 1.192, 'grad_norm': 0.9542014002799988, 'learning_rate': 5.685372839261126e-07, 'epoch': 19.1}
+{'loss': 1.1922, 'grad_norm': 0.9695626497268677, 'learning_rate': 5.613946297780116e-07, 'epoch': 19.1}
+{'loss': 1.1604, 'grad_norm': 0.9080055356025696, 'learning_rate': 5.542972769367536e-07, 'epoch': 19.11}
+{'loss': 1.1811, 'grad_norm': 0.9846060276031494, 'learning_rate': 5.472452319054169e-07, 'epoch': 19.12}
+{'loss': 1.1793, 'grad_norm': 0.944907009601593, 'learning_rate': 5.402385011455648e-07, 'epoch': 19.12}
+{'loss': 1.2035, 'grad_norm': 0.9618197083473206, 'learning_rate': 5.332770910772406e-07, 'epoch': 19.13}
+{'loss': 1.2093, 'grad_norm': 0.9726974368095398, 'learning_rate': 5.263610080789673e-07, 'epoch': 19.13}
+{'loss': 1.1847, 'grad_norm': 0.9449639916419983, 'learning_rate': 5.194902584877253e-07, 'epoch': 19.14}
+{'loss': 1.187, 'grad_norm': 1.0320802927017212, 'learning_rate': 5.126648485989637e-07, 'epoch': 19.14}
+{'loss': 1.162, 'grad_norm': 0.9300134778022766, 'learning_rate': 5.058847846665949e-07, 'epoch': 19.15}
+{'loss': 1.1888, 'grad_norm': 1.0697548389434814, 'learning_rate': 4.991500729029606e-07, 'epoch': 19.16}
+{'loss': 1.1956, 'grad_norm': 0.9973644614219666, 'learning_rate': 4.924607194788773e-07, 'epoch': 19.16}
+{'loss': 1.1702, 'grad_norm': 0.9632745981216431, 'learning_rate': 4.858167305235796e-07, 'epoch': 19.17}
+{'loss': 1.2096, 'grad_norm': 1.0530446767807007, 'learning_rate': 4.792181121247377e-07, 'epoch': 19.17}
+{'loss': 1.1903, 'grad_norm': 0.9524180889129639, 'learning_rate': 4.726648703284571e-07, 'epoch': 19.18}
+{'loss': 1.1768, 'grad_norm': 0.9242413640022278, 'learning_rate': 4.6615701113927323e-07, 'epoch': 19.18}
+{'loss': 1.1645, 'grad_norm': 0.953406810760498, 'learning_rate': 4.596945405201232e-07, 'epoch': 19.19}
+{'loss': 1.1734, 'grad_norm': 0.8971442580223083, 'learning_rate': 4.532774643923575e-07, 'epoch': 19.2}
+{'loss': 1.1926, 'grad_norm': 1.0064551830291748, 'learning_rate': 4.4690578863574533e-07, 'epoch': 19.2}
+{'loss': 1.1982, 'grad_norm': 0.8886227607727051, 'learning_rate': 4.405795190884521e-07, 'epoch': 19.21}
+{'loss': 1.1886, 'grad_norm': 1.0023388862609863, 'learning_rate': 4.342986615470288e-07, 'epoch': 19.21}
+{'loss': 1.1883, 'grad_norm': 0.9755746126174927, 'learning_rate': 4.280632217664339e-07, 'epoch': 19.22}
+{'loss': 1.1807, 'grad_norm': 1.0072139501571655, 'learning_rate': 4.2187320545998927e-07, 'epoch': 19.22}
+{'loss': 1.1776, 'grad_norm': 0.8797051310539246, 'learning_rate': 4.157286182994184e-07, 'epoch': 19.23}
+{'loss': 1.1787, 'grad_norm': 0.9377007484436035, 'learning_rate': 4.096294659148083e-07, 'epoch': 19.24}
+{'loss': 1.1689, 'grad_norm': 0.9638490080833435, 'learning_rate': 4.0357575389461456e-07, 'epoch': 19.24}
+{'loss': 1.203, 'grad_norm': 1.0174905061721802, 'learning_rate': 3.9756748778566697e-07, 'epoch': 19.25}
+{'loss': 1.1617, 'grad_norm': 0.9596717953681946, 'learning_rate': 3.916046730931476e-07, 'epoch': 19.25}
+{'loss': 1.1684, 'grad_norm': 1.1768429279327393, 'learning_rate': 3.8568731528058465e-07, 'epoch': 19.26}
+{'loss': 1.1819, 'grad_norm': 0.9234669804573059, 'learning_rate': 3.798154197698699e-07, 'epoch': 19.26}
+{'loss': 1.2102, 'grad_norm': 1.0348083972930908, 'learning_rate': 3.7398899194123595e-07, 'epoch': 19.27}
+{'loss': 1.1797, 'grad_norm': 0.897323727607727, 'learning_rate': 3.682080371332507e-07, 'epoch': 19.28}
+{'loss': 1.1832, 'grad_norm': 0.9276246428489685, 'learning_rate': 3.624725606428176e-07, 'epoch': 19.28}
+{'loss': 1.1661, 'grad_norm': 0.9449304342269897, 'learning_rate': 3.567825677251644e-07, 'epoch': 19.29}
+{'loss': 1.1824, 'grad_norm': 0.9621635675430298, 'learning_rate': 3.5113806359386514e-07, 'epoch': 19.29}
+{'loss': 1.1732, 'grad_norm': 1.0164074897766113, 'learning_rate': 3.455390534207853e-07, 'epoch': 19.3}
+{'loss': 1.1966, 'grad_norm': 0.8767728805541992, 'learning_rate': 3.3998554233613093e-07, 'epoch': 19.3}
+{'loss': 1.2068, 'grad_norm': 1.0204222202301025, 'learning_rate': 3.344775354283937e-07, 'epoch': 19.31}
+{'loss': 1.188, 'grad_norm': 0.8729372620582581, 'learning_rate': 3.2901503774439517e-07, 'epoch': 19.32}
+{'loss': 1.1775, 'grad_norm': 0.9593812823295593, 'learning_rate': 3.2359805428924226e-07, 'epoch': 19.32}
+{'loss': 1.1824, 'grad_norm': 0.9696235656738281, 'learning_rate': 3.182265900263442e-07, 'epoch': 19.33}
+{'loss': 1.2054, 'grad_norm': 0.932036817073822, 'learning_rate': 3.1290064987740636e-07, 'epoch': 19.33}
+{'loss': 1.1778, 'grad_norm': 0.8533786535263062, 'learning_rate': 3.0762023872240895e-07, 'epoch': 19.34}
+{'loss': 1.1983, 'grad_norm': 0.948656439781189, 'learning_rate': 3.02385361399634e-07, 'epoch': 19.35}
+{'loss': 1.1757, 'grad_norm': 0.9859423637390137, 'learning_rate': 2.971960227056324e-07, 'epoch': 19.35}
+{'loss': 1.1787, 'grad_norm': 1.0002000331878662, 'learning_rate': 2.920522273952183e-07, 'epoch': 19.36}
+{'loss': 1.2028, 'grad_norm': 0.9671477675437927, 'learning_rate': 2.869539801815025e-07, 'epoch': 19.36}
+{'loss': 1.1997, 'grad_norm': 0.9760408401489258, 'learning_rate': 2.8190128573583103e-07, 'epoch': 19.37}
+{'loss': 1.1696, 'grad_norm': 0.9765370488166809, 'learning_rate': 2.7689414868783575e-07, 'epoch': 19.37}
+{'loss': 1.1799, 'grad_norm': 0.9645829796791077, 'learning_rate': 2.719325736254004e-07, 'epoch': 19.38}
+{'loss': 1.1907, 'grad_norm': 0.9811045527458191, 'learning_rate': 2.6701656509464423e-07, 'epoch': 19.39}
+{'loss': 1.197, 'grad_norm': 0.9414727091789246, 'learning_rate': 2.6214612759995543e-07, 'epoch': 19.39}
+{'loss': 1.1892, 'grad_norm': 0.9492089748382568, 'learning_rate': 2.5732126560396876e-07, 'epoch': 19.4}
+{'loss': 1.1663, 'grad_norm': 0.9696224927902222, 'learning_rate': 2.5254198352754324e-07, 'epoch': 19.4}
+{'loss': 1.18, 'grad_norm': 0.9296945333480835, 'learning_rate': 2.478082857497791e-07, 'epoch': 19.41}
+{'loss': 1.1854, 'grad_norm': 0.9570572376251221, 'learning_rate': 2.4312017660802304e-07, 'epoch': 19.41}
+{'loss': 1.1866, 'grad_norm': 0.9428401589393616, 'learning_rate': 2.384776603978296e-07, 'epoch': 19.42}
+{'loss': 1.2008, 'grad_norm': 1.0214594602584839, 'learning_rate': 2.3388074137298883e-07, 'epoch': 19.43}
+{'loss': 1.1983, 'grad_norm': 1.0670970678329468, 'learning_rate': 2.2932942374552058e-07, 'epoch': 19.43}
+{'loss': 1.1874, 'grad_norm': 1.0117735862731934, 'learning_rate': 2.2482371168564155e-07, 'epoch': 19.44}
+{'loss': 1.1794, 'grad_norm': 0.9729011058807373, 'learning_rate': 2.2036360932180382e-07, 'epoch': 19.44}
+{'loss': 1.1875, 'grad_norm': 1.0010849237442017, 'learning_rate': 2.1594912074063937e-07, 'epoch': 19.45}
+{'loss': 1.1711, 'grad_norm': 1.0569932460784912, 'learning_rate': 2.115802499870159e-07, 'epoch': 19.45}
+{'loss': 1.1913, 'grad_norm': 0.9954378008842468, 'learning_rate': 2.0725700106399206e-07, 'epoch': 19.46}
+{'loss': 1.1809, 'grad_norm': 1.1241528987884521, 'learning_rate': 2.0297937793281756e-07, 'epoch': 19.47}
+{'loss': 1.18, 'grad_norm': 0.9078443050384521, 'learning_rate': 1.9874738451293884e-07, 'epoch': 19.47}
+{'loss': 1.1911, 'grad_norm': 1.027892827987671, 'learning_rate': 1.9456102468199895e-07, 'epoch': 19.48}
+{'loss': 1.1857, 'grad_norm': 0.9565598368644714, 'learning_rate': 1.9042030227582648e-07, 'epoch': 19.48}
+{'loss': 1.1811, 'grad_norm': 0.9142249822616577, 'learning_rate': 1.863252210884411e-07, 'epoch': 19.49}
+{'loss': 1.208, 'grad_norm': 1.0252262353897095, 'learning_rate': 1.8227578487202028e-07, 'epoch': 19.49}
+{'loss': 1.2077, 'grad_norm': 0.9889923930168152, 'learning_rate': 1.7827199733693812e-07, 'epoch': 19.5}
+{'loss': 1.1948, 'grad_norm': 1.0916591882705688, 'learning_rate': 1.7431386215174877e-07, 'epoch': 19.51}
+{'loss': 1.1562, 'grad_norm': 0.9584410190582275, 'learning_rate': 1.7040138294314742e-07, 'epoch': 19.51}
+{'loss': 1.1755, 'grad_norm': 0.962062656879425, 'learning_rate': 1.6653456329603148e-07, 'epoch': 19.52}
+{'loss': 1.1809, 'grad_norm': 0.9326885938644409, 'learning_rate': 1.6271340675342845e-07, 'epoch': 19.52}
+{'loss': 1.1923, 'grad_norm': 0.942996621131897, 'learning_rate': 1.589379168165513e-07, 'epoch': 19.53}
+[WARNING|trainer.py:761] 2025-05-16 05:02:48,290 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:02:48,290 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:02:55,076 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:02:55,077 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:02:55,097 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:02:55,097 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:02,044 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:02,044 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:02,065 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:02,066 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:08,369 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:08,370 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:08,391 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:08,391 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:14,980 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:14,980 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:15,001 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:15,001 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:21,810 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:21,810 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:21,831 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:21,831 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:29,357 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:29,358 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:29,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:29,378 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:36,020 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:36,020 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:36,040 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:36,041 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:42,098 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:42,098 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:42,121 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:42,122 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:48,784 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:48,785 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:48,805 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:48,806 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:03:55,811 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:55,811 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:55,832 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:03:55,833 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:04:02,504 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:02,504 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:02,524 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:02,525 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:04:09,611 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:09,612 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:09,634 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:09,634 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:04:16,785 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:16,786 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:16,807 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:16,807 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:04:23,132 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:23,133 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:23,154 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:23,155 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:04:30,807 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:30,807 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:30,828 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:30,828 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         [WARNING|trainer.py:761] 2025-05-16 05:04:35,341 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:35,341 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:35,362 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:04:35,362 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+                                                                                                                                         
+                                                                                                                                         
+{'eval_loss': 1.0561457872390747, 'eval_wer': 0.08608317323991412, 'eval_runtime': 122.4086, 'eval_samples_per_second': 12.997, 'eval_steps_per_second': 0.139, 'epoch': 19.53}
+{'loss': 1.1696, 'grad_norm': 1.0817135572433472, 'learning_rate': 1.5520809694475972e-07, 'epoch': 19.53}
+{'loss': 1.1732, 'grad_norm': 0.9195762276649475, 'learning_rate': 1.5152395055556563e-07, 'epoch': 19.54}
+{'loss': 1.1864, 'grad_norm': 0.9074607491493225, 'learning_rate': 1.4788548102463318e-07, 'epoch': 19.55}
+{'loss': 1.1848, 'grad_norm': 0.9895302057266235, 'learning_rate': 1.4429269168578434e-07, 'epoch': 19.55}
+{'loss': 1.1897, 'grad_norm': 0.9548456072807312, 'learning_rate': 1.4074558583097104e-07, 'epoch': 19.56}
+{'loss': 1.2011, 'grad_norm': 1.0416704416275024, 'learning_rate': 1.3724416671029753e-07, 'epoch': 19.56}
+{'loss': 1.1879, 'grad_norm': 1.0131986141204834, 'learning_rate': 1.3378843753199802e-07, 'epoch': 19.57}
+{'loss': 1.19, 'grad_norm': 1.0371094942092896, 'learning_rate': 1.3037840146244788e-07, 'epoch': 19.57}
+{'loss': 1.1766, 'grad_norm': 0.8578032851219177, 'learning_rate': 1.2701406162615257e-07, 'epoch': 19.58}
+{'loss': 1.185, 'grad_norm': 0.9512685537338257, 'learning_rate': 1.2369542110575303e-07, 'epoch': 19.59}
+{'loss': 1.19, 'grad_norm': 0.8890244364738464, 'learning_rate': 1.2042248294201471e-07, 'epoch': 19.59}
+{'loss': 1.2045, 'grad_norm': 1.0625840425491333, 'learning_rate': 1.1719525013381657e-07, 'epoch': 19.6}
+{'loss': 1.1725, 'grad_norm': 0.8612390756607056, 'learning_rate': 1.1401372563818403e-07, 'epoch': 19.6}
+{'loss': 1.1841, 'grad_norm': 0.9465601444244385, 'learning_rate': 1.1087791237023385e-07, 'epoch': 19.61}
+{'loss': 1.1846, 'grad_norm': 0.9632443785667419, 'learning_rate': 1.0778781320321831e-07, 'epoch': 19.62}
+{'loss': 1.18, 'grad_norm': 0.9088215231895447, 'learning_rate': 1.0474343096849204e-07, 'epoch': 19.62}
+{'loss': 1.1958, 'grad_norm': 0.9967238903045654, 'learning_rate': 1.0174476845552848e-07, 'epoch': 19.63}
+{'loss': 1.1861, 'grad_norm': 0.9305984973907471, 'learning_rate': 9.879182841190899e-08, 'epoch': 19.63}
+{'loss': 1.1692, 'grad_norm': 1.0029916763305664, 'learning_rate': 9.588461354331716e-08, 'epoch': 19.64}
+{'loss': 1.183, 'grad_norm': 1.0017539262771606, 'learning_rate': 9.302312651353336e-08, 'epoch': 19.64}
+{'loss': 1.1933, 'grad_norm': 0.939613401889801, 'learning_rate': 9.020736994445683e-08, 'epoch': 19.65}
+{'loss': 1.1762, 'grad_norm': 0.9600231051445007, 'learning_rate': 8.743734641606694e-08, 'epoch': 19.66}
+{'loss': 1.1956, 'grad_norm': 1.005743145942688, 'learning_rate': 8.47130584664564e-08, 'epoch': 19.66}
+{'loss': 1.1922, 'grad_norm': 0.9833147525787354, 'learning_rate': 8.2034508591798e-08, 'epoch': 19.67}
+{'loss': 1.1684, 'grad_norm': 0.9680048227310181, 'learning_rate': 7.940169924636128e-08, 'epoch': 19.67}
+{'loss': 1.2086, 'grad_norm': 1.1390366554260254, 'learning_rate': 7.681463284250695e-08, 'epoch': 19.68}
+{'loss': 1.1902, 'grad_norm': 1.0122030973434448, 'learning_rate': 7.42733117506813e-08, 'epoch': 19.68}
+{'loss': 1.2034, 'grad_norm': 0.9906060099601746, 'learning_rate': 7.177773829941631e-08, 'epoch': 19.69}
+{'loss': 1.1887, 'grad_norm': 1.048588514328003, 'learning_rate': 6.932791477532957e-08, 'epoch': 19.7}
+{'loss': 1.2065, 'grad_norm': 0.9483558535575867, 'learning_rate': 6.69238434231076e-08, 'epoch': 19.7}
+{'loss': 1.1887, 'grad_norm': 0.9528472423553467, 'learning_rate': 6.456552644552817e-08, 'epoch': 19.71}
+{'loss': 1.1918, 'grad_norm': 1.1356106996536255, 'learning_rate': 6.225296600344348e-08, 'epoch': 19.71}
+{'loss': 1.181, 'grad_norm': 1.0088497400283813, 'learning_rate': 5.998616421578035e-08, 'epoch': 19.72}
+{'loss': 1.1957, 'grad_norm': 1.0687867403030396, 'learning_rate': 5.776512315952894e-08, 'epoch': 19.72}
+{'loss': 1.1761, 'grad_norm': 0.9260311722755432, 'learning_rate': 5.55898448697651e-08, 'epoch': 19.73}
+{'loss': 1.1913, 'grad_norm': 0.9769617319107056, 'learning_rate': 5.3460331339628064e-08, 'epoch': 19.74}
+{'loss': 1.2104, 'grad_norm': 1.0382274389266968, 'learning_rate': 5.137658452032051e-08, 'epoch': 19.74}
+{'loss': 1.181, 'grad_norm': 0.9430953860282898, 'learning_rate': 4.9338606321114064e-08, 'epoch': 19.75}
+{'loss': 1.1771, 'grad_norm': 0.9655850529670715, 'learning_rate': 4.7346398609343796e-08, 'epoch': 19.75}
+{'loss': 1.2001, 'grad_norm': 0.9451389908790588, 'learning_rate': 4.539996321040264e-08, 'epoch': 19.76}
+{'loss': 1.1909, 'grad_norm': 1.1364023685455322, 'learning_rate': 4.349930190774696e-08, 'epoch': 19.76}
+{'loss': 1.178, 'grad_norm': 0.9212002754211426, 'learning_rate': 4.164441644289652e-08, 'epoch': 19.77}
+{'loss': 1.1896, 'grad_norm': 1.1874828338623047, 'learning_rate': 3.983530851541788e-08, 'epoch': 19.78}
+{'loss': 1.171, 'grad_norm': 0.9512391090393066, 'learning_rate': 3.807197978294654e-08, 'epoch': 19.78}
+{'loss': 1.1792, 'grad_norm': 0.8978659510612488, 'learning_rate': 3.635443186115928e-08, 'epoch': 19.79}
+{'loss': 1.1928, 'grad_norm': 1.0512269735336304, 'learning_rate': 3.468266632379067e-08, 'epoch': 19.79}
+{'loss': 1.1789, 'grad_norm': 0.9473230838775635, 'learning_rate': 3.305668470262766e-08, 'epoch': 19.8}
+{'loss': 1.1904, 'grad_norm': 0.9017809629440308, 'learning_rate': 3.147648848750395e-08, 'epoch': 19.8}
+{'loss': 1.1992, 'grad_norm': 0.9176917672157288, 'learning_rate': 2.994207912630556e-08, 'epoch': 19.81}
+{'loss': 1.186, 'grad_norm': 0.9881791472434998, 'learning_rate': 2.8453458024954193e-08, 'epoch': 19.82}
+{'loss': 1.1818, 'grad_norm': 1.028637409210205, 'learning_rate': 2.701062654744049e-08, 'epoch': 19.82}
+{'loss': 1.2012, 'grad_norm': 1.0274701118469238, 'learning_rate': 2.5613586015774136e-08, 'epoch': 19.83}
+{'loss': 1.1988, 'grad_norm': 1.1395429372787476, 'learning_rate': 2.4262337710017143e-08, 'epoch': 19.83}
+{'loss': 1.1914, 'grad_norm': 0.9607253670692444, 'learning_rate': 2.295688286828382e-08, 'epoch': 19.84}
+{'loss': 1.1973, 'grad_norm': 0.8855134844779968, 'learning_rate': 2.1697222686713053e-08, 'epoch': 19.84}
+{'loss': 1.182, 'grad_norm': 0.9070685505867004, 'learning_rate': 2.0483358319496047e-08, 'epoch': 19.85}
+{'loss': 1.1589, 'grad_norm': 0.9213180541992188, 'learning_rate': 1.931529087885968e-08, 'epoch': 19.86}
+{'loss': 1.1938, 'grad_norm': 1.0456494092941284, 'learning_rate': 1.819302143506094e-08, 'epoch': 19.86}
+{'loss': 1.1847, 'grad_norm': 0.9651570320129395, 'learning_rate': 1.7116551016403593e-08, 'epoch': 19.87}
+{'loss': 1.1865, 'grad_norm': 0.9324113130569458, 'learning_rate': 1.6085880609221513e-08, 'epoch': 19.87}
+{'loss': 1.1948, 'grad_norm': 1.0895005464553833, 'learning_rate': 1.5101011157884246e-08, 'epoch': 19.88}
+{'loss': 1.1904, 'grad_norm': 1.0173923969268799, 'learning_rate': 1.4161943564797008e-08, 'epoch': 19.89}
+{'loss': 1.1749, 'grad_norm': 0.9053332209587097, 'learning_rate': 1.3268678690395126e-08, 'epoch': 19.89}
+{'loss': 1.1793, 'grad_norm': 0.8996206521987915, 'learning_rate': 1.2421217353155158e-08, 'epoch': 19.9}
+{'loss': 1.1836, 'grad_norm': 1.0398614406585693, 'learning_rate': 1.1619560329578216e-08, 'epoch': 19.9}
+{'loss': 1.1832, 'grad_norm': 1.0628360509872437, 'learning_rate': 1.0863708354189982e-08, 'epoch': 19.91}
+{'loss': 1.2013, 'grad_norm': 1.0432826280593872, 'learning_rate': 1.0153662119557358e-08, 'epoch': 19.91}
+{'loss': 1.1984, 'grad_norm': 0.9931183457374573, 'learning_rate': 9.489422276271813e-09, 'epoch': 19.92}
+{'loss': 1.1847, 'grad_norm': 0.8921299576759338, 'learning_rate': 8.870989432960484e-09, 'epoch': 19.93}
+{'loss': 1.1698, 'grad_norm': 1.3161612749099731, 'learning_rate': 8.29836415626397e-09, 'epoch': 19.93}
+{'loss': 1.1853, 'grad_norm': 1.0505892038345337, 'learning_rate': 7.77154697086964e-09, 'epoch': 19.94}
+{'loss': 1.1831, 'grad_norm': 0.9417886137962341, 'learning_rate': 7.2905383594838795e-09, 'epoch': 19.94}
+{'loss': 1.1987, 'grad_norm': 0.9646815657615662, 'learning_rate': 6.855338762832093e-09, 'epoch': 19.95}
+{'loss': 1.1817, 'grad_norm': 0.9895023703575134, 'learning_rate': 6.465948579675348e-09, 'epoch': 19.95}
+{'loss': 1.1805, 'grad_norm': 0.9899342060089111, 'learning_rate': 6.122368166799279e-09, 'epoch': 19.96}
+{'loss': 1.1922, 'grad_norm': 0.916469156742096, 'learning_rate': 5.824597839025189e-09, 'epoch': 19.97}
+{'loss': 1.1868, 'grad_norm': 0.8887254595756531, 'learning_rate': 5.572637869176747e-09, 'epoch': 19.97}
+{'loss': 1.1707, 'grad_norm': 0.9541832208633423, 'learning_rate': 5.366488488124388e-09, 'epoch': 19.98}
+{'loss': 1.1839, 'grad_norm': 0.9640499949455261, 'learning_rate': 5.2061498847520126e-09, 'epoch': 19.98}
+{'loss': 1.1961, 'grad_norm': 0.973200798034668, 'learning_rate': 5.091622205979189e-09, 'epoch': 19.99}
+{'loss': 1.1848, 'grad_norm': 0.9521649479866028, 'learning_rate': 5.022905556744502e-09, 'epoch': 19.99}
+{'loss': 1.1786, 'grad_norm': 3.1310455799102783, 'learning_rate': 5e-09, 'epoch': 20.0}
+{'train_runtime': 35628.5116, 'train_samples_per_second': 93.771, 'train_steps_per_second': 0.977, 'train_loss': 1.6298207611684346, 'epoch': 20.0}
+***** train metrics *****
+  epoch                    =       20.0
+  total_flos               =        0GF
+  train_loss               =     1.6298
+  train_runtime            = 9:53:48.51
+  train_samples            =     167046
+  train_samples_per_second =     93.771
+  train_steps_per_second   =      0.977
+05/16/2025 05:16:58 - WARNING - __main__ - *** Evaluate on validation ***
+[WARNING|trainer.py:761] 2025-05-16 05:17:12,647 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:12,648 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:12,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:12,670 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+  0%|                                                                                                             | 0/17 [00:00<?, ?it/s][WARNING|trainer.py:761] 2025-05-16 05:17:19,221 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:19,221 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:19,241 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:19,242 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 12%|███████████▉                                                                                         | 2/17 [00:06<00:49,  3.29s/it][WARNING|trainer.py:761] 2025-05-16 05:17:26,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:26,227 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:26,247 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:26,247 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 18%|█████████████████▊                                                                                   | 3/17 [00:13<01:07,  4.84s/it][WARNING|trainer.py:761] 2025-05-16 05:17:32,440 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:32,441 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:32,462 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:32,462 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 24%|███████████████████████▊                                                                             | 4/17 [00:19<01:09,  5.35s/it][WARNING|trainer.py:761] 2025-05-16 05:17:38,887 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:38,887 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:38,907 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:38,907 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 29%|█████████████████████████████▋                                                                       | 5/17 [00:26<01:08,  5.73s/it][WARNING|trainer.py:761] 2025-05-16 05:17:45,666 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:45,666 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:45,686 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:45,686 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 35%|███████████████████████████████████▋                                                                 | 6/17 [00:33<01:06,  6.08s/it][WARNING|trainer.py:761] 2025-05-16 05:17:53,155 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:53,155 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:53,176 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:53,176 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 41%|█████████████████████████████████████████▌                                                           | 7/17 [00:40<01:05,  6.53s/it][WARNING|trainer.py:761] 2025-05-16 05:17:59,864 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:59,864 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:59,884 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:17:59,885 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 47%|███████████████████████████████████████████████▌                                                     | 8/17 [00:47<00:59,  6.59s/it][WARNING|trainer.py:761] 2025-05-16 05:18:05,898 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:05,898 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:05,919 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:05,919 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 53%|█████████████████████████████████████████████████████▍                                               | 9/17 [00:53<00:51,  6.41s/it][WARNING|trainer.py:761] 2025-05-16 05:18:12,508 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:12,508 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:12,528 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:12,528 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 59%|██████████████████████████████████████████████████████████▊                                         | 10/17 [00:59<00:45,  6.48s/it][WARNING|trainer.py:761] 2025-05-16 05:18:19,467 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:19,467 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:19,487 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:19,487 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 65%|████████████████████████████████████████████████████████████████▋                                   | 11/17 [01:06<00:39,  6.62s/it][WARNING|trainer.py:761] 2025-05-16 05:18:26,035 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:26,036 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:26,056 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:26,056 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 71%|██████████████████████████████████████████████████████████████████████▌                             | 12/17 [01:13<00:33,  6.61s/it][WARNING|trainer.py:761] 2025-05-16 05:18:33,004 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:33,004 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:33,024 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:33,024 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 76%|████████████████████████████████████████████████████████████████████████████▍                       | 13/17 [01:20<00:26,  6.72s/it][WARNING|trainer.py:761] 2025-05-16 05:18:40,076 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:40,076 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:40,097 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:40,097 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 82%|██████████████████████████████████████████████████████████████████████████████████▎                 | 14/17 [01:27<00:20,  6.83s/it][WARNING|trainer.py:761] 2025-05-16 05:18:46,441 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:46,441 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:46,462 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:46,462 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 88%|████████████████████████████████████████████████████████████████████████████████████████▏           | 15/17 [01:33<00:13,  6.68s/it][WARNING|trainer.py:761] 2025-05-16 05:18:54,199 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:54,200 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:54,220 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:54,220 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████      | 16/17 [01:41<00:07,  7.01s/it][WARNING|trainer.py:761] 2025-05-16 05:18:58,719 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:58,719 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:58,739 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:18:58,739 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 17/17 [01:46<00:00,  6.27s/it]
+***** eval_dev metrics *****
+  epoch                       =       20.0
+  eval_dev_loss               =     1.0564
+  eval_dev_runtime            = 0:02:01.54
+  eval_dev_samples_per_second =      13.09
+  eval_dev_steps_per_second   =       0.14
+  eval_dev_wer                =     0.0855
+  eval_samples                =       1591
+05/16/2025 05:18:59 - WARNING - __main__ - *** Evaluate on test ***
+[WARNING|trainer.py:761] 2025-05-16 05:19:16,477 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:16,478 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:16,499 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:16,499 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+  0%|                                                                                                             | 0/18 [00:00<?, ?it/s][WARNING|trainer.py:761] 2025-05-16 05:19:23,105 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:23,105 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:23,126 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:23,126 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 11%|███████████▏                                                                                         | 2/18 [00:06<00:52,  3.31s/it][WARNING|trainer.py:761] 2025-05-16 05:19:30,065 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:30,066 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:30,088 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:30,088 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 17%|████████████████▊                                                                                    | 3/18 [00:13<01:12,  4.84s/it][WARNING|trainer.py:761] 2025-05-16 05:19:36,804 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:36,805 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:36,825 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:36,826 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 22%|██████████████████████▍                                                                              | 4/18 [00:20<01:17,  5.54s/it][WARNING|trainer.py:761] 2025-05-16 05:19:43,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:43,860 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:43,881 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:43,881 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 28%|████████████████████████████                                                                         | 5/18 [00:27<01:18,  6.07s/it][WARNING|trainer.py:761] 2025-05-16 05:19:51,546 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:51,546 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:51,567 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:51,567 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 33%|█████████████████████████████████▋                                                                   | 6/18 [00:35<01:19,  6.61s/it][WARNING|trainer.py:761] 2025-05-16 05:19:58,270 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:58,270 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:58,290 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:19:58,291 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 39%|███████████████████████████████████████▎                                                             | 7/18 [00:41<01:13,  6.64s/it][WARNING|trainer.py:761] 2025-05-16 05:20:06,306 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:06,306 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:06,326 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:06,326 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 44%|████████████████████████████████████████████▉                                                        | 8/18 [00:49<01:10,  7.09s/it][WARNING|trainer.py:761] 2025-05-16 05:20:13,155 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:13,156 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:13,181 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:13,181 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 50%|██████████████████████████████████████████████████▌                                                  | 9/18 [00:56<01:03,  7.01s/it][WARNING|trainer.py:761] 2025-05-16 05:20:19,736 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:19,737 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:19,757 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:19,758 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 56%|█████��█████████████████████████████████████████████████▌                                            | 10/18 [01:03<00:55,  6.88s/it][WARNING|trainer.py:761] 2025-05-16 05:20:26,547 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:26,548 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:26,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:26,568 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 61%|█████████████████████████████████████████████████████████████                                       | 11/18 [01:10<00:47,  6.85s/it][WARNING|trainer.py:761] 2025-05-16 05:20:33,394 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:33,394 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:33,414 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:33,414 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 67%|██████████████████████████████████████████████████████████████████▋                                 | 12/18 [01:16<00:41,  6.86s/it][WARNING|trainer.py:761] 2025-05-16 05:20:40,363 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:40,363 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:40,384 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:40,384 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 72%|████████████████████████████████████████████████████████████████████████▏                           | 13/18 [01:23<00:34,  6.89s/it][WARNING|trainer.py:761] 2025-05-16 05:20:46,818 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:46,818 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:46,839 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:46,839 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 78%|█████████████████████████████████████████████████████████████████████████████▊                      | 14/18 [01:30<00:27,  6.76s/it][WARNING|trainer.py:761] 2025-05-16 05:20:53,699 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:53,699 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:53,719 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:20:53,719 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 83%|███████████████████████████████████████████████████████████████████████████████████▎                | 15/18 [01:37<00:20,  6.79s/it][WARNING|trainer.py:761] 2025-05-16 05:21:00,036 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:00,036 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:00,056 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:00,056 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 89%|████████████████████████████████████████████████████████████████████████████████████████▉           | 16/18 [01:43<00:13,  6.66s/it][WARNING|trainer.py:761] 2025-05-16 05:21:06,432 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:06,432 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:06,453 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:06,453 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████▍     | 17/18 [01:49<00:06,  6.58s/it][WARNING|trainer.py:761] 2025-05-16 05:21:10,902 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:10,902 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:10,929 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+[WARNING|trainer.py:761] 2025-05-16 05:21:10,929 >> Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [01:54<00:00,  6.39s/it]
+***** eval_test metrics *****
+  epoch                        =       20.0
+  eval_samples                 =       1705
+  eval_test_loss               =     1.0759
+  eval_test_runtime            = 0:02:12.25
+  eval_test_samples_per_second =     12.892
+  eval_test_steps_per_second   =      0.136
+  eval_test_wer                =     0.0885
+05/16/2025 05:21:11 - WARNING - __main__ - Measuring training step speed on a 10-second sample from the test dataset.
+[WARNING|logging.py:313] 2025-05-16 05:21:11,893 >> You're using a BartTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
+[34m[1mwandb[0m: [33mWARNING[0m Artifacts logged anonymously cannot be claimed and expire after 7 days.                             
+05/16/2025 05:21:40 - WARNING - __main__ - Average time per training step: 0.054153 seconds
+05/16/2025 05:21:40 - WARNING - __main__ - Standard deviation of training steps: 0.001683 seconds
+05/16/2025 05:21:40 - WARNING - __main__ - Whole array of time: [0.053569534301757815, 0.052992000579833984, 0.054921215057373046, 0.055034881591796876, 0.0530247688293457, 0.05413888168334961, 0.0534200325012207, 0.053553150177001956, 0.05292748641967773, 0.05325823974609375, 0.053602302551269534, 0.05347430419921875, 0.05342822265625, 0.0534015998840332, 0.053817344665527345, 0.0533309440612793, 0.05297971343994141, 0.05298483276367188, 0.05312921524047851, 0.052877311706542966, 0.053607425689697265, 0.05385523223876953, 0.052891647338867184, 0.05392486572265625, 0.05362278366088867, 0.053819393157958986, 0.05385523223876953, 0.058535934448242184, 0.055593982696533206, 0.05339648056030273, 0.053714942932128903, 0.05360639953613281, 0.052857856750488284, 0.053367809295654295, 0.05311078262329102, 0.05353062438964844, 0.054176769256591796, 0.052789249420166016, 0.05337702560424805, 0.05307699203491211, 0.05286297607421875, 0.053356544494628906, 0.053493759155273435, 0.05324492645263672, 0.0529090576171875, 0.053607425689697265, 0.05305651092529297, 0.0544266242980957, 0.05930393600463867, 0.05537279891967774, 0.05303603363037109, 0.053628929138183595, 0.0554967041015625, 0.05364223861694336, 0.05350809478759765, 0.05313843154907227, 0.05546803283691406, 0.056681472778320315, 0.05818163299560547, 0.058535934448242184, 0.05336678314208984, 0.0533309440612793, 0.05347020721435547, 0.05344870376586914, 0.05297151947021484, 0.05313945770263672, 0.053236736297607425, 0.059510784149169924, 0.05961625671386719, 0.05944627380371094, 0.05365248107910156, 0.05362073516845703, 0.05311385726928711, 0.05353779220581055, 0.05367910385131836, 0.053812225341796874, 0.056578048706054686, 0.05765427017211914, 0.05372313690185547, 0.05356748962402344, 0.05358182525634766, 0.05353676986694336, 0.053515262603759765, 0.05352140808105469, 0.053308414459228515, 0.05424127960205078, 0.05533388900756836, 0.05527449417114258, 0.05652479934692383, 0.05819903945922852, 0.05933363342285156, 0.05471846389770508, 0.05490995025634766, 0.05442764663696289, 0.05348556900024414, 0.05523865509033203, 0.05304115295410156, 0.053738494873046876, 0.055695358276367186, 0.059611137390136716, 0.05940326309204102, 0.05810995101928711, 0.05384908676147461, 0.05307392120361328, 0.05306982421875, 0.0536627197265625, 0.053720062255859374, 0.05307494354248047, 0.05361868667602539, 0.058575870513916016, 0.05933772659301758, 0.058395648956298826, 0.05363916778564453, 0.05299097442626953, 0.05264998245239258, 0.053348350524902347, 0.052803585052490234, 0.05337395095825195, 0.05250867080688477, 0.05551308822631836, 0.059390975952148435, 0.05934694290161133, 0.05744844818115234, 0.053440513610839846, 0.05309132766723633, 0.056412158966064455, 0.05373952102661133, 0.053720062255859374, 0.052805633544921876, 0.05389004898071289, 0.05822259140014648, 0.059404289245605466, 0.05938790512084961, 0.05716070556640625, 0.05361459350585938, 0.05321932983398438, 0.05350707244873047, 0.05288140869140625, 0.05384499359130859, 0.053166080474853515, 0.05821952056884765, 0.05911859130859375, 0.05938585662841797, 0.05645721435546875, 0.05362278366088867, 0.05345587158203125, 0.053814273834228515, 0.05403647994995117, 0.055051265716552736, 0.05421363067626953, 0.0540846061706543, 0.05922611236572266, 0.05934694290161133, 0.05818982315063476, 0.053302272796630856, 0.05378867340087891, 0.052674560546875, 0.05384089660644531, 0.053416961669921874, 0.05335551834106445, 0.053768192291259766, 0.05839462280273437, 0.0593070068359375, 0.05908172988891602, 0.0542371826171875, 0.05698559951782227, 0.053308414459228515, 0.053187583923339846, 0.05330739212036133, 0.05287628936767578, 0.05294182586669922, 0.05464166259765625, 0.05872844696044922, 0.05931520080566406, 0.05817446517944336, 0.05509836959838867, 0.05345075225830078, 0.05677875137329102, 0.058858497619628906, 0.05362483215332031, 0.053100543975830077, 0.0529172477722168, 0.05774643325805664, 0.059238399505615234, 0.05921791839599609, 0.053370880126953124, 0.054095870971679685, 0.053628929138183595, 0.053588993072509764, 0.05471539306640625, 0.0
+05/16/2025 05:21:40 - WARNING - __main__ - Trainable parameters: 196,896,384
+05/16/2025 05:21:40 - WARNING - __main__ - Total parameters: 201,096,832
+[34m[1mwandb[0m: [33mWARNING[0m Artifacts logged anonymously cannot be claimed and expire after 7 days.