HuyTran1301's picture
End of training
66710cd verified
{'loss': 0.6006, 'grad_norm': 0.6447659134864807, 'learning_rate': 4.9928545388261036e-05, 'epoch': 0.01}
{'loss': 0.3247, 'grad_norm': 0.5618846416473389, 'learning_rate': 4.985563251913963e-05, 'epoch': 0.01}
{'loss': 0.3228, 'grad_norm': 0.7547561526298523, 'learning_rate': 4.9782719650018226e-05, 'epoch': 0.02}
{'loss': 0.3199, 'grad_norm': 0.8894248604774475, 'learning_rate': 4.970980678089683e-05, 'epoch': 0.03}
{'loss': 0.313, 'grad_norm': 0.5675084590911865, 'learning_rate': 4.963689391177543e-05, 'epoch': 0.04}
{'loss': 0.315, 'grad_norm': 0.5526237487792969, 'learning_rate': 4.956398104265403e-05, 'epoch': 0.04}
{'loss': 0.3165, 'grad_norm': 0.5525872111320496, 'learning_rate': 4.9491068173532626e-05, 'epoch': 0.05}
{'loss': 0.3115, 'grad_norm': 0.5824236869812012, 'learning_rate': 4.941815530441123e-05, 'epoch': 0.06}
{'loss': 0.3091, 'grad_norm': 0.6129131317138672, 'learning_rate': 4.934524243528983e-05, 'epoch': 0.07}
{'loss': 0.3033, 'grad_norm': 0.5776003003120422, 'learning_rate': 4.927232956616843e-05, 'epoch': 0.07}
{'loss': 0.3097, 'grad_norm': 0.6461377143859863, 'learning_rate': 4.9199416697047027e-05, 'epoch': 0.08}
{'loss': 0.2946, 'grad_norm': 0.5604821443557739, 'learning_rate': 4.912650382792563e-05, 'epoch': 0.09}
{'loss': 0.2984, 'grad_norm': 0.6389901638031006, 'learning_rate': 4.905359095880423e-05, 'epoch': 0.09}
{'loss': 0.3033, 'grad_norm': 0.9244019985198975, 'learning_rate': 4.898067808968283e-05, 'epoch': 0.1}
{'loss': 0.3016, 'grad_norm': 0.4978604316711426, 'learning_rate': 4.890776522056143e-05, 'epoch': 0.11}
{'loss': 0.2934, 'grad_norm': 0.576495885848999, 'learning_rate': 4.883485235144003e-05, 'epoch': 0.12}
{'loss': 0.2955, 'grad_norm': 0.6159735918045044, 'learning_rate': 4.876193948231863e-05, 'epoch': 0.12}
{'loss': 0.2983, 'grad_norm': 0.4299497902393341, 'learning_rate': 4.868902661319723e-05, 'epoch': 0.13}
{'loss': 0.292, 'grad_norm': 0.5385751724243164, 'learning_rate': 4.861611374407583e-05, 'epoch': 0.14}
{'loss': 0.2872, 'grad_norm': 0.6581293344497681, 'learning_rate': 4.854320087495443e-05, 'epoch': 0.15}
{'loss': 0.3033, 'grad_norm': 0.46469080448150635, 'learning_rate': 4.847028800583303e-05, 'epoch': 0.15}
{'loss': 0.2984, 'grad_norm': 0.9049146175384521, 'learning_rate': 4.839737513671163e-05, 'epoch': 0.16}
{'loss': 0.294, 'grad_norm': 0.4794864058494568, 'learning_rate': 4.8324462267590235e-05, 'epoch': 0.17}
{'loss': 0.2933, 'grad_norm': 0.5147079229354858, 'learning_rate': 4.825154939846883e-05, 'epoch': 0.17}
{'loss': 0.2865, 'grad_norm': 0.4555160701274872, 'learning_rate': 4.817863652934743e-05, 'epoch': 0.18}
{'loss': 0.2909, 'grad_norm': 0.46807998418807983, 'learning_rate': 4.810572366022603e-05, 'epoch': 0.19}
{'loss': 0.2939, 'grad_norm': 0.4723215699195862, 'learning_rate': 4.8032810791104635e-05, 'epoch': 0.2}
{'loss': 0.29, 'grad_norm': 0.5632703304290771, 'learning_rate': 4.7959897921983233e-05, 'epoch': 0.2}
{'loss': 0.2846, 'grad_norm': 0.5100304484367371, 'learning_rate': 4.788698505286183e-05, 'epoch': 0.21}
{'loss': 0.294, 'grad_norm': 0.709826648235321, 'learning_rate': 4.7814801312431644e-05, 'epoch': 0.22}
{'loss': 0.2979, 'grad_norm': 0.5832980871200562, 'learning_rate': 4.774188844331024e-05, 'epoch': 0.23}
{'loss': 0.2882, 'grad_norm': 0.605233371257782, 'learning_rate': 4.766897557418885e-05, 'epoch': 0.23}
{'loss': 0.279, 'grad_norm': 0.4691099226474762, 'learning_rate': 4.7596062705067446e-05, 'epoch': 0.24}
{'loss': 0.2864, 'grad_norm': 0.4075206220149994, 'learning_rate': 4.7523149835946045e-05, 'epoch': 0.25}
{'loss': 0.2861, 'grad_norm': 0.9166379570960999, 'learning_rate': 4.745023696682464e-05, 'epoch': 0.26}
{'loss': 0.2799, 'grad_norm': 0.5782416462898254, 'learning_rate': 4.737732409770325e-05, 'epoch': 0.26}
{'loss': 0.2843, 'grad_norm': 0.5059252977371216, 'learning_rate': 4.730441122858185e-05, 'epoch': 0.27}
{'loss': 0.2846, 'grad_norm': 0.5869033336639404, 'learning_rate': 4.7231498359460445e-05, 'epoch': 0.28}
{'loss': 0.2808, 'grad_norm': 0.5596328377723694, 'learning_rate': 4.7158585490339044e-05, 'epoch': 0.28}
{'loss': 0.2869, 'grad_norm': 0.6282264590263367, 'learning_rate': 4.708567262121765e-05, 'epoch': 0.29}
{'loss': 0.2813, 'grad_norm': 0.9176711440086365, 'learning_rate': 4.701275975209625e-05, 'epoch': 0.3}
{'loss': 0.2849, 'grad_norm': 0.47234463691711426, 'learning_rate': 4.6939846882974845e-05, 'epoch': 0.31}
{'loss': 0.2892, 'grad_norm': 0.5281239748001099, 'learning_rate': 4.686693401385345e-05, 'epoch': 0.31}
{'loss': 0.2851, 'grad_norm': 0.5932298302650452, 'learning_rate': 4.679402114473205e-05, 'epoch': 0.32}
{'loss': 0.2887, 'grad_norm': 0.7224592566490173, 'learning_rate': 4.672110827561065e-05, 'epoch': 0.33}
{'loss': 0.2856, 'grad_norm': 0.5266022086143494, 'learning_rate': 4.6648195406489246e-05, 'epoch': 0.34}
{'loss': 0.2871, 'grad_norm': 0.4371179938316345, 'learning_rate': 4.657528253736785e-05, 'epoch': 0.34}
{'loss': 0.2837, 'grad_norm': 0.6894217133522034, 'learning_rate': 4.650236966824645e-05, 'epoch': 0.35}
{'loss': 0.2789, 'grad_norm': 0.44300001859664917, 'learning_rate': 4.642945679912505e-05, 'epoch': 0.36}
{'loss': 0.2824, 'grad_norm': 0.959194004535675, 'learning_rate': 4.6356543930003646e-05, 'epoch': 0.36}
{'loss': 0.2824, 'grad_norm': 0.590427815914154, 'learning_rate': 4.628363106088225e-05, 'epoch': 0.37}
{'loss': 0.2775, 'grad_norm': 0.4680222272872925, 'learning_rate': 4.621071819176085e-05, 'epoch': 0.38}
{'loss': 0.2875, 'grad_norm': 0.4110415577888489, 'learning_rate': 4.613780532263945e-05, 'epoch': 0.39}
{'loss': 0.2861, 'grad_norm': 0.47461017966270447, 'learning_rate': 4.606489245351805e-05, 'epoch': 0.39}
{'loss': 0.2704, 'grad_norm': 0.5969150066375732, 'learning_rate': 4.599197958439665e-05, 'epoch': 0.4}
{'loss': 0.2813, 'grad_norm': 0.3640926778316498, 'learning_rate': 4.591906671527525e-05, 'epoch': 0.41}
{'loss': 0.2778, 'grad_norm': 0.46972018480300903, 'learning_rate': 4.584615384615385e-05, 'epoch': 0.42}
{'loss': 0.2746, 'grad_norm': 0.511703610420227, 'learning_rate': 4.577324097703245e-05, 'epoch': 0.42}
{'loss': 0.2787, 'grad_norm': 0.5114850401878357, 'learning_rate': 4.570032810791105e-05, 'epoch': 0.43}
{'loss': 0.2771, 'grad_norm': 0.40629178285598755, 'learning_rate': 4.562741523878965e-05, 'epoch': 0.44}
{'loss': 0.2857, 'grad_norm': 0.3856738209724426, 'learning_rate': 4.555450236966825e-05, 'epoch': 0.44}
{'loss': 0.2753, 'grad_norm': 0.7277693748474121, 'learning_rate': 4.548158950054685e-05, 'epoch': 0.45}
{'loss': 0.2798, 'grad_norm': 0.4355538785457611, 'learning_rate': 4.540867663142545e-05, 'epoch': 0.46}
{'loss': 0.2759, 'grad_norm': 0.4134088456630707, 'learning_rate': 4.533576376230405e-05, 'epoch': 0.47}
{'loss': 0.2705, 'grad_norm': 0.5168145895004272, 'learning_rate': 4.526285089318265e-05, 'epoch': 0.47}
{'loss': 0.2784, 'grad_norm': 0.4484308958053589, 'learning_rate': 4.5189938024061255e-05, 'epoch': 0.48}
{'loss': 0.2692, 'grad_norm': 0.4481068253517151, 'learning_rate': 4.511702515493985e-05, 'epoch': 0.49}
{'loss': 0.279, 'grad_norm': 0.48528140783309937, 'learning_rate': 4.504411228581845e-05, 'epoch': 0.5}
{'loss': 0.2762, 'grad_norm': 0.5436826348304749, 'learning_rate': 4.497119941669705e-05, 'epoch': 0.5}
{'loss': 0.2798, 'grad_norm': 0.5563924312591553, 'learning_rate': 4.4898286547575655e-05, 'epoch': 0.51}
{'loss': 0.2681, 'grad_norm': 0.41874459385871887, 'learning_rate': 4.482537367845425e-05, 'epoch': 0.52}
{'loss': 0.2759, 'grad_norm': 0.4383544623851776, 'learning_rate': 4.4752460809332845e-05, 'epoch': 0.52}
{'loss': 0.2851, 'grad_norm': 0.4134362041950226, 'learning_rate': 4.467954794021145e-05, 'epoch': 0.53}
{'loss': 0.2751, 'grad_norm': 0.5488504767417908, 'learning_rate': 4.460736419978126e-05, 'epoch': 0.54}
{'loss': 0.2786, 'grad_norm': 0.7624154686927795, 'learning_rate': 4.453445133065987e-05, 'epoch': 0.55}
{'loss': 0.2729, 'grad_norm': 0.5613035559654236, 'learning_rate': 4.4461538461538466e-05, 'epoch': 0.55}
{'loss': 0.2807, 'grad_norm': 0.5200749635696411, 'learning_rate': 4.4388625592417065e-05, 'epoch': 0.56}
{'loss': 0.2709, 'grad_norm': 0.48221519589424133, 'learning_rate': 4.431571272329566e-05, 'epoch': 0.57}
{'loss': 0.2724, 'grad_norm': 0.5822951197624207, 'learning_rate': 4.424279985417427e-05, 'epoch': 0.58}
{'loss': 0.2664, 'grad_norm': 0.5424840450286865, 'learning_rate': 4.416988698505287e-05, 'epoch': 0.58}
{'loss': 0.27, 'grad_norm': 0.38813477754592896, 'learning_rate': 4.4096974115931465e-05, 'epoch': 0.59}
{'loss': 0.2766, 'grad_norm': 0.47720202803611755, 'learning_rate': 4.4024061246810064e-05, 'epoch': 0.6}
{'loss': 0.2778, 'grad_norm': 0.4799085259437561, 'learning_rate': 4.395114837768867e-05, 'epoch': 0.61}
{'loss': 0.2753, 'grad_norm': 0.4706759750843048, 'learning_rate': 4.387823550856727e-05, 'epoch': 0.61}
{'loss': 0.272, 'grad_norm': 0.6000516414642334, 'learning_rate': 4.380532263944586e-05, 'epoch': 0.62}
{'loss': 0.2687, 'grad_norm': 0.8099233508110046, 'learning_rate': 4.3732409770324464e-05, 'epoch': 0.63}
{'loss': 0.2663, 'grad_norm': 0.5030428767204285, 'learning_rate': 4.365949690120306e-05, 'epoch': 0.63}
{'loss': 0.2712, 'grad_norm': 0.5428553819656372, 'learning_rate': 4.358658403208166e-05, 'epoch': 0.64}
{'loss': 0.2679, 'grad_norm': 0.38212376832962036, 'learning_rate': 4.351367116296026e-05, 'epoch': 0.65}
{'loss': 0.2702, 'grad_norm': 0.4846484661102295, 'learning_rate': 4.3440758293838864e-05, 'epoch': 0.66}
{'loss': 0.2673, 'grad_norm': 0.49638569355010986, 'learning_rate': 4.336784542471746e-05, 'epoch': 0.66}
{'loss': 0.2737, 'grad_norm': 0.5812777280807495, 'learning_rate': 4.329493255559606e-05, 'epoch': 0.67}
{'loss': 0.2756, 'grad_norm': 0.5996299386024475, 'learning_rate': 4.322201968647466e-05, 'epoch': 0.68}
{'loss': 0.2779, 'grad_norm': 0.44796323776245117, 'learning_rate': 4.3149106817353265e-05, 'epoch': 0.69}
{'loss': 0.27, 'grad_norm': 0.5637198090553284, 'learning_rate': 4.307619394823186e-05, 'epoch': 0.69}
{'loss': 0.2628, 'grad_norm': 0.39504191279411316, 'learning_rate': 4.300328107911046e-05, 'epoch': 0.7}
{'loss': 0.2712, 'grad_norm': 0.41512811183929443, 'learning_rate': 4.293036820998907e-05, 'epoch': 0.71}
{'loss': 0.2716, 'grad_norm': 0.49865636229515076, 'learning_rate': 4.2857455340867665e-05, 'epoch': 0.71}
{'loss': 0.2738, 'grad_norm': 0.5504072308540344, 'learning_rate': 4.2784542471746264e-05, 'epoch': 0.72}
{'loss': 0.2761, 'grad_norm': 0.5709914565086365, 'learning_rate': 4.271162960262486e-05, 'epoch': 0.73}
{'loss': 0.2681, 'grad_norm': 0.692086935043335, 'learning_rate': 4.2639445862194675e-05, 'epoch': 0.74}
{'loss': 0.2667, 'grad_norm': 0.4342480003833771, 'learning_rate': 4.256653299307328e-05, 'epoch': 0.74}
{'loss': 0.2749, 'grad_norm': 0.42692673206329346, 'learning_rate': 4.249362012395188e-05, 'epoch': 0.75}
{'loss': 0.2744, 'grad_norm': 0.3656430244445801, 'learning_rate': 4.2420707254830477e-05, 'epoch': 0.76}
{'loss': 0.2703, 'grad_norm': 0.37146124243736267, 'learning_rate': 4.2347794385709075e-05, 'epoch': 0.77}
{'loss': 0.2638, 'grad_norm': 0.43954208493232727, 'learning_rate': 4.227488151658768e-05, 'epoch': 0.77}
{'loss': 0.2666, 'grad_norm': 0.8144708275794983, 'learning_rate': 4.220196864746628e-05, 'epoch': 0.78}
{'loss': 0.2687, 'grad_norm': 0.47171834111213684, 'learning_rate': 4.212905577834488e-05, 'epoch': 0.79}
{'loss': 0.2677, 'grad_norm': 0.44952869415283203, 'learning_rate': 4.2056142909223475e-05, 'epoch': 0.79}
{'loss': 0.2705, 'grad_norm': 0.47677087783813477, 'learning_rate': 4.198323004010208e-05, 'epoch': 0.8}
{'loss': 0.2722, 'grad_norm': 0.6183464527130127, 'learning_rate': 4.191031717098068e-05, 'epoch': 0.81}
{'loss': 0.2664, 'grad_norm': 0.5297912359237671, 'learning_rate': 4.183740430185928e-05, 'epoch': 0.82}
{'loss': 0.2723, 'grad_norm': 0.6766748428344727, 'learning_rate': 4.1764491432737876e-05, 'epoch': 0.82}
{'loss': 0.2681, 'grad_norm': 0.5421440005302429, 'learning_rate': 4.169157856361648e-05, 'epoch': 0.83}
{'loss': 0.263, 'grad_norm': 0.4889949858188629, 'learning_rate': 4.161866569449508e-05, 'epoch': 0.84}
{'loss': 0.2699, 'grad_norm': 0.5246173739433289, 'learning_rate': 4.154575282537368e-05, 'epoch': 0.85}
{'loss': 0.2724, 'grad_norm': 0.42347830533981323, 'learning_rate': 4.147283995625228e-05, 'epoch': 0.85}
{'loss': 0.2764, 'grad_norm': 0.4942275881767273, 'learning_rate': 4.139992708713088e-05, 'epoch': 0.86}
{'loss': 0.2719, 'grad_norm': 0.4143778085708618, 'learning_rate': 4.132701421800948e-05, 'epoch': 0.87}
{'loss': 0.2723, 'grad_norm': 0.43124574422836304, 'learning_rate': 4.125410134888808e-05, 'epoch': 0.87}
{'loss': 0.2649, 'grad_norm': 0.4138694107532501, 'learning_rate': 4.118118847976668e-05, 'epoch': 0.88}
{'loss': 0.2615, 'grad_norm': 0.4811694622039795, 'learning_rate': 4.110827561064528e-05, 'epoch': 0.89}
{'loss': 0.268, 'grad_norm': 0.5048770904541016, 'learning_rate': 4.103536274152388e-05, 'epoch': 0.9}
{'loss': 0.2671, 'grad_norm': 0.4415168762207031, 'learning_rate': 4.096244987240248e-05, 'epoch': 0.9}
{'loss': 0.2689, 'grad_norm': 0.4748736321926117, 'learning_rate': 4.0889537003281084e-05, 'epoch': 0.91}
{'loss': 0.2702, 'grad_norm': 0.52372807264328, 'learning_rate': 4.0817353262850896e-05, 'epoch': 0.92}
{'loss': 0.2672, 'grad_norm': 0.45163726806640625, 'learning_rate': 4.0744440393729495e-05, 'epoch': 0.93}
{'loss': 0.2718, 'grad_norm': 0.4349558353424072, 'learning_rate': 4.067152752460809e-05, 'epoch': 0.93}
{'loss': 0.2602, 'grad_norm': 0.4017709791660309, 'learning_rate': 4.059861465548669e-05, 'epoch': 0.94}
{'loss': 0.2728, 'grad_norm': 0.4679015576839447, 'learning_rate': 4.05257017863653e-05, 'epoch': 0.95}
{'loss': 0.2678, 'grad_norm': 0.42404574155807495, 'learning_rate': 4.0452788917243895e-05, 'epoch': 0.96}
{'loss': 0.2614, 'grad_norm': 0.412833034992218, 'learning_rate': 4.0379876048122493e-05, 'epoch': 0.96}
{'loss': 0.2596, 'grad_norm': 0.3986538052558899, 'learning_rate': 4.030696317900109e-05, 'epoch': 0.97}
{'loss': 0.2634, 'grad_norm': 0.8113347887992859, 'learning_rate': 4.02340503098797e-05, 'epoch': 0.98}
{'loss': 0.2657, 'grad_norm': 0.35525020956993103, 'learning_rate': 4.0161137440758295e-05, 'epoch': 0.98}
{'loss': 0.261, 'grad_norm': 0.44671177864074707, 'learning_rate': 4.0088224571636894e-05, 'epoch': 0.99}
{'loss': 0.2662, 'grad_norm': 0.43923214077949524, 'learning_rate': 4.001531170251549e-05, 'epoch': 1.0}
{'loss': 0.2421, 'grad_norm': 0.385977178812027, 'learning_rate': 3.99423988333941e-05, 'epoch': 1.01}
{'loss': 0.232, 'grad_norm': 0.43958935141563416, 'learning_rate': 3.9869485964272696e-05, 'epoch': 1.01}
{'loss': 0.2396, 'grad_norm': 0.5152979493141174, 'learning_rate': 3.9796573095151294e-05, 'epoch': 1.02}
{'loss': 0.2329, 'grad_norm': 0.5285594463348389, 'learning_rate': 3.97236602260299e-05, 'epoch': 1.03}
{'loss': 0.2387, 'grad_norm': 0.4812753200531006, 'learning_rate': 3.96507473569085e-05, 'epoch': 1.04}
{'loss': 0.2384, 'grad_norm': 0.5552459359169006, 'learning_rate': 3.9577834487787096e-05, 'epoch': 1.04}
{'loss': 0.2403, 'grad_norm': 0.44219133257865906, 'learning_rate': 3.9504921618665695e-05, 'epoch': 1.05}
{'loss': 0.2418, 'grad_norm': 0.4801394045352936, 'learning_rate': 3.943273787823551e-05, 'epoch': 1.06}
{'loss': 0.2376, 'grad_norm': 0.5775185823440552, 'learning_rate': 3.935982500911411e-05, 'epoch': 1.06}
{'loss': 0.2414, 'grad_norm': 0.4448357820510864, 'learning_rate': 3.928691213999271e-05, 'epoch': 1.07}
{'loss': 0.238, 'grad_norm': 0.49632522463798523, 'learning_rate': 3.921399927087131e-05, 'epoch': 1.08}
{'loss': 0.2388, 'grad_norm': 0.5845484137535095, 'learning_rate': 3.914108640174991e-05, 'epoch': 1.09}
{'loss': 0.2356, 'grad_norm': 0.45276981592178345, 'learning_rate': 3.906817353262851e-05, 'epoch': 1.09}
{'loss': 0.2402, 'grad_norm': 0.5435289740562439, 'learning_rate': 3.899526066350711e-05, 'epoch': 1.1}
{'loss': 0.2459, 'grad_norm': 0.5164949297904968, 'learning_rate': 3.892234779438571e-05, 'epoch': 1.11}
{'loss': 0.2372, 'grad_norm': 0.4850408136844635, 'learning_rate': 3.884943492526431e-05, 'epoch': 1.12}
{'loss': 0.238, 'grad_norm': 0.455656498670578, 'learning_rate': 3.877652205614291e-05, 'epoch': 1.12}
{'loss': 0.2404, 'grad_norm': 0.5179480910301208, 'learning_rate': 3.870360918702151e-05, 'epoch': 1.13}
{'loss': 0.2403, 'grad_norm': 0.49127891659736633, 'learning_rate': 3.863069631790011e-05, 'epoch': 1.14}
{'loss': 0.2402, 'grad_norm': 0.407870888710022, 'learning_rate': 3.855778344877871e-05, 'epoch': 1.14}
{'loss': 0.2371, 'grad_norm': 0.5130490660667419, 'learning_rate': 3.8484870579657314e-05, 'epoch': 1.15}
{'loss': 0.2407, 'grad_norm': 0.3811829686164856, 'learning_rate': 3.841195771053591e-05, 'epoch': 1.16}
{'loss': 0.2459, 'grad_norm': 0.6242007613182068, 'learning_rate': 3.833904484141451e-05, 'epoch': 1.17}
{'loss': 0.2469, 'grad_norm': 0.5546497702598572, 'learning_rate': 3.8266131972293116e-05, 'epoch': 1.17}
{'loss': 0.2435, 'grad_norm': 0.6035506725311279, 'learning_rate': 3.8193219103171714e-05, 'epoch': 1.18}
{'loss': 0.2389, 'grad_norm': 0.49635785818099976, 'learning_rate': 3.812030623405031e-05, 'epoch': 1.19}
{'loss': 0.2349, 'grad_norm': 0.46707311272621155, 'learning_rate': 3.804739336492891e-05, 'epoch': 1.2}
{'loss': 0.2395, 'grad_norm': 0.4678835868835449, 'learning_rate': 3.7974480495807516e-05, 'epoch': 1.2}
{'loss': 0.2374, 'grad_norm': 0.5301701426506042, 'learning_rate': 3.7901567626686114e-05, 'epoch': 1.21}
{'loss': 0.2365, 'grad_norm': 0.5667819380760193, 'learning_rate': 3.782865475756471e-05, 'epoch': 1.22}
{'loss': 0.2381, 'grad_norm': 0.4730486571788788, 'learning_rate': 3.775574188844331e-05, 'epoch': 1.22}
{'loss': 0.2498, 'grad_norm': 0.5390622019767761, 'learning_rate': 3.7683558148013124e-05, 'epoch': 1.23}
{'loss': 0.2357, 'grad_norm': 0.5416421890258789, 'learning_rate': 3.761064527889173e-05, 'epoch': 1.24}
{'loss': 0.2413, 'grad_norm': 0.38453587889671326, 'learning_rate': 3.753773240977033e-05, 'epoch': 1.25}
{'loss': 0.237, 'grad_norm': 0.4288393259048462, 'learning_rate': 3.7464819540648926e-05, 'epoch': 1.25}
{'loss': 0.2358, 'grad_norm': 0.5181173086166382, 'learning_rate': 3.7391906671527524e-05, 'epoch': 1.26}
{'loss': 0.2358, 'grad_norm': 0.6898838877677917, 'learning_rate': 3.731899380240613e-05, 'epoch': 1.27}
{'loss': 0.234, 'grad_norm': 0.4664672911167145, 'learning_rate': 3.724608093328473e-05, 'epoch': 1.28}
{'loss': 0.2381, 'grad_norm': 0.747153639793396, 'learning_rate': 3.7173168064163326e-05, 'epoch': 1.28}
{'loss': 0.2398, 'grad_norm': 0.9152413010597229, 'learning_rate': 3.7100255195041924e-05, 'epoch': 1.29}
{'loss': 0.2458, 'grad_norm': 0.5087383985519409, 'learning_rate': 3.702734232592053e-05, 'epoch': 1.3}
{'loss': 0.2326, 'grad_norm': 0.4093605577945709, 'learning_rate': 3.695442945679913e-05, 'epoch': 1.31}
{'loss': 0.242, 'grad_norm': 0.5293018221855164, 'learning_rate': 3.6881516587677726e-05, 'epoch': 1.31}
{'loss': 0.2445, 'grad_norm': 0.4486617147922516, 'learning_rate': 3.6808603718556325e-05, 'epoch': 1.32}
{'loss': 0.2369, 'grad_norm': 0.4945230185985565, 'learning_rate': 3.673569084943493e-05, 'epoch': 1.33}
{'loss': 0.2408, 'grad_norm': 0.5184115767478943, 'learning_rate': 3.666277798031353e-05, 'epoch': 1.33}
{'loss': 0.241, 'grad_norm': 0.4493330717086792, 'learning_rate': 3.658986511119213e-05, 'epoch': 1.34}
{'loss': 0.2328, 'grad_norm': 0.6118397116661072, 'learning_rate': 3.651695224207073e-05, 'epoch': 1.35}
{'loss': 0.2417, 'grad_norm': 1.3826870918273926, 'learning_rate': 3.644403937294933e-05, 'epoch': 1.36}
{'loss': 0.2279, 'grad_norm': 0.7817091345787048, 'learning_rate': 3.637112650382793e-05, 'epoch': 1.36}
{'loss': 0.2383, 'grad_norm': 0.45796072483062744, 'learning_rate': 3.629821363470653e-05, 'epoch': 1.37}
{'loss': 0.2432, 'grad_norm': 0.42756274342536926, 'learning_rate': 3.622530076558513e-05, 'epoch': 1.38}
{'loss': 0.2351, 'grad_norm': 0.44550132751464844, 'learning_rate': 3.615238789646373e-05, 'epoch': 1.39}
{'loss': 0.2452, 'grad_norm': 0.4109930694103241, 'learning_rate': 3.607947502734233e-05, 'epoch': 1.39}
{'loss': 0.2332, 'grad_norm': 0.6050946712493896, 'learning_rate': 3.600656215822093e-05, 'epoch': 1.4}
{'loss': 0.2337, 'grad_norm': 0.42705145478248596, 'learning_rate': 3.593364928909953e-05, 'epoch': 1.41}
{'loss': 0.2355, 'grad_norm': 0.5089758634567261, 'learning_rate': 3.586073641997813e-05, 'epoch': 1.41}
{'loss': 0.2423, 'grad_norm': 0.4476965665817261, 'learning_rate': 3.578782355085673e-05, 'epoch': 1.42}
{'loss': 0.2393, 'grad_norm': 2.2464935779571533, 'learning_rate': 3.571491068173533e-05, 'epoch': 1.43}
{'loss': 0.2356, 'grad_norm': 0.5254254341125488, 'learning_rate': 3.5641997812613926e-05, 'epoch': 1.44}
{'loss': 0.2379, 'grad_norm': 0.40850573778152466, 'learning_rate': 3.5569084943492525e-05, 'epoch': 1.44}
{'loss': 0.2471, 'grad_norm': 0.5037140846252441, 'learning_rate': 3.549617207437112e-05, 'epoch': 1.45}
{'loss': 0.2394, 'grad_norm': 0.400627076625824, 'learning_rate': 3.542325920524973e-05, 'epoch': 1.46}
{'loss': 0.2389, 'grad_norm': 0.552456259727478, 'learning_rate': 3.535034633612833e-05, 'epoch': 1.47}
{'loss': 0.231, 'grad_norm': 0.41937991976737976, 'learning_rate': 3.5277433467006925e-05, 'epoch': 1.47}
{'loss': 0.2446, 'grad_norm': 0.6163108944892883, 'learning_rate': 3.5204520597885524e-05, 'epoch': 1.48}
{'loss': 0.2376, 'grad_norm': 0.4921981990337372, 'learning_rate': 3.513160772876413e-05, 'epoch': 1.49}
{'loss': 0.2306, 'grad_norm': 0.5128797292709351, 'learning_rate': 3.505869485964273e-05, 'epoch': 1.49}
{'loss': 0.2378, 'grad_norm': 0.4991093575954437, 'learning_rate': 3.4985781990521326e-05, 'epoch': 1.5}
{'loss': 0.2377, 'grad_norm': 0.5071898698806763, 'learning_rate': 3.4912869121399924e-05, 'epoch': 1.51}
{'loss': 0.2368, 'grad_norm': 0.5526316165924072, 'learning_rate': 3.483995625227853e-05, 'epoch': 1.52}
{'loss': 0.2402, 'grad_norm': 0.6240872740745544, 'learning_rate': 3.476704338315713e-05, 'epoch': 1.52}
{'loss': 0.2422, 'grad_norm': 0.6870671510696411, 'learning_rate': 3.4694130514035726e-05, 'epoch': 1.53}
{'loss': 0.2402, 'grad_norm': 0.4378233850002289, 'learning_rate': 3.462194677360554e-05, 'epoch': 1.54}
{'loss': 0.2409, 'grad_norm': 0.46940815448760986, 'learning_rate': 3.454976303317536e-05, 'epoch': 1.55}
{'loss': 0.2377, 'grad_norm': 0.5822471976280212, 'learning_rate': 3.4476850164053956e-05, 'epoch': 1.55}
{'loss': 0.236, 'grad_norm': 0.3781052231788635, 'learning_rate': 3.440393729493256e-05, 'epoch': 1.56}
{'loss': 0.2441, 'grad_norm': 0.4139191806316376, 'learning_rate': 3.433102442581116e-05, 'epoch': 1.57}
{'loss': 0.242, 'grad_norm': 0.5788514614105225, 'learning_rate': 3.425811155668976e-05, 'epoch': 1.57}
{'loss': 0.2437, 'grad_norm': 0.44452786445617676, 'learning_rate': 3.418519868756836e-05, 'epoch': 1.58}
{'loss': 0.2393, 'grad_norm': 0.4241580367088318, 'learning_rate': 3.411228581844696e-05, 'epoch': 1.59}
{'loss': 0.2373, 'grad_norm': 0.39922282099723816, 'learning_rate': 3.403937294932556e-05, 'epoch': 1.6}
{'loss': 0.2351, 'grad_norm': 0.5137671232223511, 'learning_rate': 3.396646008020416e-05, 'epoch': 1.6}
{'loss': 0.2361, 'grad_norm': 0.6034048795700073, 'learning_rate': 3.389354721108276e-05, 'epoch': 1.61}
{'loss': 0.2286, 'grad_norm': 0.40027928352355957, 'learning_rate': 3.382063434196136e-05, 'epoch': 1.62}
{'loss': 0.239, 'grad_norm': 0.5013150572776794, 'learning_rate': 3.374772147283996e-05, 'epoch': 1.63}
{'loss': 0.2336, 'grad_norm': 0.4610954523086548, 'learning_rate': 3.367480860371856e-05, 'epoch': 1.63}
{'loss': 0.2391, 'grad_norm': 0.5537551045417786, 'learning_rate': 3.360189573459716e-05, 'epoch': 1.64}
{'loss': 0.2439, 'grad_norm': 0.45434120297431946, 'learning_rate': 3.3528982865475756e-05, 'epoch': 1.65}
{'loss': 0.2463, 'grad_norm': 0.46570268273353577, 'learning_rate': 3.3456069996354354e-05, 'epoch': 1.66}
{'loss': 0.2418, 'grad_norm': 1.9330798387527466, 'learning_rate': 3.338315712723295e-05, 'epoch': 1.66}
{'loss': 0.2338, 'grad_norm': 0.4923851788043976, 'learning_rate': 3.331024425811156e-05, 'epoch': 1.67}
{'loss': 0.2421, 'grad_norm': 0.535682201385498, 'learning_rate': 3.3237331388990156e-05, 'epoch': 1.68}
{'loss': 0.2418, 'grad_norm': 0.37009021639823914, 'learning_rate': 3.3164418519868755e-05, 'epoch': 1.68}
{'loss': 0.2393, 'grad_norm': 0.5291458368301392, 'learning_rate': 3.309150565074735e-05, 'epoch': 1.69}
{'loss': 0.2351, 'grad_norm': 0.42245739698410034, 'learning_rate': 3.301859278162596e-05, 'epoch': 1.7}
{'loss': 0.2437, 'grad_norm': 0.3804941773414612, 'learning_rate': 3.294567991250456e-05, 'epoch': 1.71}
{'loss': 0.2391, 'grad_norm': 0.5402179956436157, 'learning_rate': 3.2872767043383155e-05, 'epoch': 1.71}
{'loss': 0.2465, 'grad_norm': 0.5612096786499023, 'learning_rate': 3.279985417426176e-05, 'epoch': 1.72}
{'loss': 0.2427, 'grad_norm': 0.501246988773346, 'learning_rate': 3.272694130514036e-05, 'epoch': 1.73}
{'loss': 0.2462, 'grad_norm': 0.48516687750816345, 'learning_rate': 3.265402843601896e-05, 'epoch': 1.74}
{'loss': 0.233, 'grad_norm': 0.5591334104537964, 'learning_rate': 3.2581115566897555e-05, 'epoch': 1.74}
{'loss': 0.2277, 'grad_norm': 0.3748771846294403, 'learning_rate': 3.250820269777616e-05, 'epoch': 1.75}
{'loss': 0.2327, 'grad_norm': 0.5600519776344299, 'learning_rate': 3.243528982865476e-05, 'epoch': 1.76}
{'loss': 0.2333, 'grad_norm': 0.4880702495574951, 'learning_rate': 3.236237695953336e-05, 'epoch': 1.76}
{'loss': 0.2423, 'grad_norm': 0.4916653633117676, 'learning_rate': 3.2289464090411956e-05, 'epoch': 1.77}
{'loss': 0.2439, 'grad_norm': 0.5412094593048096, 'learning_rate': 3.221655122129056e-05, 'epoch': 1.78}
{'loss': 0.2324, 'grad_norm': 0.42765167355537415, 'learning_rate': 3.214363835216916e-05, 'epoch': 1.79}
{'loss': 0.2378, 'grad_norm': 0.41754579544067383, 'learning_rate': 3.207072548304776e-05, 'epoch': 1.79}
{'loss': 0.242, 'grad_norm': 0.4146368205547333, 'learning_rate': 3.1997812613926356e-05, 'epoch': 1.8}
{'loss': 0.2392, 'grad_norm': 0.4739679992198944, 'learning_rate': 3.192489974480496e-05, 'epoch': 1.81}
{'loss': 0.2426, 'grad_norm': 0.5131458044052124, 'learning_rate': 3.185198687568356e-05, 'epoch': 1.82}
{'loss': 0.2399, 'grad_norm': 0.3823765218257904, 'learning_rate': 3.177907400656216e-05, 'epoch': 1.82}
{'loss': 0.2373, 'grad_norm': 0.507417619228363, 'learning_rate': 3.170616113744076e-05, 'epoch': 1.83}
{'loss': 0.2344, 'grad_norm': 0.5246752500534058, 'learning_rate': 3.163324826831936e-05, 'epoch': 1.84}
{'loss': 0.2412, 'grad_norm': 0.460344135761261, 'learning_rate': 3.156033539919796e-05, 'epoch': 1.84}
{'loss': 0.25, 'grad_norm': 0.5385392904281616, 'learning_rate': 3.148742253007656e-05, 'epoch': 1.85}
{'loss': 0.2478, 'grad_norm': 0.5221943855285645, 'learning_rate': 3.141450966095516e-05, 'epoch': 1.86}
{'loss': 0.2394, 'grad_norm': 0.4830079972743988, 'learning_rate': 3.134159679183376e-05, 'epoch': 1.87}
{'loss': 0.2373, 'grad_norm': 0.5051126480102539, 'learning_rate': 3.126868392271236e-05, 'epoch': 1.87}
{'loss': 0.2349, 'grad_norm': 0.5361847281455994, 'learning_rate': 3.119577105359096e-05, 'epoch': 1.88}
{'loss': 0.2378, 'grad_norm': 0.4918205142021179, 'learning_rate': 3.1122858184469564e-05, 'epoch': 1.89}
{'loss': 0.2379, 'grad_norm': 0.4090024530887604, 'learning_rate': 3.104994531534816e-05, 'epoch': 1.9}
{'loss': 0.2366, 'grad_norm': 0.4480089545249939, 'learning_rate': 3.097703244622676e-05, 'epoch': 1.9}
{'loss': 0.2342, 'grad_norm': 0.47385650873184204, 'learning_rate': 3.090411957710536e-05, 'epoch': 1.91}
{'loss': 0.2346, 'grad_norm': 0.48208755254745483, 'learning_rate': 3.0831206707983965e-05, 'epoch': 1.92}
{'loss': 0.2409, 'grad_norm': 0.49661171436309814, 'learning_rate': 3.075829383886256e-05, 'epoch': 1.92}
{'loss': 0.2341, 'grad_norm': 0.5285037755966187, 'learning_rate': 3.068538096974116e-05, 'epoch': 1.93}
{'loss': 0.2386, 'grad_norm': 0.9388597011566162, 'learning_rate': 3.061246810061976e-05, 'epoch': 1.94}
{'loss': 0.2304, 'grad_norm': 0.4404759407043457, 'learning_rate': 3.0539555231498365e-05, 'epoch': 1.95}
{'loss': 0.2365, 'grad_norm': 0.34992703795433044, 'learning_rate': 3.0466642362376964e-05, 'epoch': 1.95}
{'loss': 0.2343, 'grad_norm': 0.7657943964004517, 'learning_rate': 3.0393729493255562e-05, 'epoch': 1.96}
{'loss': 0.2335, 'grad_norm': 0.44408276677131653, 'learning_rate': 3.0320816624134164e-05, 'epoch': 1.97}
{'loss': 0.234, 'grad_norm': 0.48794862627983093, 'learning_rate': 3.0247903755012762e-05, 'epoch': 1.98}
{'loss': 0.2316, 'grad_norm': 0.42289572954177856, 'learning_rate': 3.0174990885891364e-05, 'epoch': 1.98}
{'loss': 0.2477, 'grad_norm': 0.5727781653404236, 'learning_rate': 3.0102807145461176e-05, 'epoch': 1.99}
{'loss': 0.2357, 'grad_norm': 0.4797556400299072, 'learning_rate': 3.003062340503099e-05, 'epoch': 2.0}
{'loss': 0.2103, 'grad_norm': 0.3867610692977905, 'learning_rate': 2.9957710535909587e-05, 'epoch': 2.01}
{'loss': 0.2091, 'grad_norm': 0.5462714433670044, 'learning_rate': 2.988479766678819e-05, 'epoch': 2.01}
{'loss': 0.21, 'grad_norm': 0.542228639125824, 'learning_rate': 2.981188479766679e-05, 'epoch': 2.02}
{'loss': 0.2103, 'grad_norm': 1.4090336561203003, 'learning_rate': 2.973897192854539e-05, 'epoch': 2.03}
{'loss': 0.2074, 'grad_norm': 0.40741217136383057, 'learning_rate': 2.966605905942399e-05, 'epoch': 2.03}
{'loss': 0.2056, 'grad_norm': 0.49836868047714233, 'learning_rate': 2.959314619030259e-05, 'epoch': 2.04}
{'loss': 0.2059, 'grad_norm': 0.5353407263755798, 'learning_rate': 2.952023332118119e-05, 'epoch': 2.05}
{'loss': 0.2088, 'grad_norm': 0.466252863407135, 'learning_rate': 2.944732045205979e-05, 'epoch': 2.06}
{'loss': 0.2039, 'grad_norm': 0.499774307012558, 'learning_rate': 2.937440758293839e-05, 'epoch': 2.06}
{'loss': 0.213, 'grad_norm': 0.372888445854187, 'learning_rate': 2.930149471381699e-05, 'epoch': 2.07}
{'loss': 0.2117, 'grad_norm': 0.43341386318206787, 'learning_rate': 2.922858184469559e-05, 'epoch': 2.08}
{'loss': 0.2061, 'grad_norm': 0.6036757826805115, 'learning_rate': 2.915566897557419e-05, 'epoch': 2.09}
{'loss': 0.2084, 'grad_norm': 0.5505895614624023, 'learning_rate': 2.9082756106452792e-05, 'epoch': 2.09}
{'loss': 0.2132, 'grad_norm': 0.5161715745925903, 'learning_rate': 2.900984323733139e-05, 'epoch': 2.1}
{'loss': 0.2057, 'grad_norm': 0.5229746699333191, 'learning_rate': 2.8936930368209992e-05, 'epoch': 2.11}
{'loss': 0.2108, 'grad_norm': 0.5796335339546204, 'learning_rate': 2.886401749908859e-05, 'epoch': 2.11}
{'loss': 0.2077, 'grad_norm': 0.5055252313613892, 'learning_rate': 2.8791104629967192e-05, 'epoch': 2.12}
{'loss': 0.2069, 'grad_norm': 0.4451209306716919, 'learning_rate': 2.871819176084579e-05, 'epoch': 2.13}
{'loss': 0.2079, 'grad_norm': 0.5852305889129639, 'learning_rate': 2.8645278891724392e-05, 'epoch': 2.14}
{'loss': 0.2085, 'grad_norm': 0.4605356454849243, 'learning_rate': 2.857236602260299e-05, 'epoch': 2.14}
{'loss': 0.2122, 'grad_norm': 0.5381996035575867, 'learning_rate': 2.8499453153481593e-05, 'epoch': 2.15}
{'loss': 0.2102, 'grad_norm': 0.521026611328125, 'learning_rate': 2.842654028436019e-05, 'epoch': 2.16}
{'loss': 0.2095, 'grad_norm': 0.5558876991271973, 'learning_rate': 2.8353627415238793e-05, 'epoch': 2.17}
{'loss': 0.2123, 'grad_norm': 0.4486944377422333, 'learning_rate': 2.828071454611739e-05, 'epoch': 2.17}
{'loss': 0.215, 'grad_norm': 0.5573538541793823, 'learning_rate': 2.8207801676995993e-05, 'epoch': 2.18}
{'loss': 0.2148, 'grad_norm': 0.49988046288490295, 'learning_rate': 2.813488880787459e-05, 'epoch': 2.19}
{'loss': 0.2112, 'grad_norm': 0.4972493648529053, 'learning_rate': 2.8061975938753193e-05, 'epoch': 2.19}
{'loss': 0.2173, 'grad_norm': 0.500219464302063, 'learning_rate': 2.7989063069631795e-05, 'epoch': 2.2}
{'loss': 0.2153, 'grad_norm': 0.47835713624954224, 'learning_rate': 2.7916150200510394e-05, 'epoch': 2.21}
{'loss': 0.2138, 'grad_norm': 0.5481101274490356, 'learning_rate': 2.7843237331388995e-05, 'epoch': 2.22}
{'loss': 0.2094, 'grad_norm': 0.4733823239803314, 'learning_rate': 2.7770324462267594e-05, 'epoch': 2.22}
{'loss': 0.2129, 'grad_norm': 0.5181055068969727, 'learning_rate': 2.7697411593146196e-05, 'epoch': 2.23}
{'loss': 0.2117, 'grad_norm': 0.44485241174697876, 'learning_rate': 2.7624498724024794e-05, 'epoch': 2.24}
{'loss': 0.2144, 'grad_norm': 0.4672013521194458, 'learning_rate': 2.7551585854903396e-05, 'epoch': 2.25}
{'loss': 0.2128, 'grad_norm': 0.4983910620212555, 'learning_rate': 2.747867298578199e-05, 'epoch': 2.25}
{'loss': 0.2133, 'grad_norm': 0.5409055948257446, 'learning_rate': 2.740576011666059e-05, 'epoch': 2.26}
{'loss': 0.2119, 'grad_norm': 0.49972543120384216, 'learning_rate': 2.733284724753919e-05, 'epoch': 2.27}
{'loss': 0.2071, 'grad_norm': 2.0265262126922607, 'learning_rate': 2.725993437841779e-05, 'epoch': 2.27}
{'loss': 0.211, 'grad_norm': 0.553439736366272, 'learning_rate': 2.718702150929639e-05, 'epoch': 2.28}
{'loss': 0.2101, 'grad_norm': 0.4907926917076111, 'learning_rate': 2.711410864017499e-05, 'epoch': 2.29}
{'loss': 0.2121, 'grad_norm': 0.49466371536254883, 'learning_rate': 2.704119577105359e-05, 'epoch': 2.3}
{'loss': 0.217, 'grad_norm': 0.49825382232666016, 'learning_rate': 2.696828290193219e-05, 'epoch': 2.3}
{'loss': 0.2092, 'grad_norm': 0.5017848610877991, 'learning_rate': 2.689537003281079e-05, 'epoch': 2.31}
{'loss': 0.2126, 'grad_norm': 0.41380709409713745, 'learning_rate': 2.682245716368939e-05, 'epoch': 2.32}
{'loss': 0.2092, 'grad_norm': 0.49237534403800964, 'learning_rate': 2.6749544294567992e-05, 'epoch': 2.33}
{'loss': 0.213, 'grad_norm': 0.523961067199707, 'learning_rate': 2.667663142544659e-05, 'epoch': 2.33}
{'loss': 0.2054, 'grad_norm': 0.5685663223266602, 'learning_rate': 2.6603718556325192e-05, 'epoch': 2.34}
{'loss': 0.2112, 'grad_norm': 0.5565212368965149, 'learning_rate': 2.653080568720379e-05, 'epoch': 2.35}
{'loss': 0.203, 'grad_norm': 0.47610270977020264, 'learning_rate': 2.6457892818082392e-05, 'epoch': 2.36}
{'loss': 0.2151, 'grad_norm': 0.5143274068832397, 'learning_rate': 2.638497994896099e-05, 'epoch': 2.36}
{'loss': 0.2136, 'grad_norm': 0.5214574337005615, 'learning_rate': 2.6312067079839592e-05, 'epoch': 2.37}
{'loss': 0.2066, 'grad_norm': 0.45188039541244507, 'learning_rate': 2.623915421071819e-05, 'epoch': 2.38}
{'loss': 0.207, 'grad_norm': 0.45680609345436096, 'learning_rate': 2.6166241341596793e-05, 'epoch': 2.38}
{'loss': 0.2099, 'grad_norm': 0.5005089044570923, 'learning_rate': 2.609332847247539e-05, 'epoch': 2.39}
{'loss': 0.216, 'grad_norm': 0.51642245054245, 'learning_rate': 2.6020415603353993e-05, 'epoch': 2.4}
{'loss': 0.2104, 'grad_norm': 0.5763100385665894, 'learning_rate': 2.594750273423259e-05, 'epoch': 2.41}
{'loss': 0.2084, 'grad_norm': 0.46828100085258484, 'learning_rate': 2.5874589865111193e-05, 'epoch': 2.41}
{'loss': 0.2148, 'grad_norm': 0.4313183128833771, 'learning_rate': 2.580167699598979e-05, 'epoch': 2.42}
{'loss': 0.2142, 'grad_norm': 0.5434718132019043, 'learning_rate': 2.5728764126868393e-05, 'epoch': 2.43}
{'loss': 0.2119, 'grad_norm': 0.4477080702781677, 'learning_rate': 2.5655851257746995e-05, 'epoch': 2.44}
{'loss': 0.2107, 'grad_norm': 0.47825145721435547, 'learning_rate': 2.5583667517316807e-05, 'epoch': 2.44}
{'loss': 0.2078, 'grad_norm': 0.46454834938049316, 'learning_rate': 2.5510754648195406e-05, 'epoch': 2.45}
{'loss': 0.2101, 'grad_norm': 0.5565869808197021, 'learning_rate': 2.5437841779074008e-05, 'epoch': 2.46}
{'loss': 0.2141, 'grad_norm': 0.47655850648880005, 'learning_rate': 2.5364928909952606e-05, 'epoch': 2.46}
{'loss': 0.2089, 'grad_norm': 0.5868563055992126, 'learning_rate': 2.5292016040831208e-05, 'epoch': 2.47}
{'loss': 0.2114, 'grad_norm': 0.45257848501205444, 'learning_rate': 2.5219103171709806e-05, 'epoch': 2.48}
{'loss': 0.2045, 'grad_norm': 0.42414945363998413, 'learning_rate': 2.5146190302588408e-05, 'epoch': 2.49}
{'loss': 0.215, 'grad_norm': 0.46871399879455566, 'learning_rate': 2.5073277433467006e-05, 'epoch': 2.49}
{'loss': 0.2104, 'grad_norm': 0.5418921113014221, 'learning_rate': 2.5000364564345608e-05, 'epoch': 2.5}
{'loss': 0.2096, 'grad_norm': 0.44427400827407837, 'learning_rate': 2.4927451695224207e-05, 'epoch': 2.51}
{'loss': 0.2109, 'grad_norm': 0.5604705214500427, 'learning_rate': 2.485453882610281e-05, 'epoch': 2.52}
{'loss': 0.2143, 'grad_norm': 0.5241577625274658, 'learning_rate': 2.4781625956981407e-05, 'epoch': 2.52}
{'loss': 0.2108, 'grad_norm': 0.5009546279907227, 'learning_rate': 2.470871308786001e-05, 'epoch': 2.53}
{'loss': 0.2111, 'grad_norm': 0.6108575463294983, 'learning_rate': 2.4635800218738607e-05, 'epoch': 2.54}
{'loss': 0.2115, 'grad_norm': 0.5526441931724548, 'learning_rate': 2.456288734961721e-05, 'epoch': 2.54}
{'loss': 0.2129, 'grad_norm': 0.4510037302970886, 'learning_rate': 2.4489974480495807e-05, 'epoch': 2.55}
{'loss': 0.212, 'grad_norm': 0.5046045780181885, 'learning_rate': 2.441706161137441e-05, 'epoch': 2.56}
{'loss': 0.2168, 'grad_norm': 0.5885252356529236, 'learning_rate': 2.4344148742253007e-05, 'epoch': 2.57}
{'loss': 0.2105, 'grad_norm': 0.5713276267051697, 'learning_rate': 2.4271965001822823e-05, 'epoch': 2.57}
{'loss': 0.2121, 'grad_norm': 0.39065638184547424, 'learning_rate': 2.4199052132701422e-05, 'epoch': 2.58}
{'loss': 0.2105, 'grad_norm': 0.6120169758796692, 'learning_rate': 2.4126139263580024e-05, 'epoch': 2.59}
{'loss': 0.2054, 'grad_norm': 0.452970027923584, 'learning_rate': 2.4053226394458622e-05, 'epoch': 2.6}
{'loss': 0.2116, 'grad_norm': 0.56929612159729, 'learning_rate': 2.3980313525337224e-05, 'epoch': 2.6}
{'loss': 0.2084, 'grad_norm': 0.5311704874038696, 'learning_rate': 2.3907400656215822e-05, 'epoch': 2.61}
{'loss': 0.2094, 'grad_norm': 0.42666831612586975, 'learning_rate': 2.3834487787094424e-05, 'epoch': 2.62}
{'loss': 0.2107, 'grad_norm': 0.49048829078674316, 'learning_rate': 2.3761574917973022e-05, 'epoch': 2.62}
{'loss': 0.2066, 'grad_norm': 0.4835710823535919, 'learning_rate': 2.3688662048851624e-05, 'epoch': 2.63}
{'loss': 0.2156, 'grad_norm': 0.47661301493644714, 'learning_rate': 2.3615749179730223e-05, 'epoch': 2.64}
{'loss': 0.2113, 'grad_norm': 0.47970232367515564, 'learning_rate': 2.3542836310608824e-05, 'epoch': 2.65}
{'loss': 0.2103, 'grad_norm': 0.4693215787410736, 'learning_rate': 2.3469923441487423e-05, 'epoch': 2.65}
{'loss': 0.2234, 'grad_norm': 0.5378791689872742, 'learning_rate': 2.3397010572366025e-05, 'epoch': 2.66}
{'loss': 0.2122, 'grad_norm': 0.5856163501739502, 'learning_rate': 2.3324097703244623e-05, 'epoch': 2.67}
{'loss': 0.212, 'grad_norm': 0.5249937772750854, 'learning_rate': 2.3251184834123225e-05, 'epoch': 2.68}
{'loss': 0.2144, 'grad_norm': 0.4310230016708374, 'learning_rate': 2.3178271965001823e-05, 'epoch': 2.68}
{'loss': 0.2155, 'grad_norm': 0.5030075907707214, 'learning_rate': 2.3105359095880425e-05, 'epoch': 2.69}
{'loss': 0.2126, 'grad_norm': 0.5314342975616455, 'learning_rate': 2.3032446226759023e-05, 'epoch': 2.7}
{'loss': 0.2109, 'grad_norm': 0.4610547423362732, 'learning_rate': 2.2959533357637625e-05, 'epoch': 2.71}
{'loss': 0.2166, 'grad_norm': 0.5639358162879944, 'learning_rate': 2.2887349617207438e-05, 'epoch': 2.71}
{'loss': 0.2108, 'grad_norm': 0.5365988612174988, 'learning_rate': 2.2814436748086036e-05, 'epoch': 2.72}
{'loss': 0.22, 'grad_norm': 0.6348510384559631, 'learning_rate': 2.2741523878964638e-05, 'epoch': 2.73}
{'loss': 0.2128, 'grad_norm': 0.49726247787475586, 'learning_rate': 2.266861100984324e-05, 'epoch': 2.73}
{'loss': 0.2153, 'grad_norm': 0.6242164969444275, 'learning_rate': 2.2595698140721838e-05, 'epoch': 2.74}
{'loss': 0.2177, 'grad_norm': 0.666663646697998, 'learning_rate': 2.252278527160044e-05, 'epoch': 2.75}
{'loss': 0.2048, 'grad_norm': 0.47773319482803345, 'learning_rate': 2.2449872402479038e-05, 'epoch': 2.76}
{'loss': 0.2113, 'grad_norm': 0.4490298926830292, 'learning_rate': 2.237695953335764e-05, 'epoch': 2.76}
{'loss': 0.2118, 'grad_norm': 1.601124882698059, 'learning_rate': 2.230404666423624e-05, 'epoch': 2.77}
{'loss': 0.2174, 'grad_norm': 0.6387491822242737, 'learning_rate': 2.223186292380605e-05, 'epoch': 2.78}
{'loss': 0.2127, 'grad_norm': 0.7053877711296082, 'learning_rate': 2.2159679183375867e-05, 'epoch': 2.79}
{'loss': 0.2067, 'grad_norm': 0.43746668100357056, 'learning_rate': 2.208676631425447e-05, 'epoch': 2.79}
{'loss': 0.2044, 'grad_norm': 0.533644437789917, 'learning_rate': 2.2013853445133067e-05, 'epoch': 2.8}
{'loss': 0.2134, 'grad_norm': 0.48825380206108093, 'learning_rate': 2.194094057601167e-05, 'epoch': 2.81}
{'loss': 0.2086, 'grad_norm': 0.56269770860672, 'learning_rate': 2.1868027706890267e-05, 'epoch': 2.81}
{'loss': 0.2155, 'grad_norm': 0.5783599615097046, 'learning_rate': 2.179511483776887e-05, 'epoch': 2.82}
{'loss': 0.213, 'grad_norm': 0.5306593775749207, 'learning_rate': 2.1722201968647467e-05, 'epoch': 2.83}
{'loss': 0.219, 'grad_norm': 0.4560154378414154, 'learning_rate': 2.164928909952607e-05, 'epoch': 2.84}
{'loss': 0.2132, 'grad_norm': 0.5999314785003662, 'learning_rate': 2.1576376230404668e-05, 'epoch': 2.84}
{'loss': 0.2168, 'grad_norm': 0.48945263028144836, 'learning_rate': 2.150346336128327e-05, 'epoch': 2.85}
{'loss': 0.2122, 'grad_norm': 0.7098241448402405, 'learning_rate': 2.1430550492161868e-05, 'epoch': 2.86}
{'loss': 0.2141, 'grad_norm': 0.8398869633674622, 'learning_rate': 2.135763762304047e-05, 'epoch': 2.87}
{'loss': 0.218, 'grad_norm': 0.7354671359062195, 'learning_rate': 2.1284724753919068e-05, 'epoch': 2.87}
{'loss': 0.209, 'grad_norm': 0.5224701762199402, 'learning_rate': 2.1211811884797666e-05, 'epoch': 2.88}
{'loss': 0.2095, 'grad_norm': 0.4340418875217438, 'learning_rate': 2.1138899015676268e-05, 'epoch': 2.89}
{'loss': 0.2132, 'grad_norm': 0.4588584899902344, 'learning_rate': 2.1065986146554867e-05, 'epoch': 2.89}
{'loss': 0.2083, 'grad_norm': 0.5020334124565125, 'learning_rate': 2.099307327743347e-05, 'epoch': 2.9}
{'loss': 0.2109, 'grad_norm': 0.47517433762550354, 'learning_rate': 2.0920160408312067e-05, 'epoch': 2.91}
{'loss': 0.2107, 'grad_norm': 0.679078221321106, 'learning_rate': 2.084724753919067e-05, 'epoch': 2.92}
{'loss': 0.2101, 'grad_norm': 0.4805567264556885, 'learning_rate': 2.0774334670069267e-05, 'epoch': 2.92}
{'loss': 0.2117, 'grad_norm': 0.43456101417541504, 'learning_rate': 2.070142180094787e-05, 'epoch': 2.93}
{'loss': 0.2135, 'grad_norm': 0.6000011563301086, 'learning_rate': 2.0628508931826467e-05, 'epoch': 2.94}
{'loss': 0.2182, 'grad_norm': 0.3992120027542114, 'learning_rate': 2.055559606270507e-05, 'epoch': 2.95}
{'loss': 0.2082, 'grad_norm': 0.7985995411872864, 'learning_rate': 2.0482683193583667e-05, 'epoch': 2.95}
{'loss': 0.2097, 'grad_norm': 0.5598397850990295, 'learning_rate': 2.040977032446227e-05, 'epoch': 2.96}
{'loss': 0.2124, 'grad_norm': 0.4425690174102783, 'learning_rate': 2.0336857455340868e-05, 'epoch': 2.97}
{'loss': 0.2146, 'grad_norm': 0.5075845718383789, 'learning_rate': 2.026394458621947e-05, 'epoch': 2.97}
{'loss': 0.2073, 'grad_norm': 0.5573521852493286, 'learning_rate': 2.0191031717098068e-05, 'epoch': 2.98}
{'loss': 0.2071, 'grad_norm': 0.6295785307884216, 'learning_rate': 2.011811884797667e-05, 'epoch': 2.99}
{'loss': 0.2079, 'grad_norm': 0.42386916279792786, 'learning_rate': 2.0045205978855268e-05, 'epoch': 3.0}
{'loss': 0.19, 'grad_norm': 0.5806059837341309, 'learning_rate': 1.997229310973387e-05, 'epoch': 3.0}
{'loss': 0.1884, 'grad_norm': 0.560081422328949, 'learning_rate': 1.9899380240612468e-05, 'epoch': 3.01}
{'loss': 0.192, 'grad_norm': 0.6341264247894287, 'learning_rate': 1.982646737149107e-05, 'epoch': 3.02}
{'loss': 0.1871, 'grad_norm': 0.5430555939674377, 'learning_rate': 1.975355450236967e-05, 'epoch': 3.03}
{'loss': 0.1959, 'grad_norm': 0.42367488145828247, 'learning_rate': 1.968064163324827e-05, 'epoch': 3.03}
{'loss': 0.1873, 'grad_norm': 0.5063439011573792, 'learning_rate': 1.960772876412687e-05, 'epoch': 3.04}
{'loss': 0.1896, 'grad_norm': 0.579514741897583, 'learning_rate': 1.953481589500547e-05, 'epoch': 3.05}
{'loss': 0.1955, 'grad_norm': 0.5936856269836426, 'learning_rate': 1.9461903025884072e-05, 'epoch': 3.06}
{'loss': 0.1898, 'grad_norm': 0.5219163298606873, 'learning_rate': 1.938899015676267e-05, 'epoch': 3.06}
{'loss': 0.1909, 'grad_norm': 0.4293871819972992, 'learning_rate': 1.931607728764127e-05, 'epoch': 3.07}
{'loss': 0.1883, 'grad_norm': 0.6504066586494446, 'learning_rate': 1.9243164418519867e-05, 'epoch': 3.08}
{'loss': 0.1842, 'grad_norm': 0.5415491461753845, 'learning_rate': 1.917025154939847e-05, 'epoch': 3.08}
{'loss': 0.1843, 'grad_norm': 0.6536469459533691, 'learning_rate': 1.9097338680277068e-05, 'epoch': 3.09}
{'loss': 0.1885, 'grad_norm': 0.4076414704322815, 'learning_rate': 1.902442581115567e-05, 'epoch': 3.1}
{'loss': 0.186, 'grad_norm': 0.5240867137908936, 'learning_rate': 1.8951512942034268e-05, 'epoch': 3.11}
{'loss': 0.1866, 'grad_norm': 0.49423232674598694, 'learning_rate': 1.887860007291287e-05, 'epoch': 3.11}
{'loss': 0.1823, 'grad_norm': 0.4614635109901428, 'learning_rate': 1.8805687203791468e-05, 'epoch': 3.12}
{'loss': 0.1866, 'grad_norm': 0.5607319474220276, 'learning_rate': 1.873277433467007e-05, 'epoch': 3.13}
{'loss': 0.1924, 'grad_norm': 0.5368255972862244, 'learning_rate': 1.8659861465548668e-05, 'epoch': 3.14}
{'loss': 0.1838, 'grad_norm': 0.6644182205200195, 'learning_rate': 1.858694859642727e-05, 'epoch': 3.14}
{'loss': 0.183, 'grad_norm': 0.4899356961250305, 'learning_rate': 1.851403572730587e-05, 'epoch': 3.15}
{'loss': 0.1874, 'grad_norm': 0.7361061573028564, 'learning_rate': 1.844112285818447e-05, 'epoch': 3.16}
{'loss': 0.1821, 'grad_norm': 0.872910737991333, 'learning_rate': 1.8368209989063072e-05, 'epoch': 3.16}
{'loss': 0.1844, 'grad_norm': 0.5009066462516785, 'learning_rate': 1.829529711994167e-05, 'epoch': 3.17}
{'loss': 0.1873, 'grad_norm': 0.4267348051071167, 'learning_rate': 1.8222384250820272e-05, 'epoch': 3.18}
{'loss': 0.1857, 'grad_norm': 0.8839124441146851, 'learning_rate': 1.814947138169887e-05, 'epoch': 3.19}
{'loss': 0.1878, 'grad_norm': 0.5977046489715576, 'learning_rate': 1.8076558512577472e-05, 'epoch': 3.19}
{'loss': 0.1866, 'grad_norm': 0.5835866332054138, 'learning_rate': 1.800364564345607e-05, 'epoch': 3.2}
{'loss': 0.1867, 'grad_norm': 0.6041905879974365, 'learning_rate': 1.7930732774334673e-05, 'epoch': 3.21}
{'loss': 0.1881, 'grad_norm': 0.5085839629173279, 'learning_rate': 1.785781990521327e-05, 'epoch': 3.22}
{'loss': 0.1842, 'grad_norm': 0.5290536284446716, 'learning_rate': 1.7784907036091873e-05, 'epoch': 3.22}
{'loss': 0.1865, 'grad_norm': 0.6752251386642456, 'learning_rate': 1.771199416697047e-05, 'epoch': 3.23}
{'loss': 0.1895, 'grad_norm': 0.856365978717804, 'learning_rate': 1.7639081297849073e-05, 'epoch': 3.24}
{'loss': 0.1916, 'grad_norm': 0.5811622142791748, 'learning_rate': 1.756616842872767e-05, 'epoch': 3.24}
{'loss': 0.1941, 'grad_norm': 0.6030610799789429, 'learning_rate': 1.7493255559606273e-05, 'epoch': 3.25}
{'loss': 0.1843, 'grad_norm': 0.5658465027809143, 'learning_rate': 1.742034269048487e-05, 'epoch': 3.26}
{'loss': 0.1886, 'grad_norm': 0.4923674166202545, 'learning_rate': 1.7347429821363473e-05, 'epoch': 3.27}
{'loss': 0.1843, 'grad_norm': 0.6856282949447632, 'learning_rate': 1.7274516952242072e-05, 'epoch': 3.27}
{'loss': 0.1876, 'grad_norm': 0.5888469815254211, 'learning_rate': 1.720160408312067e-05, 'epoch': 3.28}
{'loss': 0.1837, 'grad_norm': 0.5252166390419006, 'learning_rate': 1.7128691213999272e-05, 'epoch': 3.29}
{'loss': 0.1876, 'grad_norm': 0.8034418225288391, 'learning_rate': 1.7056507473569085e-05, 'epoch': 3.3}
{'loss': 0.1892, 'grad_norm': 0.47383686900138855, 'learning_rate': 1.6983594604447686e-05, 'epoch': 3.3}
{'loss': 0.1874, 'grad_norm': 0.5854933261871338, 'learning_rate': 1.6910681735326285e-05, 'epoch': 3.31}
{'loss': 0.1913, 'grad_norm': 0.49233266711235046, 'learning_rate': 1.6837768866204887e-05, 'epoch': 3.32}
{'loss': 0.1891, 'grad_norm': 0.4320344924926758, 'learning_rate': 1.676485599708349e-05, 'epoch': 3.32}
{'loss': 0.1881, 'grad_norm': 0.6058262586593628, 'learning_rate': 1.6691943127962087e-05, 'epoch': 3.33}
{'loss': 0.1878, 'grad_norm': 0.5550236701965332, 'learning_rate': 1.661903025884069e-05, 'epoch': 3.34}
{'loss': 0.1939, 'grad_norm': 0.5743792057037354, 'learning_rate': 1.6546117389719287e-05, 'epoch': 3.35}
{'loss': 0.1878, 'grad_norm': 0.5581831336021423, 'learning_rate': 1.647320452059789e-05, 'epoch': 3.35}
{'loss': 0.1843, 'grad_norm': 0.6968244314193726, 'learning_rate': 1.6400291651476487e-05, 'epoch': 3.36}
{'loss': 0.1932, 'grad_norm': 0.6656664609909058, 'learning_rate': 1.632737878235509e-05, 'epoch': 3.37}
{'loss': 0.1907, 'grad_norm': 0.6015579700469971, 'learning_rate': 1.6254465913233684e-05, 'epoch': 3.38}
{'loss': 0.1848, 'grad_norm': 0.5596274137496948, 'learning_rate': 1.6181553044112286e-05, 'epoch': 3.38}
{'loss': 0.1847, 'grad_norm': 0.5185514688491821, 'learning_rate': 1.6108640174990884e-05, 'epoch': 3.39}
{'loss': 0.1865, 'grad_norm': 0.479972779750824, 'learning_rate': 1.6035727305869486e-05, 'epoch': 3.4}
{'loss': 0.1869, 'grad_norm': 0.5403420925140381, 'learning_rate': 1.5962814436748084e-05, 'epoch': 3.41}
{'loss': 0.1847, 'grad_norm': 0.45150327682495117, 'learning_rate': 1.5889901567626686e-05, 'epoch': 3.41}
{'loss': 0.1925, 'grad_norm': 0.5330684781074524, 'learning_rate': 1.5816988698505285e-05, 'epoch': 3.42}
{'loss': 0.1875, 'grad_norm': 0.8019068241119385, 'learning_rate': 1.5744075829383886e-05, 'epoch': 3.43}
{'loss': 0.1923, 'grad_norm': 0.5272497534751892, 'learning_rate': 1.5671162960262488e-05, 'epoch': 3.43}
{'loss': 0.1899, 'grad_norm': 0.5137274265289307, 'learning_rate': 1.5598250091141087e-05, 'epoch': 3.44}
{'loss': 0.1876, 'grad_norm': 0.6387601494789124, 'learning_rate': 1.552533722201969e-05, 'epoch': 3.45}
{'loss': 0.1935, 'grad_norm': 0.6529651880264282, 'learning_rate': 1.5452424352898287e-05, 'epoch': 3.46}
{'loss': 0.1862, 'grad_norm': 0.4892672300338745, 'learning_rate': 1.537951148377689e-05, 'epoch': 3.46}
{'loss': 0.1963, 'grad_norm': 0.5544019937515259, 'learning_rate': 1.5306598614655487e-05, 'epoch': 3.47}
{'loss': 0.1918, 'grad_norm': 0.5790650844573975, 'learning_rate': 1.5233685745534087e-05, 'epoch': 3.48}
{'loss': 0.1842, 'grad_norm': 0.5896217226982117, 'learning_rate': 1.5160772876412687e-05, 'epoch': 3.49}
{'loss': 0.1888, 'grad_norm': 0.4510177671909332, 'learning_rate': 1.5087860007291287e-05, 'epoch': 3.49}
{'loss': 0.1875, 'grad_norm': 0.576596200466156, 'learning_rate': 1.5014947138169887e-05, 'epoch': 3.5}
{'loss': 0.1938, 'grad_norm': 0.5055475831031799, 'learning_rate': 1.4942034269048488e-05, 'epoch': 3.51}
{'loss': 0.1902, 'grad_norm': 0.5263372659683228, 'learning_rate': 1.4869121399927088e-05, 'epoch': 3.51}
{'loss': 0.1906, 'grad_norm': 0.6960529685020447, 'learning_rate': 1.479620853080569e-05, 'epoch': 3.52}
{'loss': 0.1917, 'grad_norm': 0.42376357316970825, 'learning_rate': 1.472329566168429e-05, 'epoch': 3.53}
{'loss': 0.1921, 'grad_norm': 0.4776851236820221, 'learning_rate': 1.465038279256289e-05, 'epoch': 3.54}
{'loss': 0.188, 'grad_norm': 0.4297234117984772, 'learning_rate': 1.457746992344149e-05, 'epoch': 3.54}
{'loss': 0.1892, 'grad_norm': 0.6546010375022888, 'learning_rate': 1.450455705432009e-05, 'epoch': 3.55}
{'loss': 0.1861, 'grad_norm': 0.8102666735649109, 'learning_rate': 1.443164418519869e-05, 'epoch': 3.56}
{'loss': 0.1851, 'grad_norm': 0.6037744283676147, 'learning_rate': 1.435873131607729e-05, 'epoch': 3.57}
{'loss': 0.1909, 'grad_norm': 0.536008894443512, 'learning_rate': 1.428581844695589e-05, 'epoch': 3.57}
{'loss': 0.1835, 'grad_norm': 0.5016354322433472, 'learning_rate': 1.4212905577834487e-05, 'epoch': 3.58}
{'loss': 0.1905, 'grad_norm': 0.4929356575012207, 'learning_rate': 1.4139992708713087e-05, 'epoch': 3.59}
{'loss': 0.1898, 'grad_norm': 0.7147240042686462, 'learning_rate': 1.4067079839591687e-05, 'epoch': 3.59}
{'loss': 0.1882, 'grad_norm': 0.5311641693115234, 'learning_rate': 1.3994166970470287e-05, 'epoch': 3.6}
{'loss': 0.1935, 'grad_norm': 0.647278904914856, 'learning_rate': 1.3921254101348887e-05, 'epoch': 3.61}
{'loss': 0.1893, 'grad_norm': 0.6269527673721313, 'learning_rate': 1.3848341232227487e-05, 'epoch': 3.62}
{'loss': 0.1872, 'grad_norm': 0.4902038276195526, 'learning_rate': 1.3775428363106087e-05, 'epoch': 3.62}
{'loss': 0.1859, 'grad_norm': 0.6004332304000854, 'learning_rate': 1.3702515493984688e-05, 'epoch': 3.63}
{'loss': 0.1905, 'grad_norm': 0.7870993614196777, 'learning_rate': 1.362960262486329e-05, 'epoch': 3.64}
{'loss': 0.1928, 'grad_norm': 0.6539955735206604, 'learning_rate': 1.355668975574189e-05, 'epoch': 3.65}
{'loss': 0.1882, 'grad_norm': 0.6370952129364014, 'learning_rate': 1.3484506015311704e-05, 'epoch': 3.65}
{'loss': 0.1888, 'grad_norm': 0.5049360394477844, 'learning_rate': 1.3411593146190304e-05, 'epoch': 3.66}
{'loss': 0.1927, 'grad_norm': 0.8884416818618774, 'learning_rate': 1.3338680277068904e-05, 'epoch': 3.67}
{'loss': 0.1908, 'grad_norm': 0.7096948623657227, 'learning_rate': 1.3265767407947504e-05, 'epoch': 3.67}
{'loss': 0.1874, 'grad_norm': 0.5121162533760071, 'learning_rate': 1.3192854538826102e-05, 'epoch': 3.68}
{'loss': 0.1865, 'grad_norm': 0.5733582377433777, 'learning_rate': 1.3119941669704702e-05, 'epoch': 3.69}
{'loss': 0.1856, 'grad_norm': 0.613228976726532, 'learning_rate': 1.3047028800583303e-05, 'epoch': 3.7}
{'loss': 0.1915, 'grad_norm': 0.6573132872581482, 'learning_rate': 1.2974115931461903e-05, 'epoch': 3.7}
{'loss': 0.1871, 'grad_norm': 0.7612690925598145, 'learning_rate': 1.2901203062340503e-05, 'epoch': 3.71}
{'loss': 0.1873, 'grad_norm': 0.5599857568740845, 'learning_rate': 1.2828290193219103e-05, 'epoch': 3.72}
{'loss': 0.1869, 'grad_norm': 0.6718959808349609, 'learning_rate': 1.2756106452788919e-05, 'epoch': 3.73}
{'loss': 0.1899, 'grad_norm': 0.603155255317688, 'learning_rate': 1.2683193583667519e-05, 'epoch': 3.73}
{'loss': 0.1892, 'grad_norm': 0.5778862237930298, 'learning_rate': 1.2610280714546119e-05, 'epoch': 3.74}
{'loss': 0.1937, 'grad_norm': 0.5417420864105225, 'learning_rate': 1.2537367845424719e-05, 'epoch': 3.75}
{'loss': 0.1923, 'grad_norm': 0.5788159966468811, 'learning_rate': 1.2464454976303317e-05, 'epoch': 3.76}
{'loss': 0.1892, 'grad_norm': 0.4645712375640869, 'learning_rate': 1.2391542107181918e-05, 'epoch': 3.76}
{'loss': 0.1881, 'grad_norm': 0.5496077537536621, 'learning_rate': 1.2318629238060518e-05, 'epoch': 3.77}
{'loss': 0.1896, 'grad_norm': 0.43689119815826416, 'learning_rate': 1.2245716368939118e-05, 'epoch': 3.78}
{'loss': 0.1863, 'grad_norm': 0.4864184558391571, 'learning_rate': 1.2172803499817718e-05, 'epoch': 3.78}
{'loss': 0.1877, 'grad_norm': 0.5156639814376831, 'learning_rate': 1.2099890630696318e-05, 'epoch': 3.79}
{'loss': 0.1889, 'grad_norm': 0.6070613861083984, 'learning_rate': 1.2026977761574918e-05, 'epoch': 3.8}
{'loss': 0.191, 'grad_norm': 0.5138311982154846, 'learning_rate': 1.1954064892453518e-05, 'epoch': 3.81}
{'loss': 0.1904, 'grad_norm': 0.5392717719078064, 'learning_rate': 1.188115202333212e-05, 'epoch': 3.81}
{'loss': 0.1882, 'grad_norm': 0.46673351526260376, 'learning_rate': 1.180823915421072e-05, 'epoch': 3.82}
{'loss': 0.1842, 'grad_norm': 0.4309041500091553, 'learning_rate': 1.173532628508932e-05, 'epoch': 3.83}
{'loss': 0.1877, 'grad_norm': 0.6514774560928345, 'learning_rate': 1.1662413415967919e-05, 'epoch': 3.84}
{'loss': 0.1992, 'grad_norm': 0.49653351306915283, 'learning_rate': 1.1589500546846519e-05, 'epoch': 3.84}
{'loss': 0.1894, 'grad_norm': 0.6047592759132385, 'learning_rate': 1.1516587677725119e-05, 'epoch': 3.85}
{'loss': 0.1905, 'grad_norm': 0.6894475221633911, 'learning_rate': 1.1443674808603719e-05, 'epoch': 3.86}
{'loss': 0.1873, 'grad_norm': 0.4628429710865021, 'learning_rate': 1.1370761939482319e-05, 'epoch': 3.86}
{'loss': 0.1873, 'grad_norm': 0.5785309076309204, 'learning_rate': 1.1297849070360919e-05, 'epoch': 3.87}
{'loss': 0.1849, 'grad_norm': 0.5165311098098755, 'learning_rate': 1.1224936201239519e-05, 'epoch': 3.88}
{'loss': 0.1937, 'grad_norm': 0.4783688187599182, 'learning_rate': 1.115202333211812e-05, 'epoch': 3.89}
{'loss': 0.1889, 'grad_norm': 0.5594042539596558, 'learning_rate': 1.107911046299672e-05, 'epoch': 3.89}
{'loss': 0.1863, 'grad_norm': 0.5079006552696228, 'learning_rate': 1.100619759387532e-05, 'epoch': 3.9}
{'loss': 0.1878, 'grad_norm': 0.5756629109382629, 'learning_rate': 1.093328472475392e-05, 'epoch': 3.91}
{'loss': 0.1905, 'grad_norm': 0.45588696002960205, 'learning_rate': 1.086037185563252e-05, 'epoch': 3.92}
{'loss': 0.1881, 'grad_norm': 0.5686562657356262, 'learning_rate': 1.078745898651112e-05, 'epoch': 3.92}
{'loss': 0.1869, 'grad_norm': 0.6079047322273254, 'learning_rate': 1.071454611738972e-05, 'epoch': 3.93}
{'loss': 0.1847, 'grad_norm': 0.5703750252723694, 'learning_rate': 1.064163324826832e-05, 'epoch': 3.94}
{'loss': 0.1918, 'grad_norm': 0.6277183890342712, 'learning_rate': 1.056872037914692e-05, 'epoch': 3.94}
{'loss': 0.1884, 'grad_norm': 0.47496628761291504, 'learning_rate': 1.049580751002552e-05, 'epoch': 3.95}
{'loss': 0.1888, 'grad_norm': 0.6985407471656799, 'learning_rate': 1.042289464090412e-05, 'epoch': 3.96}
{'loss': 0.1887, 'grad_norm': 0.4473326802253723, 'learning_rate': 1.034998177178272e-05, 'epoch': 3.97}
{'loss': 0.1928, 'grad_norm': 0.7131598591804504, 'learning_rate': 1.027706890266132e-05, 'epoch': 3.97}
{'loss': 0.1931, 'grad_norm': 0.4774819314479828, 'learning_rate': 1.020415603353992e-05, 'epoch': 3.98}
{'loss': 0.1871, 'grad_norm': 0.5095045566558838, 'learning_rate': 1.013124316441852e-05, 'epoch': 3.99}
{'loss': 0.1919, 'grad_norm': 0.5406346917152405, 'learning_rate': 1.005833029529712e-05, 'epoch': 4.0}
{'loss': 0.1784, 'grad_norm': 0.5155145525932312, 'learning_rate': 9.98541742617572e-06, 'epoch': 4.0}
{'loss': 0.1782, 'grad_norm': 0.6058285236358643, 'learning_rate': 9.912504557054321e-06, 'epoch': 4.01}
{'loss': 0.1694, 'grad_norm': 0.5669354796409607, 'learning_rate': 9.839591687932921e-06, 'epoch': 4.02}
{'loss': 0.1717, 'grad_norm': 0.7152284383773804, 'learning_rate': 9.766678818811521e-06, 'epoch': 4.02}
{'loss': 0.1734, 'grad_norm': 0.5006674528121948, 'learning_rate': 9.69376594969012e-06, 'epoch': 4.03}
{'loss': 0.1753, 'grad_norm': 0.5746406316757202, 'learning_rate': 9.62085308056872e-06, 'epoch': 4.04}
{'loss': 0.17, 'grad_norm': 0.6029278039932251, 'learning_rate': 9.54794021144732e-06, 'epoch': 4.05}
{'loss': 0.1755, 'grad_norm': 0.5221485495567322, 'learning_rate': 9.47502734232592e-06, 'epoch': 4.05}
{'loss': 0.1759, 'grad_norm': 0.487223356962204, 'learning_rate': 9.40211447320452e-06, 'epoch': 4.06}
{'loss': 0.1729, 'grad_norm': 0.4343993365764618, 'learning_rate': 9.329201604083122e-06, 'epoch': 4.07}
{'loss': 0.1754, 'grad_norm': 0.7154158353805542, 'learning_rate': 9.256288734961722e-06, 'epoch': 4.08}
{'loss': 0.1713, 'grad_norm': 0.6891667246818542, 'learning_rate': 9.183375865840322e-06, 'epoch': 4.08}
{'loss': 0.1768, 'grad_norm': 0.5999879240989685, 'learning_rate': 9.110462996718922e-06, 'epoch': 4.09}
{'loss': 0.1748, 'grad_norm': 0.43241435289382935, 'learning_rate': 9.037550127597522e-06, 'epoch': 4.1}
{'loss': 0.1633, 'grad_norm': 0.4689324200153351, 'learning_rate': 8.964637258476122e-06, 'epoch': 4.1}
{'loss': 0.1714, 'grad_norm': 0.5796142816543579, 'learning_rate': 8.891724389354722e-06, 'epoch': 4.11}
{'loss': 0.1723, 'grad_norm': 0.6598939299583435, 'learning_rate': 8.818811520233322e-06, 'epoch': 4.12}
{'loss': 0.1706, 'grad_norm': 0.5620597004890442, 'learning_rate': 8.745898651111923e-06, 'epoch': 4.13}
{'loss': 0.1703, 'grad_norm': 0.6739466190338135, 'learning_rate': 8.672985781990521e-06, 'epoch': 4.13}
{'loss': 0.17, 'grad_norm': 0.4790133535861969, 'learning_rate': 8.600072912869121e-06, 'epoch': 4.14}
{'loss': 0.1726, 'grad_norm': 0.6915096640586853, 'learning_rate': 8.527160043747721e-06, 'epoch': 4.15}
{'loss': 0.1732, 'grad_norm': 0.6015356779098511, 'learning_rate': 8.454247174626321e-06, 'epoch': 4.16}
{'loss': 0.1745, 'grad_norm': 0.5829822421073914, 'learning_rate': 8.382063434196135e-06, 'epoch': 4.16}
{'loss': 0.1702, 'grad_norm': 0.5418187379837036, 'learning_rate': 8.309150565074736e-06, 'epoch': 4.17}
{'loss': 0.1683, 'grad_norm': 0.5649006962776184, 'learning_rate': 8.236237695953336e-06, 'epoch': 4.18}
{'loss': 0.1714, 'grad_norm': 0.553200900554657, 'learning_rate': 8.163324826831936e-06, 'epoch': 4.19}
{'loss': 0.1775, 'grad_norm': 0.5856122374534607, 'learning_rate': 8.090411957710536e-06, 'epoch': 4.19}
{'loss': 0.1756, 'grad_norm': 0.45939260721206665, 'learning_rate': 8.01822821728035e-06, 'epoch': 4.2}
{'loss': 0.1684, 'grad_norm': 0.5335925817489624, 'learning_rate': 7.94531534815895e-06, 'epoch': 4.21}
{'loss': 0.1666, 'grad_norm': 0.6979501843452454, 'learning_rate': 7.87240247903755e-06, 'epoch': 4.21}
{'loss': 0.1745, 'grad_norm': 1.3536558151245117, 'learning_rate': 7.79948960991615e-06, 'epoch': 4.22}
{'loss': 0.1742, 'grad_norm': 0.4852845072746277, 'learning_rate': 7.72657674079475e-06, 'epoch': 4.23}
{'loss': 0.1741, 'grad_norm': 0.6056545972824097, 'learning_rate': 7.65366387167335e-06, 'epoch': 4.24}
{'loss': 0.1671, 'grad_norm': 0.5732043981552124, 'learning_rate': 7.58075100255195e-06, 'epoch': 4.24}
{'loss': 0.1762, 'grad_norm': 0.5391222834587097, 'learning_rate': 7.50783813343055e-06, 'epoch': 4.25}
{'loss': 0.1773, 'grad_norm': 0.5101587176322937, 'learning_rate': 7.434925264309151e-06, 'epoch': 4.26}
{'loss': 0.1712, 'grad_norm': 0.5493916869163513, 'learning_rate': 7.362012395187751e-06, 'epoch': 4.27}
{'loss': 0.172, 'grad_norm': 0.5421503186225891, 'learning_rate': 7.289099526066351e-06, 'epoch': 4.27}
{'loss': 0.1768, 'grad_norm': 0.5614294409751892, 'learning_rate': 7.216186656944951e-06, 'epoch': 4.28}
{'loss': 0.1751, 'grad_norm': 0.6910384893417358, 'learning_rate': 7.143273787823551e-06, 'epoch': 4.29}
{'loss': 0.1755, 'grad_norm': 0.5581088662147522, 'learning_rate': 7.0710900473933654e-06, 'epoch': 4.29}
{'loss': 0.1678, 'grad_norm': 0.7133597135543823, 'learning_rate': 6.9981771782719655e-06, 'epoch': 4.3}
{'loss': 0.1728, 'grad_norm': 0.6085053086280823, 'learning_rate': 6.925264309150566e-06, 'epoch': 4.31}
{'loss': 0.1731, 'grad_norm': 0.7230437994003296, 'learning_rate': 6.852351440029166e-06, 'epoch': 4.32}
{'loss': 0.1746, 'grad_norm': 0.8489567041397095, 'learning_rate': 6.779438570907766e-06, 'epoch': 4.32}
{'loss': 0.1724, 'grad_norm': 0.6037678122520447, 'learning_rate': 6.706525701786366e-06, 'epoch': 4.33}
{'loss': 0.1706, 'grad_norm': 0.5682005286216736, 'learning_rate': 6.633612832664966e-06, 'epoch': 4.34}
{'loss': 0.1713, 'grad_norm': 0.6651930809020996, 'learning_rate': 6.560699963543565e-06, 'epoch': 4.35}
{'loss': 0.1693, 'grad_norm': 0.3732212781906128, 'learning_rate': 6.487787094422165e-06, 'epoch': 4.35}
{'loss': 0.1645, 'grad_norm': 0.5412612557411194, 'learning_rate': 6.4148742253007655e-06, 'epoch': 4.36}
{'loss': 0.1712, 'grad_norm': 0.6364423632621765, 'learning_rate': 6.341961356179366e-06, 'epoch': 4.37}
{'loss': 0.1733, 'grad_norm': 0.7422291040420532, 'learning_rate': 6.269048487057966e-06, 'epoch': 4.37}
{'loss': 0.1655, 'grad_norm': 0.5253889560699463, 'learning_rate': 6.196135617936566e-06, 'epoch': 4.38}
{'loss': 0.1688, 'grad_norm': 0.833242654800415, 'learning_rate': 6.123222748815166e-06, 'epoch': 4.39}
{'loss': 0.175, 'grad_norm': 0.5921564698219299, 'learning_rate': 6.050309879693766e-06, 'epoch': 4.4}
{'loss': 0.1675, 'grad_norm': 0.598050057888031, 'learning_rate': 5.977397010572366e-06, 'epoch': 4.4}
{'loss': 0.1749, 'grad_norm': 0.7307943105697632, 'learning_rate': 5.904484141450966e-06, 'epoch': 4.41}
{'loss': 0.1699, 'grad_norm': 0.5510030388832092, 'learning_rate': 5.831571272329567e-06, 'epoch': 4.42}
{'loss': 0.1704, 'grad_norm': 0.5403937101364136, 'learning_rate': 5.758658403208166e-06, 'epoch': 4.43}
{'loss': 0.1719, 'grad_norm': 0.8106915354728699, 'learning_rate': 5.6857455340867665e-06, 'epoch': 4.43}
{'loss': 0.1723, 'grad_norm': 0.6063551306724548, 'learning_rate': 5.612832664965367e-06, 'epoch': 4.44}
{'loss': 0.174, 'grad_norm': 0.5754488706588745, 'learning_rate': 5.539919795843967e-06, 'epoch': 4.45}
{'loss': 0.1707, 'grad_norm': 0.6698289513587952, 'learning_rate': 5.467006926722567e-06, 'epoch': 4.45}
{'loss': 0.1725, 'grad_norm': 0.5174623131752014, 'learning_rate': 5.394094057601167e-06, 'epoch': 4.46}
{'loss': 0.1677, 'grad_norm': 0.6047619581222534, 'learning_rate': 5.321181188479767e-06, 'epoch': 4.47}
{'loss': 0.1738, 'grad_norm': 0.670921266078949, 'learning_rate': 5.248268319358367e-06, 'epoch': 4.48}
{'loss': 0.1707, 'grad_norm': 0.7859172821044922, 'learning_rate': 5.175355450236967e-06, 'epoch': 4.48}
{'loss': 0.1706, 'grad_norm': 0.6454694271087646, 'learning_rate': 5.102442581115567e-06, 'epoch': 4.49}
{'loss': 0.1688, 'grad_norm': 0.6424952149391174, 'learning_rate': 5.029529711994167e-06, 'epoch': 4.5}
{'loss': 0.1709, 'grad_norm': 0.8142262697219849, 'learning_rate': 4.9566168428727675e-06, 'epoch': 4.51}
{'loss': 0.1736, 'grad_norm': 0.587322473526001, 'learning_rate': 4.884433102442582e-06, 'epoch': 4.51}
{'loss': 0.1713, 'grad_norm': 0.553697407245636, 'learning_rate': 4.811520233321182e-06, 'epoch': 4.52}
{'loss': 0.1749, 'grad_norm': 0.6129769682884216, 'learning_rate': 4.738607364199781e-06, 'epoch': 4.53}
{'loss': 0.1739, 'grad_norm': 0.5923563838005066, 'learning_rate': 4.665694495078381e-06, 'epoch': 4.54}
{'loss': 0.1719, 'grad_norm': 0.6006336808204651, 'learning_rate': 4.592781625956981e-06, 'epoch': 4.54}
{'loss': 0.162, 'grad_norm': 0.5714506506919861, 'learning_rate': 4.519868756835581e-06, 'epoch': 4.55}
{'loss': 0.1674, 'grad_norm': 0.564581573009491, 'learning_rate': 4.446955887714182e-06, 'epoch': 4.56}
{'loss': 0.1726, 'grad_norm': 0.6052203178405762, 'learning_rate': 4.374043018592782e-06, 'epoch': 4.56}
{'loss': 0.1674, 'grad_norm': 0.46643081307411194, 'learning_rate': 4.3011301494713825e-06, 'epoch': 4.57}
{'loss': 0.1713, 'grad_norm': 0.5516188740730286, 'learning_rate': 4.228217280349982e-06, 'epoch': 4.58}
{'loss': 0.1731, 'grad_norm': 0.6328332424163818, 'learning_rate': 4.155304411228582e-06, 'epoch': 4.59}
{'loss': 0.1662, 'grad_norm': 0.6314975619316101, 'learning_rate': 4.082391542107182e-06, 'epoch': 4.59}
{'loss': 0.1724, 'grad_norm': 0.7180095911026001, 'learning_rate': 4.009478672985782e-06, 'epoch': 4.6}
{'loss': 0.1749, 'grad_norm': 0.8092970252037048, 'learning_rate': 3.936565803864382e-06, 'epoch': 4.61}
{'loss': 0.1706, 'grad_norm': 0.4619521200656891, 'learning_rate': 3.863652934742982e-06, 'epoch': 4.62}
{'loss': 0.1754, 'grad_norm': 0.6603986024856567, 'learning_rate': 3.7907400656215828e-06, 'epoch': 4.62}
{'loss': 0.1719, 'grad_norm': 0.7060928344726562, 'learning_rate': 3.717827196500182e-06, 'epoch': 4.63}
{'loss': 0.1756, 'grad_norm': 0.6677584052085876, 'learning_rate': 3.6449143273787826e-06, 'epoch': 4.64}
{'loss': 0.1711, 'grad_norm': 0.5319058895111084, 'learning_rate': 3.5720014582573827e-06, 'epoch': 4.64}
{'loss': 0.1736, 'grad_norm': 0.8419823050498962, 'learning_rate': 3.4990885891359828e-06, 'epoch': 4.65}
{'loss': 0.1749, 'grad_norm': 0.7574540972709656, 'learning_rate': 3.426175720014583e-06, 'epoch': 4.66}
{'loss': 0.1682, 'grad_norm': 0.5783722400665283, 'learning_rate': 3.353262850893183e-06, 'epoch': 4.67}
{'loss': 0.171, 'grad_norm': 0.6271637678146362, 'learning_rate': 3.2803499817717826e-06, 'epoch': 4.67}
{'loss': 0.1778, 'grad_norm': 0.5451333522796631, 'learning_rate': 3.2074371126503827e-06, 'epoch': 4.68}
{'loss': 0.1703, 'grad_norm': 0.6688829064369202, 'learning_rate': 3.134524243528983e-06, 'epoch': 4.69}
{'loss': 0.1722, 'grad_norm': 0.5298101305961609, 'learning_rate': 3.061611374407583e-06, 'epoch': 4.7}
{'loss': 0.17, 'grad_norm': 0.5532669425010681, 'learning_rate': 2.988698505286183e-06, 'epoch': 4.7}
{'loss': 0.1678, 'grad_norm': 0.5525140762329102, 'learning_rate': 2.9157856361647836e-06, 'epoch': 4.71}
{'loss': 0.1723, 'grad_norm': 0.5890864133834839, 'learning_rate': 2.8428727670433833e-06, 'epoch': 4.72}
{'loss': 0.1704, 'grad_norm': 0.6522708535194397, 'learning_rate': 2.7699598979219834e-06, 'epoch': 4.72}
{'loss': 0.1675, 'grad_norm': 0.5231993794441223, 'learning_rate': 2.6977761574917975e-06, 'epoch': 4.73}
{'loss': 0.1762, 'grad_norm': 0.5043803453445435, 'learning_rate': 2.6248632883703972e-06, 'epoch': 4.74}
{'loss': 0.169, 'grad_norm': 0.6869220733642578, 'learning_rate': 2.5519504192489973e-06, 'epoch': 4.75}
{'loss': 0.1728, 'grad_norm': 0.6431723237037659, 'learning_rate': 2.479037550127598e-06, 'epoch': 4.75}
{'loss': 0.1757, 'grad_norm': 0.6244820952415466, 'learning_rate': 2.406124681006198e-06, 'epoch': 4.76}
{'loss': 0.1692, 'grad_norm': 0.5380558967590332, 'learning_rate': 2.3332118118847976e-06, 'epoch': 4.77}
{'loss': 0.1681, 'grad_norm': 0.5590689182281494, 'learning_rate': 2.2602989427633977e-06, 'epoch': 4.78}
{'loss': 0.1735, 'grad_norm': 0.7020920515060425, 'learning_rate': 2.187386073641998e-06, 'epoch': 4.78}
{'loss': 0.1707, 'grad_norm': 0.5698318481445312, 'learning_rate': 2.114473204520598e-06, 'epoch': 4.79}
{'loss': 0.1736, 'grad_norm': 0.6659119129180908, 'learning_rate': 2.041560335399198e-06, 'epoch': 4.8}
{'loss': 0.1708, 'grad_norm': 0.5395392775535583, 'learning_rate': 1.968647466277798e-06, 'epoch': 4.8}
{'loss': 0.1729, 'grad_norm': 0.6576033234596252, 'learning_rate': 1.8957345971563984e-06, 'epoch': 4.81}
{'loss': 0.171, 'grad_norm': 0.6746744513511658, 'learning_rate': 1.8228217280349981e-06, 'epoch': 4.82}
{'loss': 0.1729, 'grad_norm': 0.635573148727417, 'learning_rate': 1.7499088589135984e-06, 'epoch': 4.83}
{'loss': 0.1661, 'grad_norm': 0.5284573435783386, 'learning_rate': 1.6769959897921985e-06, 'epoch': 4.83}
{'loss': 0.1683, 'grad_norm': 0.7588483691215515, 'learning_rate': 1.6040831206707984e-06, 'epoch': 4.84}
{'loss': 0.1747, 'grad_norm': 0.5800588130950928, 'learning_rate': 1.5311702515493985e-06, 'epoch': 4.85}
{'loss': 0.1735, 'grad_norm': 0.6518589854240417, 'learning_rate': 1.4582573824279986e-06, 'epoch': 4.86}
{'loss': 0.172, 'grad_norm': 0.7854275107383728, 'learning_rate': 1.3853445133065987e-06, 'epoch': 4.86}
{'loss': 0.1697, 'grad_norm': 0.505775511264801, 'learning_rate': 1.3124316441851986e-06, 'epoch': 4.87}
{'loss': 0.1746, 'grad_norm': 0.5104854106903076, 'learning_rate': 1.239518775063799e-06, 'epoch': 4.88}
{'loss': 0.1697, 'grad_norm': 0.5596996545791626, 'learning_rate': 1.1666059059423988e-06, 'epoch': 4.89}
{'loss': 0.1681, 'grad_norm': 0.6091883182525635, 'learning_rate': 1.093693036820999e-06, 'epoch': 4.89}
{'loss': 0.1746, 'grad_norm': 0.5894305109977722, 'learning_rate': 1.020780167699599e-06, 'epoch': 4.9}
{'loss': 0.1718, 'grad_norm': 0.5376001000404358, 'learning_rate': 9.478672985781992e-07, 'epoch': 4.91}
{'loss': 0.1765, 'grad_norm': 0.5769944190979004, 'learning_rate': 8.749544294567992e-07, 'epoch': 4.91}
{'loss': 0.1657, 'grad_norm': 0.6469339728355408, 'learning_rate': 8.020415603353992e-07, 'epoch': 4.92}
{'loss': 0.1736, 'grad_norm': 0.5861787796020508, 'learning_rate': 7.291286912139993e-07, 'epoch': 4.93}
{'loss': 0.1702, 'grad_norm': 0.6765725612640381, 'learning_rate': 6.562158220925993e-07, 'epoch': 4.94}
{'loss': 0.1736, 'grad_norm': 0.6745538115501404, 'learning_rate': 5.833029529711994e-07, 'epoch': 4.94}
{'loss': 0.1736, 'grad_norm': 0.5183188319206238, 'learning_rate': 5.103900838497995e-07, 'epoch': 4.95}
{'loss': 0.1745, 'grad_norm': 0.7191895246505737, 'learning_rate': 4.374772147283996e-07, 'epoch': 4.96}
{'loss': 0.17, 'grad_norm': 0.5797267556190491, 'learning_rate': 3.6456434560699965e-07, 'epoch': 4.97}
{'loss': 0.1702, 'grad_norm': 0.48985013365745544, 'learning_rate': 2.916514764855997e-07, 'epoch': 4.97}
{'loss': 0.1744, 'grad_norm': 0.5475668907165527, 'learning_rate': 2.187386073641998e-07, 'epoch': 4.98}
{'loss': 0.1689, 'grad_norm': 0.6085323691368103, 'learning_rate': 1.4582573824279985e-07, 'epoch': 4.99}
{'loss': 0.1726, 'grad_norm': 0.4989693760871887, 'learning_rate': 7.364199781261393e-08, 'epoch': 4.99}