alonb19 commited on Jul 13

Commit

d2b6db3

verified ·

1 Parent(s): 87529f3

Upload folder using huggingface_hub

Browse files

Files changed (31) hide show

checkpoint-1400/config.json +34 -0
checkpoint-1400/model.safetensors +3 -0
checkpoint-1400/optimizer.pt +3 -0
checkpoint-1400/preprocessor_config.json +13 -0
checkpoint-1400/rng_state.pth +3 -0
checkpoint-1400/scheduler.pt +3 -0
checkpoint-1400/trainer_state.json +594 -0
checkpoint-1400/training_args.bin +3 -0
checkpoint-1500/config.json +34 -0
checkpoint-1500/model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/preprocessor_config.json +13 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/trainer_state.json +634 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-600/config.json +34 -0
checkpoint-600/model.safetensors +3 -0
checkpoint-600/optimizer.pt +3 -0
checkpoint-600/preprocessor_config.json +13 -0
checkpoint-600/rng_state.pth +3 -0
checkpoint-600/scheduler.pt +3 -0
checkpoint-600/trainer_state.json +274 -0
checkpoint-600/training_args.bin +3 -0
config.json +34 -0
model.safetensors +3 -0
preprocessor_config.json +13 -0
runs/Jul13_07-53-15_ee9e3dbd0066/events.out.tfevents.1752393198.ee9e3dbd0066.19259.0 +3 -0
runs/Jul13_08-28-47_ee9e3dbd0066/events.out.tfevents.1752395338.ee9e3dbd0066.19259.1 +3 -0
runs/Jul13_08-28-47_ee9e3dbd0066/events.out.tfevents.1752397078.ee9e3dbd0066.19259.2 +3 -0
training_args.bin +3 -0

checkpoint-1400/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "architectures": [
+    "ASTForAudioClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "frequency_stride": 10,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Sound_Guitar",
+    "1": "Sound_Drum",
+    "2": "Sound_Piano"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Sound_Drum": 1,
+    "Sound_Guitar": 0,
+    "Sound_Piano": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "max_length": 1024,
+  "model_type": "audio-spectrogram-transformer",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_mel_bins": 128,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "time_stride": 10,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.1"
+}

checkpoint-1400/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4c91a78d1fe12be34e1f18a5440b5c5e8a19dcbcc9729cc1d3e88e46038c185
+size 344793116

checkpoint-1400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ced18c40edf54ecf5c4bf5208acb78876f9365377470c4073374b6fc9f1c63f8
+size 689698682

checkpoint-1400/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "ASTFeatureExtractor",
+  "feature_size": 1,
+  "max_length": 1024,
+  "mean": -4.2677393,
+  "num_mel_bins": 128,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000,
+  "std": 4.5689974
+}

checkpoint-1400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55eb9a50a24203e1f00ac6c722a2a24e52518f0efb376c58a3d9a8931f29ae83
+size 14244

checkpoint-1400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f15e7f69b12164656f8a35dffbd37a4f86e04972461e4fb5d8eac4d5f7ff496e
+size 1064

checkpoint-1400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,594 @@

+{
+  "best_global_step": 600,
+  "best_metric": 0.9974874371859297,
+  "best_model_checkpoint": "musical_instrument_detection_improved/checkpoint-600",
+  "epoch": 14.0,
+  "eval_steps": 500,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.25125628140703515,
+      "grad_norm": 0.4818384647369385,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.4941,
+      "step": 25
+    },
+    {
+      "epoch": 0.5025125628140703,
+      "grad_norm": 4.753159046173096,
+      "learning_rate": 3.266666666666667e-05,
+      "loss": 0.0539,
+      "step": 50
+    },
+    {
+      "epoch": 0.7537688442211056,
+      "grad_norm": 15.198661804199219,
+      "learning_rate": 4.933333333333334e-05,
+      "loss": 0.1284,
+      "step": 75
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.40100908279418945,
+      "learning_rate": 6.6e-05,
+      "loss": 0.1306,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9748743718592965,
+      "eval_f1_macro": 0.9731342037379646,
+      "eval_loss": 0.07195427268743515,
+      "eval_precision_macro": 0.9712150747238466,
+      "eval_recall_macro": 0.9761503412881977,
+      "eval_runtime": 12.3998,
+      "eval_samples_per_second": 32.097,
+      "eval_steps_per_second": 4.032,
+      "step": 100
+    },
+    {
+      "epoch": 1.2512562814070352,
+      "grad_norm": 0.03644077107310295,
+      "learning_rate": 8.266666666666667e-05,
+      "loss": 0.0742,
+      "step": 125
+    },
+    {
+      "epoch": 1.5025125628140703,
+      "grad_norm": 0.0054424116387963295,
+      "learning_rate": 9.933333333333334e-05,
+      "loss": 0.0654,
+      "step": 150
+    },
+    {
+      "epoch": 1.7537688442211055,
+      "grad_norm": 0.05749930813908577,
+      "learning_rate": 9.822222222222223e-05,
+      "loss": 0.0411,
+      "step": 175
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.034677326679229736,
+      "learning_rate": 9.637037037037037e-05,
+      "loss": 0.1626,
+      "step": 200
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9773869346733668,
+      "eval_f1_macro": 0.9760285913720755,
+      "eval_loss": 0.1097569689154625,
+      "eval_precision_macro": 0.9750499571795603,
+      "eval_recall_macro": 0.9784172661870504,
+      "eval_runtime": 12.8602,
+      "eval_samples_per_second": 30.948,
+      "eval_steps_per_second": 3.888,
+      "step": 200
+    },
+    {
+      "epoch": 2.251256281407035,
+      "grad_norm": 8.391584396362305,
+      "learning_rate": 9.451851851851853e-05,
+      "loss": 0.0613,
+      "step": 225
+    },
+    {
+      "epoch": 2.5025125628140703,
+      "grad_norm": 0.05065636709332466,
+      "learning_rate": 9.266666666666666e-05,
+      "loss": 0.0783,
+      "step": 250
+    },
+    {
+      "epoch": 2.7537688442211055,
+      "grad_norm": 4.692741394042969,
+      "learning_rate": 9.081481481481482e-05,
+      "loss": 0.0838,
+      "step": 275
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.001607125741429627,
+      "learning_rate": 8.896296296296297e-05,
+      "loss": 0.0577,
+      "step": 300
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9849246231155779,
+      "eval_f1_macro": 0.9840659199317944,
+      "eval_loss": 0.06375118345022202,
+      "eval_precision_macro": 0.9825340045928281,
+      "eval_recall_macro": 0.9860503753859658,
+      "eval_runtime": 12.6279,
+      "eval_samples_per_second": 31.517,
+      "eval_steps_per_second": 3.959,
+      "step": 300
+    },
+    {
+      "epoch": 3.251256281407035,
+      "grad_norm": 0.0066846804693341255,
+      "learning_rate": 8.711111111111112e-05,
+      "loss": 0.0161,
+      "step": 325
+    },
+    {
+      "epoch": 3.5025125628140703,
+      "grad_norm": 5.183607578277588,
+      "learning_rate": 8.525925925925926e-05,
+      "loss": 0.0852,
+      "step": 350
+    },
+    {
+      "epoch": 3.7537688442211055,
+      "grad_norm": 1.3307738304138184,
+      "learning_rate": 8.340740740740741e-05,
+      "loss": 0.0025,
+      "step": 375
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.0007463983492925763,
+      "learning_rate": 8.155555555555557e-05,
+      "loss": 0.031,
+      "step": 400
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9949748743718593,
+      "eval_f1_macro": 0.9944572643771775,
+      "eval_loss": 0.023198017850518227,
+      "eval_precision_macro": 0.9944572643771775,
+      "eval_recall_macro": 0.9944572643771775,
+      "eval_runtime": 12.4966,
+      "eval_samples_per_second": 31.849,
+      "eval_steps_per_second": 4.001,
+      "step": 400
+    },
+    {
+      "epoch": 4.251256281407035,
+      "grad_norm": 0.0033074100501835346,
+      "learning_rate": 7.97037037037037e-05,
+      "loss": 0.0155,
+      "step": 425
+    },
+    {
+      "epoch": 4.50251256281407,
+      "grad_norm": 2.0624492168426514,
+      "learning_rate": 7.785185185185186e-05,
+      "loss": 0.0366,
+      "step": 450
+    },
+    {
+      "epoch": 4.7537688442211055,
+      "grad_norm": 0.00034747723839245737,
+      "learning_rate": 7.6e-05,
+      "loss": 0.0139,
+      "step": 475
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.0007314584800042212,
+      "learning_rate": 7.414814814814815e-05,
+      "loss": 0.0123,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9874371859296482,
+      "eval_f1_macro": 0.9862145023435346,
+      "eval_loss": 0.05530214682221413,
+      "eval_precision_macro": 0.984984984984985,
+      "eval_recall_macro": 0.9880095923261392,
+      "eval_runtime": 12.5007,
+      "eval_samples_per_second": 31.838,
+      "eval_steps_per_second": 4.0,
+      "step": 500
+    },
+    {
+      "epoch": 5.251256281407035,
+      "grad_norm": 0.0016032257117331028,
+      "learning_rate": 7.22962962962963e-05,
+      "loss": 0.0002,
+      "step": 525
+    },
+    {
+      "epoch": 5.50251256281407,
+      "grad_norm": 2.0849623680114746,
+      "learning_rate": 7.044444444444444e-05,
+      "loss": 0.0597,
+      "step": 550
+    },
+    {
+      "epoch": 5.7537688442211055,
+      "grad_norm": 0.006351375486701727,
+      "learning_rate": 6.85925925925926e-05,
+      "loss": 0.0191,
+      "step": 575
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.942449152469635,
+      "learning_rate": 6.674074074074075e-05,
+      "loss": 0.0016,
+      "step": 600
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9974874371859297,
+      "eval_f1_macro": 0.9972316853386666,
+      "eval_loss": 0.02638443559408188,
+      "eval_precision_macro": 0.9968847352024922,
+      "eval_recall_macro": 0.9976019184652278,
+      "eval_runtime": 12.501,
+      "eval_samples_per_second": 31.838,
+      "eval_steps_per_second": 4.0,
+      "step": 600
+    },
+    {
+      "epoch": 6.251256281407035,
+      "grad_norm": 0.0003063753538299352,
+      "learning_rate": 6.488888888888889e-05,
+      "loss": 0.0037,
+      "step": 625
+    },
+    {
+      "epoch": 6.50251256281407,
+      "grad_norm": 0.0006155333830974996,
+      "learning_rate": 6.303703703703704e-05,
+      "loss": 0.0126,
+      "step": 650
+    },
+    {
+      "epoch": 6.7537688442211055,
+      "grad_norm": 0.005792179610580206,
+      "learning_rate": 6.118518518518518e-05,
+      "loss": 0.0223,
+      "step": 675
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.00047105210251174867,
+      "learning_rate": 5.9333333333333343e-05,
+      "loss": 0.0297,
+      "step": 700
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9849246231155779,
+      "eval_f1_macro": 0.9843097171528544,
+      "eval_loss": 0.09602699428796768,
+      "eval_precision_macro": 0.9835777126099706,
+      "eval_recall_macro": 0.985611510791367,
+      "eval_runtime": 12.5994,
+      "eval_samples_per_second": 31.589,
+      "eval_steps_per_second": 3.968,
+      "step": 700
+    },
+    {
+      "epoch": 7.251256281407035,
+      "grad_norm": 0.5099765062332153,
+      "learning_rate": 5.748148148148148e-05,
+      "loss": 0.0104,
+      "step": 725
+    },
+    {
+      "epoch": 7.50251256281407,
+      "grad_norm": 4.217642784118652,
+      "learning_rate": 5.562962962962963e-05,
+      "loss": 0.0024,
+      "step": 750
+    },
+    {
+      "epoch": 7.7537688442211055,
+      "grad_norm": 0.00032669113716110587,
+      "learning_rate": 5.377777777777778e-05,
+      "loss": 0.0002,
+      "step": 775
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.00013344452599994838,
+      "learning_rate": 5.1925925925925933e-05,
+      "loss": 0.0051,
+      "step": 800
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9949748743718593,
+      "eval_f1_macro": 0.9944572643771775,
+      "eval_loss": 0.04679703712463379,
+      "eval_precision_macro": 0.9944572643771775,
+      "eval_recall_macro": 0.9944572643771775,
+      "eval_runtime": 12.6339,
+      "eval_samples_per_second": 31.502,
+      "eval_steps_per_second": 3.958,
+      "step": 800
+    },
+    {
+      "epoch": 8.251256281407034,
+      "grad_norm": 0.0006574160070158541,
+      "learning_rate": 5.007407407407407e-05,
+      "loss": 0.0186,
+      "step": 825
+    },
+    {
+      "epoch": 8.50251256281407,
+      "grad_norm": 0.0004143440746702254,
+      "learning_rate": 4.8222222222222225e-05,
+      "loss": 0.0005,
+      "step": 850
+    },
+    {
+      "epoch": 8.753768844221106,
+      "grad_norm": 0.009332993067800999,
+      "learning_rate": 4.637037037037038e-05,
+      "loss": 0.0,
+      "step": 875
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.2795320451259613,
+      "learning_rate": 4.4518518518518523e-05,
+      "loss": 0.0073,
+      "step": 900
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9849246231155779,
+      "eval_f1_macro": 0.9836277857935251,
+      "eval_loss": 0.10048004239797592,
+      "eval_precision_macro": 0.9821428571428571,
+      "eval_recall_macro": 0.9858309430886664,
+      "eval_runtime": 12.4384,
+      "eval_samples_per_second": 31.998,
+      "eval_steps_per_second": 4.02,
+      "step": 900
+    },
+    {
+      "epoch": 9.251256281407034,
+      "grad_norm": 0.000357466604327783,
+      "learning_rate": 4.266666666666667e-05,
+      "loss": 0.0002,
+      "step": 925
+    },
+    {
+      "epoch": 9.50251256281407,
+      "grad_norm": 0.004065455868840218,
+      "learning_rate": 4.0814814814814815e-05,
+      "loss": 0.0013,
+      "step": 950
+    },
+    {
+      "epoch": 9.753768844221106,
+      "grad_norm": 0.0004535421321634203,
+      "learning_rate": 3.896296296296296e-05,
+      "loss": 0.0153,
+      "step": 975
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.00031142737134359777,
+      "learning_rate": 3.7111111111111113e-05,
+      "loss": 0.0,
+      "step": 1000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.053815823048353195,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.5827,
+      "eval_samples_per_second": 31.631,
+      "eval_steps_per_second": 3.974,
+      "step": 1000
+    },
+    {
+      "epoch": 10.251256281407034,
+      "grad_norm": 0.0003844445454888046,
+      "learning_rate": 3.525925925925926e-05,
+      "loss": 0.0182,
+      "step": 1025
+    },
+    {
+      "epoch": 10.50251256281407,
+      "grad_norm": 0.0005026073777116835,
+      "learning_rate": 3.340740740740741e-05,
+      "loss": 0.0,
+      "step": 1050
+    },
+    {
+      "epoch": 10.753768844221106,
+      "grad_norm": 0.0004087302659172565,
+      "learning_rate": 3.155555555555556e-05,
+      "loss": 0.0007,
+      "step": 1075
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.00014286497025750577,
+      "learning_rate": 2.9703703703703707e-05,
+      "loss": 0.0001,
+      "step": 1100
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.059518326073884964,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.9414,
+      "eval_samples_per_second": 30.754,
+      "eval_steps_per_second": 3.864,
+      "step": 1100
+    },
+    {
+      "epoch": 11.251256281407034,
+      "grad_norm": 0.006657073274254799,
+      "learning_rate": 2.7851851851851853e-05,
+      "loss": 0.0,
+      "step": 1125
+    },
+    {
+      "epoch": 11.50251256281407,
+      "grad_norm": 0.0008139883284457028,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.003,
+      "step": 1150
+    },
+    {
+      "epoch": 11.753768844221106,
+      "grad_norm": 0.0003728137817233801,
+      "learning_rate": 2.414814814814815e-05,
+      "loss": 0.0,
+      "step": 1175
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.00036724514211528003,
+      "learning_rate": 2.2296296296296297e-05,
+      "loss": 0.0,
+      "step": 1200
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.08012186735868454,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.5781,
+      "eval_samples_per_second": 31.642,
+      "eval_steps_per_second": 3.975,
+      "step": 1200
+    },
+    {
+      "epoch": 12.251256281407034,
+      "grad_norm": 0.0005332791479304433,
+      "learning_rate": 2.0444444444444446e-05,
+      "loss": 0.0,
+      "step": 1225
+    },
+    {
+      "epoch": 12.50251256281407,
+      "grad_norm": 0.0004045717651024461,
+      "learning_rate": 1.8592592592592595e-05,
+      "loss": 0.0,
+      "step": 1250
+    },
+    {
+      "epoch": 12.753768844221106,
+      "grad_norm": 0.0002463693090248853,
+      "learning_rate": 1.674074074074074e-05,
+      "loss": 0.0,
+      "step": 1275
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.00010770269727800041,
+      "learning_rate": 1.4888888888888888e-05,
+      "loss": 0.0,
+      "step": 1300
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.07899193465709686,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.6619,
+      "eval_samples_per_second": 31.433,
+      "eval_steps_per_second": 3.949,
+      "step": 1300
+    },
+    {
+      "epoch": 13.251256281407034,
+      "grad_norm": 0.00043465051567181945,
+      "learning_rate": 1.3037037037037036e-05,
+      "loss": 0.0,
+      "step": 1325
+    },
+    {
+      "epoch": 13.50251256281407,
+      "grad_norm": 0.00033275250461883843,
+      "learning_rate": 1.1185185185185187e-05,
+      "loss": 0.0,
+      "step": 1350
+    },
+    {
+      "epoch": 13.753768844221106,
+      "grad_norm": 0.00047057392657734454,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0,
+      "step": 1375
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.0001207014502142556,
+      "learning_rate": 7.481481481481483e-06,
+      "loss": 0.0,
+      "step": 1400
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.07876739650964737,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.5567,
+      "eval_samples_per_second": 31.696,
+      "eval_steps_per_second": 3.982,
+      "step": 1400
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5098084463618294e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e517b5194d3d7e0c0e46b924233f9f5528a2197171f7f496eac4bd52616415f0
+size 5432

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "architectures": [
+    "ASTForAudioClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "frequency_stride": 10,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Sound_Guitar",
+    "1": "Sound_Drum",
+    "2": "Sound_Piano"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Sound_Drum": 1,
+    "Sound_Guitar": 0,
+    "Sound_Piano": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "max_length": 1024,
+  "model_type": "audio-spectrogram-transformer",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_mel_bins": 128,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "time_stride": 10,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.1"
+}

checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:747ad7a0fcb3b73609d71591c090bb461f562e87546a307500133791ac8c1bea
+size 344793116

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdd69a7559409576556c75543f98ad0c79ef09ffa0481a4017b26e96aca99815
+size 689698682

checkpoint-1500/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "ASTFeatureExtractor",
+  "feature_size": 1,
+  "max_length": 1024,
+  "mean": -4.2677393,
+  "num_mel_bins": 128,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000,
+  "std": 4.5689974
+}

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c94c375fe5ad2903d244ca6b5cc2a1a6cba4c0c26196f3b9cbd9ddd170bb0b8
+size 14244

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:740f92207430d59e3e915864ad915fc31827de287779f64d8e590410bcf177e5
+size 1064

checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,634 @@

+{
+  "best_global_step": 600,
+  "best_metric": 0.9974874371859297,
+  "best_model_checkpoint": "musical_instrument_detection_improved/checkpoint-600",
+  "epoch": 15.0,
+  "eval_steps": 500,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.25125628140703515,
+      "grad_norm": 0.4818384647369385,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.4941,
+      "step": 25
+    },
+    {
+      "epoch": 0.5025125628140703,
+      "grad_norm": 4.753159046173096,
+      "learning_rate": 3.266666666666667e-05,
+      "loss": 0.0539,
+      "step": 50
+    },
+    {
+      "epoch": 0.7537688442211056,
+      "grad_norm": 15.198661804199219,
+      "learning_rate": 4.933333333333334e-05,
+      "loss": 0.1284,
+      "step": 75
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.40100908279418945,
+      "learning_rate": 6.6e-05,
+      "loss": 0.1306,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9748743718592965,
+      "eval_f1_macro": 0.9731342037379646,
+      "eval_loss": 0.07195427268743515,
+      "eval_precision_macro": 0.9712150747238466,
+      "eval_recall_macro": 0.9761503412881977,
+      "eval_runtime": 12.3998,
+      "eval_samples_per_second": 32.097,
+      "eval_steps_per_second": 4.032,
+      "step": 100
+    },
+    {
+      "epoch": 1.2512562814070352,
+      "grad_norm": 0.03644077107310295,
+      "learning_rate": 8.266666666666667e-05,
+      "loss": 0.0742,
+      "step": 125
+    },
+    {
+      "epoch": 1.5025125628140703,
+      "grad_norm": 0.0054424116387963295,
+      "learning_rate": 9.933333333333334e-05,
+      "loss": 0.0654,
+      "step": 150
+    },
+    {
+      "epoch": 1.7537688442211055,
+      "grad_norm": 0.05749930813908577,
+      "learning_rate": 9.822222222222223e-05,
+      "loss": 0.0411,
+      "step": 175
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.034677326679229736,
+      "learning_rate": 9.637037037037037e-05,
+      "loss": 0.1626,
+      "step": 200
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9773869346733668,
+      "eval_f1_macro": 0.9760285913720755,
+      "eval_loss": 0.1097569689154625,
+      "eval_precision_macro": 0.9750499571795603,
+      "eval_recall_macro": 0.9784172661870504,
+      "eval_runtime": 12.8602,
+      "eval_samples_per_second": 30.948,
+      "eval_steps_per_second": 3.888,
+      "step": 200
+    },
+    {
+      "epoch": 2.251256281407035,
+      "grad_norm": 8.391584396362305,
+      "learning_rate": 9.451851851851853e-05,
+      "loss": 0.0613,
+      "step": 225
+    },
+    {
+      "epoch": 2.5025125628140703,
+      "grad_norm": 0.05065636709332466,
+      "learning_rate": 9.266666666666666e-05,
+      "loss": 0.0783,
+      "step": 250
+    },
+    {
+      "epoch": 2.7537688442211055,
+      "grad_norm": 4.692741394042969,
+      "learning_rate": 9.081481481481482e-05,
+      "loss": 0.0838,
+      "step": 275
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.001607125741429627,
+      "learning_rate": 8.896296296296297e-05,
+      "loss": 0.0577,
+      "step": 300
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9849246231155779,
+      "eval_f1_macro": 0.9840659199317944,
+      "eval_loss": 0.06375118345022202,
+      "eval_precision_macro": 0.9825340045928281,
+      "eval_recall_macro": 0.9860503753859658,
+      "eval_runtime": 12.6279,
+      "eval_samples_per_second": 31.517,
+      "eval_steps_per_second": 3.959,
+      "step": 300
+    },
+    {
+      "epoch": 3.251256281407035,
+      "grad_norm": 0.0066846804693341255,
+      "learning_rate": 8.711111111111112e-05,
+      "loss": 0.0161,
+      "step": 325
+    },
+    {
+      "epoch": 3.5025125628140703,
+      "grad_norm": 5.183607578277588,
+      "learning_rate": 8.525925925925926e-05,
+      "loss": 0.0852,
+      "step": 350
+    },
+    {
+      "epoch": 3.7537688442211055,
+      "grad_norm": 1.3307738304138184,
+      "learning_rate": 8.340740740740741e-05,
+      "loss": 0.0025,
+      "step": 375
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.0007463983492925763,
+      "learning_rate": 8.155555555555557e-05,
+      "loss": 0.031,
+      "step": 400
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9949748743718593,
+      "eval_f1_macro": 0.9944572643771775,
+      "eval_loss": 0.023198017850518227,
+      "eval_precision_macro": 0.9944572643771775,
+      "eval_recall_macro": 0.9944572643771775,
+      "eval_runtime": 12.4966,
+      "eval_samples_per_second": 31.849,
+      "eval_steps_per_second": 4.001,
+      "step": 400
+    },
+    {
+      "epoch": 4.251256281407035,
+      "grad_norm": 0.0033074100501835346,
+      "learning_rate": 7.97037037037037e-05,
+      "loss": 0.0155,
+      "step": 425
+    },
+    {
+      "epoch": 4.50251256281407,
+      "grad_norm": 2.0624492168426514,
+      "learning_rate": 7.785185185185186e-05,
+      "loss": 0.0366,
+      "step": 450
+    },
+    {
+      "epoch": 4.7537688442211055,
+      "grad_norm": 0.00034747723839245737,
+      "learning_rate": 7.6e-05,
+      "loss": 0.0139,
+      "step": 475
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.0007314584800042212,
+      "learning_rate": 7.414814814814815e-05,
+      "loss": 0.0123,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9874371859296482,
+      "eval_f1_macro": 0.9862145023435346,
+      "eval_loss": 0.05530214682221413,
+      "eval_precision_macro": 0.984984984984985,
+      "eval_recall_macro": 0.9880095923261392,
+      "eval_runtime": 12.5007,
+      "eval_samples_per_second": 31.838,
+      "eval_steps_per_second": 4.0,
+      "step": 500
+    },
+    {
+      "epoch": 5.251256281407035,
+      "grad_norm": 0.0016032257117331028,
+      "learning_rate": 7.22962962962963e-05,
+      "loss": 0.0002,
+      "step": 525
+    },
+    {
+      "epoch": 5.50251256281407,
+      "grad_norm": 2.0849623680114746,
+      "learning_rate": 7.044444444444444e-05,
+      "loss": 0.0597,
+      "step": 550
+    },
+    {
+      "epoch": 5.7537688442211055,
+      "grad_norm": 0.006351375486701727,
+      "learning_rate": 6.85925925925926e-05,
+      "loss": 0.0191,
+      "step": 575
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.942449152469635,
+      "learning_rate": 6.674074074074075e-05,
+      "loss": 0.0016,
+      "step": 600
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9974874371859297,
+      "eval_f1_macro": 0.9972316853386666,
+      "eval_loss": 0.02638443559408188,
+      "eval_precision_macro": 0.9968847352024922,
+      "eval_recall_macro": 0.9976019184652278,
+      "eval_runtime": 12.501,
+      "eval_samples_per_second": 31.838,
+      "eval_steps_per_second": 4.0,
+      "step": 600
+    },
+    {
+      "epoch": 6.251256281407035,
+      "grad_norm": 0.0003063753538299352,
+      "learning_rate": 6.488888888888889e-05,
+      "loss": 0.0037,
+      "step": 625
+    },
+    {
+      "epoch": 6.50251256281407,
+      "grad_norm": 0.0006155333830974996,
+      "learning_rate": 6.303703703703704e-05,
+      "loss": 0.0126,
+      "step": 650
+    },
+    {
+      "epoch": 6.7537688442211055,
+      "grad_norm": 0.005792179610580206,
+      "learning_rate": 6.118518518518518e-05,
+      "loss": 0.0223,
+      "step": 675
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.00047105210251174867,
+      "learning_rate": 5.9333333333333343e-05,
+      "loss": 0.0297,
+      "step": 700
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9849246231155779,
+      "eval_f1_macro": 0.9843097171528544,
+      "eval_loss": 0.09602699428796768,
+      "eval_precision_macro": 0.9835777126099706,
+      "eval_recall_macro": 0.985611510791367,
+      "eval_runtime": 12.5994,
+      "eval_samples_per_second": 31.589,
+      "eval_steps_per_second": 3.968,
+      "step": 700
+    },
+    {
+      "epoch": 7.251256281407035,
+      "grad_norm": 0.5099765062332153,
+      "learning_rate": 5.748148148148148e-05,
+      "loss": 0.0104,
+      "step": 725
+    },
+    {
+      "epoch": 7.50251256281407,
+      "grad_norm": 4.217642784118652,
+      "learning_rate": 5.562962962962963e-05,
+      "loss": 0.0024,
+      "step": 750
+    },
+    {
+      "epoch": 7.7537688442211055,
+      "grad_norm": 0.00032669113716110587,
+      "learning_rate": 5.377777777777778e-05,
+      "loss": 0.0002,
+      "step": 775
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.00013344452599994838,
+      "learning_rate": 5.1925925925925933e-05,
+      "loss": 0.0051,
+      "step": 800
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9949748743718593,
+      "eval_f1_macro": 0.9944572643771775,
+      "eval_loss": 0.04679703712463379,
+      "eval_precision_macro": 0.9944572643771775,
+      "eval_recall_macro": 0.9944572643771775,
+      "eval_runtime": 12.6339,
+      "eval_samples_per_second": 31.502,
+      "eval_steps_per_second": 3.958,
+      "step": 800
+    },
+    {
+      "epoch": 8.251256281407034,
+      "grad_norm": 0.0006574160070158541,
+      "learning_rate": 5.007407407407407e-05,
+      "loss": 0.0186,
+      "step": 825
+    },
+    {
+      "epoch": 8.50251256281407,
+      "grad_norm": 0.0004143440746702254,
+      "learning_rate": 4.8222222222222225e-05,
+      "loss": 0.0005,
+      "step": 850
+    },
+    {
+      "epoch": 8.753768844221106,
+      "grad_norm": 0.009332993067800999,
+      "learning_rate": 4.637037037037038e-05,
+      "loss": 0.0,
+      "step": 875
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.2795320451259613,
+      "learning_rate": 4.4518518518518523e-05,
+      "loss": 0.0073,
+      "step": 900
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9849246231155779,
+      "eval_f1_macro": 0.9836277857935251,
+      "eval_loss": 0.10048004239797592,
+      "eval_precision_macro": 0.9821428571428571,
+      "eval_recall_macro": 0.9858309430886664,
+      "eval_runtime": 12.4384,
+      "eval_samples_per_second": 31.998,
+      "eval_steps_per_second": 4.02,
+      "step": 900
+    },
+    {
+      "epoch": 9.251256281407034,
+      "grad_norm": 0.000357466604327783,
+      "learning_rate": 4.266666666666667e-05,
+      "loss": 0.0002,
+      "step": 925
+    },
+    {
+      "epoch": 9.50251256281407,
+      "grad_norm": 0.004065455868840218,
+      "learning_rate": 4.0814814814814815e-05,
+      "loss": 0.0013,
+      "step": 950
+    },
+    {
+      "epoch": 9.753768844221106,
+      "grad_norm": 0.0004535421321634203,
+      "learning_rate": 3.896296296296296e-05,
+      "loss": 0.0153,
+      "step": 975
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.00031142737134359777,
+      "learning_rate": 3.7111111111111113e-05,
+      "loss": 0.0,
+      "step": 1000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.053815823048353195,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.5827,
+      "eval_samples_per_second": 31.631,
+      "eval_steps_per_second": 3.974,
+      "step": 1000
+    },
+    {
+      "epoch": 10.251256281407034,
+      "grad_norm": 0.0003844445454888046,
+      "learning_rate": 3.525925925925926e-05,
+      "loss": 0.0182,
+      "step": 1025
+    },
+    {
+      "epoch": 10.50251256281407,
+      "grad_norm": 0.0005026073777116835,
+      "learning_rate": 3.340740740740741e-05,
+      "loss": 0.0,
+      "step": 1050
+    },
+    {
+      "epoch": 10.753768844221106,
+      "grad_norm": 0.0004087302659172565,
+      "learning_rate": 3.155555555555556e-05,
+      "loss": 0.0007,
+      "step": 1075
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.00014286497025750577,
+      "learning_rate": 2.9703703703703707e-05,
+      "loss": 0.0001,
+      "step": 1100
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.059518326073884964,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.9414,
+      "eval_samples_per_second": 30.754,
+      "eval_steps_per_second": 3.864,
+      "step": 1100
+    },
+    {
+      "epoch": 11.251256281407034,
+      "grad_norm": 0.006657073274254799,
+      "learning_rate": 2.7851851851851853e-05,
+      "loss": 0.0,
+      "step": 1125
+    },
+    {
+      "epoch": 11.50251256281407,
+      "grad_norm": 0.0008139883284457028,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.003,
+      "step": 1150
+    },
+    {
+      "epoch": 11.753768844221106,
+      "grad_norm": 0.0003728137817233801,
+      "learning_rate": 2.414814814814815e-05,
+      "loss": 0.0,
+      "step": 1175
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.00036724514211528003,
+      "learning_rate": 2.2296296296296297e-05,
+      "loss": 0.0,
+      "step": 1200
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.08012186735868454,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.5781,
+      "eval_samples_per_second": 31.642,
+      "eval_steps_per_second": 3.975,
+      "step": 1200
+    },
+    {
+      "epoch": 12.251256281407034,
+      "grad_norm": 0.0005332791479304433,
+      "learning_rate": 2.0444444444444446e-05,
+      "loss": 0.0,
+      "step": 1225
+    },
+    {
+      "epoch": 12.50251256281407,
+      "grad_norm": 0.0004045717651024461,
+      "learning_rate": 1.8592592592592595e-05,
+      "loss": 0.0,
+      "step": 1250
+    },
+    {
+      "epoch": 12.753768844221106,
+      "grad_norm": 0.0002463693090248853,
+      "learning_rate": 1.674074074074074e-05,
+      "loss": 0.0,
+      "step": 1275
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.00010770269727800041,
+      "learning_rate": 1.4888888888888888e-05,
+      "loss": 0.0,
+      "step": 1300
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.07899193465709686,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.6619,
+      "eval_samples_per_second": 31.433,
+      "eval_steps_per_second": 3.949,
+      "step": 1300
+    },
+    {
+      "epoch": 13.251256281407034,
+      "grad_norm": 0.00043465051567181945,
+      "learning_rate": 1.3037037037037036e-05,
+      "loss": 0.0,
+      "step": 1325
+    },
+    {
+      "epoch": 13.50251256281407,
+      "grad_norm": 0.00033275250461883843,
+      "learning_rate": 1.1185185185185187e-05,
+      "loss": 0.0,
+      "step": 1350
+    },
+    {
+      "epoch": 13.753768844221106,
+      "grad_norm": 0.00047057392657734454,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0,
+      "step": 1375
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.0001207014502142556,
+      "learning_rate": 7.481481481481483e-06,
+      "loss": 0.0,
+      "step": 1400
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.07876739650964737,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.5567,
+      "eval_samples_per_second": 31.696,
+      "eval_steps_per_second": 3.982,
+      "step": 1400
+    },
+    {
+      "epoch": 14.251256281407034,
+      "grad_norm": 0.0019831983372569084,
+      "learning_rate": 5.62962962962963e-06,
+      "loss": 0.0,
+      "step": 1425
+    },
+    {
+      "epoch": 14.50251256281407,
+      "grad_norm": 0.0002614876430016011,
+      "learning_rate": 3.777777777777778e-06,
+      "loss": 0.0,
+      "step": 1450
+    },
+    {
+      "epoch": 14.753768844221106,
+      "grad_norm": 0.00039343832759186625,
+      "learning_rate": 1.925925925925926e-06,
+      "loss": 0.0,
+      "step": 1475
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.00017274008132517338,
+      "learning_rate": 7.407407407407407e-08,
+      "loss": 0.0,
+      "step": 1500
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9899497487437185,
+      "eval_f1_macro": 0.9889609804451654,
+      "eval_loss": 0.07867377996444702,
+      "eval_precision_macro": 0.9878787878787879,
+      "eval_recall_macro": 0.9904076738609113,
+      "eval_runtime": 12.6055,
+      "eval_samples_per_second": 31.573,
+      "eval_steps_per_second": 3.967,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6176519068162458e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e517b5194d3d7e0c0e46b924233f9f5528a2197171f7f496eac4bd52616415f0
+size 5432

checkpoint-600/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "architectures": [
+    "ASTForAudioClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "frequency_stride": 10,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Sound_Guitar",
+    "1": "Sound_Drum",
+    "2": "Sound_Piano"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Sound_Drum": 1,
+    "Sound_Guitar": 0,
+    "Sound_Piano": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "max_length": 1024,
+  "model_type": "audio-spectrogram-transformer",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_mel_bins": 128,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "time_stride": 10,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.1"
+}

checkpoint-600/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ae170acdc8ff2e5cd84e430d88ca1b2a959897f540931ff4625bc47e34cb603
+size 344793116

checkpoint-600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:330c98e71441d59f4e24e75f5dd5e9d3d795fcab3a4ef659c8b6c517e4fbc94c
+size 689698682

checkpoint-600/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "ASTFeatureExtractor",
+  "feature_size": 1,
+  "max_length": 1024,
+  "mean": -4.2677393,
+  "num_mel_bins": 128,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000,
+  "std": 4.5689974
+}

checkpoint-600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3e5d946241df2516b06d7074d8779088eae7607173ad780df56583910a9589b
+size 14244

checkpoint-600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:747a3535c0bde2e788cd3d8e682b1bd8db22385df76d10e4c41b5d5f68659f18
+size 1064

checkpoint-600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,274 @@

+{
+  "best_global_step": 600,
+  "best_metric": 0.9974874371859297,
+  "best_model_checkpoint": "musical_instrument_detection_improved/checkpoint-600",
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.25125628140703515,
+      "grad_norm": 0.4818384647369385,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.4941,
+      "step": 25
+    },
+    {
+      "epoch": 0.5025125628140703,
+      "grad_norm": 4.753159046173096,
+      "learning_rate": 3.266666666666667e-05,
+      "loss": 0.0539,
+      "step": 50
+    },
+    {
+      "epoch": 0.7537688442211056,
+      "grad_norm": 15.198661804199219,
+      "learning_rate": 4.933333333333334e-05,
+      "loss": 0.1284,
+      "step": 75
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.40100908279418945,
+      "learning_rate": 6.6e-05,
+      "loss": 0.1306,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9748743718592965,
+      "eval_f1_macro": 0.9731342037379646,
+      "eval_loss": 0.07195427268743515,
+      "eval_precision_macro": 0.9712150747238466,
+      "eval_recall_macro": 0.9761503412881977,
+      "eval_runtime": 12.3998,
+      "eval_samples_per_second": 32.097,
+      "eval_steps_per_second": 4.032,
+      "step": 100
+    },
+    {
+      "epoch": 1.2512562814070352,
+      "grad_norm": 0.03644077107310295,
+      "learning_rate": 8.266666666666667e-05,
+      "loss": 0.0742,
+      "step": 125
+    },
+    {
+      "epoch": 1.5025125628140703,
+      "grad_norm": 0.0054424116387963295,
+      "learning_rate": 9.933333333333334e-05,
+      "loss": 0.0654,
+      "step": 150
+    },
+    {
+      "epoch": 1.7537688442211055,
+      "grad_norm": 0.05749930813908577,
+      "learning_rate": 9.822222222222223e-05,
+      "loss": 0.0411,
+      "step": 175
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.034677326679229736,
+      "learning_rate": 9.637037037037037e-05,
+      "loss": 0.1626,
+      "step": 200
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9773869346733668,
+      "eval_f1_macro": 0.9760285913720755,
+      "eval_loss": 0.1097569689154625,
+      "eval_precision_macro": 0.9750499571795603,
+      "eval_recall_macro": 0.9784172661870504,
+      "eval_runtime": 12.8602,
+      "eval_samples_per_second": 30.948,
+      "eval_steps_per_second": 3.888,
+      "step": 200
+    },
+    {
+      "epoch": 2.251256281407035,
+      "grad_norm": 8.391584396362305,
+      "learning_rate": 9.451851851851853e-05,
+      "loss": 0.0613,
+      "step": 225
+    },
+    {
+      "epoch": 2.5025125628140703,
+      "grad_norm": 0.05065636709332466,
+      "learning_rate": 9.266666666666666e-05,
+      "loss": 0.0783,
+      "step": 250
+    },
+    {
+      "epoch": 2.7537688442211055,
+      "grad_norm": 4.692741394042969,
+      "learning_rate": 9.081481481481482e-05,
+      "loss": 0.0838,
+      "step": 275
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.001607125741429627,
+      "learning_rate": 8.896296296296297e-05,
+      "loss": 0.0577,
+      "step": 300
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9849246231155779,
+      "eval_f1_macro": 0.9840659199317944,
+      "eval_loss": 0.06375118345022202,
+      "eval_precision_macro": 0.9825340045928281,
+      "eval_recall_macro": 0.9860503753859658,
+      "eval_runtime": 12.6279,
+      "eval_samples_per_second": 31.517,
+      "eval_steps_per_second": 3.959,
+      "step": 300
+    },
+    {
+      "epoch": 3.251256281407035,
+      "grad_norm": 0.0066846804693341255,
+      "learning_rate": 8.711111111111112e-05,
+      "loss": 0.0161,
+      "step": 325
+    },
+    {
+      "epoch": 3.5025125628140703,
+      "grad_norm": 5.183607578277588,
+      "learning_rate": 8.525925925925926e-05,
+      "loss": 0.0852,
+      "step": 350
+    },
+    {
+      "epoch": 3.7537688442211055,
+      "grad_norm": 1.3307738304138184,
+      "learning_rate": 8.340740740740741e-05,
+      "loss": 0.0025,
+      "step": 375
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.0007463983492925763,
+      "learning_rate": 8.155555555555557e-05,
+      "loss": 0.031,
+      "step": 400
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9949748743718593,
+      "eval_f1_macro": 0.9944572643771775,
+      "eval_loss": 0.023198017850518227,
+      "eval_precision_macro": 0.9944572643771775,
+      "eval_recall_macro": 0.9944572643771775,
+      "eval_runtime": 12.4966,
+      "eval_samples_per_second": 31.849,
+      "eval_steps_per_second": 4.001,
+      "step": 400
+    },
+    {
+      "epoch": 4.251256281407035,
+      "grad_norm": 0.0033074100501835346,
+      "learning_rate": 7.97037037037037e-05,
+      "loss": 0.0155,
+      "step": 425
+    },
+    {
+      "epoch": 4.50251256281407,
+      "grad_norm": 2.0624492168426514,
+      "learning_rate": 7.785185185185186e-05,
+      "loss": 0.0366,
+      "step": 450
+    },
+    {
+      "epoch": 4.7537688442211055,
+      "grad_norm": 0.00034747723839245737,
+      "learning_rate": 7.6e-05,
+      "loss": 0.0139,
+      "step": 475
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.0007314584800042212,
+      "learning_rate": 7.414814814814815e-05,
+      "loss": 0.0123,
+      "step": 500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9874371859296482,
+      "eval_f1_macro": 0.9862145023435346,
+      "eval_loss": 0.05530214682221413,
+      "eval_precision_macro": 0.984984984984985,
+      "eval_recall_macro": 0.9880095923261392,
+      "eval_runtime": 12.5007,
+      "eval_samples_per_second": 31.838,
+      "eval_steps_per_second": 4.0,
+      "step": 500
+    },
+    {
+      "epoch": 5.251256281407035,
+      "grad_norm": 0.0016032257117331028,
+      "learning_rate": 7.22962962962963e-05,
+      "loss": 0.0002,
+      "step": 525
+    },
+    {
+      "epoch": 5.50251256281407,
+      "grad_norm": 2.0849623680114746,
+      "learning_rate": 7.044444444444444e-05,
+      "loss": 0.0597,
+      "step": 550
+    },
+    {
+      "epoch": 5.7537688442211055,
+      "grad_norm": 0.006351375486701727,
+      "learning_rate": 6.85925925925926e-05,
+      "loss": 0.0191,
+      "step": 575
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.942449152469635,
+      "learning_rate": 6.674074074074075e-05,
+      "loss": 0.0016,
+      "step": 600
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9974874371859297,
+      "eval_f1_macro": 0.9972316853386666,
+      "eval_loss": 0.02638443559408188,
+      "eval_precision_macro": 0.9968847352024922,
+      "eval_recall_macro": 0.9976019184652278,
+      "eval_runtime": 12.501,
+      "eval_samples_per_second": 31.838,
+      "eval_steps_per_second": 4.0,
+      "step": 600
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.470607627264983e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e517b5194d3d7e0c0e46b924233f9f5528a2197171f7f496eac4bd52616415f0
+size 5432

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "architectures": [
+    "ASTForAudioClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "frequency_stride": 10,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Sound_Guitar",
+    "1": "Sound_Drum",
+    "2": "Sound_Piano"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Sound_Drum": 1,
+    "Sound_Guitar": 0,
+    "Sound_Piano": 2
+  },
+  "layer_norm_eps": 1e-12,
+  "max_length": 1024,
+  "model_type": "audio-spectrogram-transformer",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "num_mel_bins": 128,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "time_stride": 10,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.1"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ae170acdc8ff2e5cd84e430d88ca1b2a959897f540931ff4625bc47e34cb603
+size 344793116

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "ASTFeatureExtractor",
+  "feature_size": 1,
+  "max_length": 1024,
+  "mean": -4.2677393,
+  "num_mel_bins": 128,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": false,
+  "sampling_rate": 16000,
+  "std": 4.5689974
+}

runs/Jul13_07-53-15_ee9e3dbd0066/events.out.tfevents.1752393198.ee9e3dbd0066.19259.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4cb0095c797094eeeea30565890537f4b4d278c3a17299efa1137b5e934e77b
+size 28156

runs/Jul13_08-28-47_ee9e3dbd0066/events.out.tfevents.1752395338.ee9e3dbd0066.19259.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b075e616edb5deec0f08e79c52f8da3de4733e555b95fd93381a7fcbaac66b18
+size 25495

runs/Jul13_08-28-47_ee9e3dbd0066/events.out.tfevents.1752397078.ee9e3dbd0066.19259.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57ee05b04ffd48b5fcc95864cf3916b82789eafdbd75ab510c82039e1cc9e40e
+size 578

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e517b5194d3d7e0c0e46b924233f9f5528a2197171f7f496eac4bd52616415f0
+size 5432