asr-nigerian-pidgin
/

pidgin-wav2vec2-xlsr53

Automatic Speech Recognition

Generated from Trainer

automatic_speech_recognition

Model card Files Files and versions

Mardiyyah commited on Aug 10

Commit

0d38692

·

verified ·

1 Parent(s): d04e397

Update README.md

Files changed (1) hide show

README.md +13 -5

README.md CHANGED Viewed

@@ -16,6 +16,7 @@ model-index:
 datasets:
 - asr-nigerian-pidgin/nigerian-pidgin-1.0
 pipeline_tag: automatic-speech-recognition
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -23,18 +24,25 @@ should probably proofread and complete it, then remove this comment. -->
 # pidgin-wav2vec2-xlsr53
-This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the [Nigerian Pidgin](https://huggingface.co/datasets/asr-nigerian-pidgin/nigerian-pidgin-1.0) dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6907
 - Wer: 0.3161 (val)
-## Model description
-*to be updated*
 ## Intended uses & limitations
-*to be updated*
 ## Training and evaluation data

 datasets:
 - asr-nigerian-pidgin/nigerian-pidgin-1.0
 pipeline_tag: automatic-speech-recognition
+library_name: transformers
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # pidgin-wav2vec2-xlsr53
+This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53), adapted for transcribing Nigerian Pidgin English. Building on the self-supervised, cross-lingual representations of XLSR-53, it has been trained using the [Nigerian Pidgin dataset](https://huggingface.co/datasets/asr-nigerian-pidgin/nigerian-pidgin-1.0) to handle the phonetic and lexical nuances unique to Nigerian Pidgin, offering significant improvements over zero-shot ASR baselines
 It achieves the following results on the evaluation set:
 - Loss: 0.6907
 - Wer: 0.3161 (val)
 ## Intended uses & limitations
+**Intended Use**: Best suited for automatic speech recognition (ASR) tasks on Nigerian Pidgin audio, such as speech-to-text conversion and related downstream tasks. Best performance is achieved in a clean recording environments with limited background noise.
+**Limitations/Caveats**:
+- Trained exclusively on speech from limited demographic groups; may underperform on dialects or accents outside the training set.
+- Struggles with numeric phrases and unusual phonetic variants, as noted in qualitative evaluations [see here]
+- Struggles with noisy environment and fast-paced speech
+- Not suited for critically high-accuracy domains (e.g., legal, medical domain) without further tuning.
 ## Training and evaluation data