goabonga
/

wikitext-2-raw-v1

@@ -1,38 +1,62 @@
 {
   "version": "1.0",
-  "added_tokens_decoder": {
-    "0": {
       "content": "<pad>",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
-      "single_word": false,
       "special": true
     },
-    "1": {
       "content": "<unk>",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
-      "single_word": false,
       "special": true
     },
-    "2": {
       "content": "<bos>",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
-      "single_word": false,
       "special": true
     },
-    "3": {
       "content": "<eos>",
       "lstrip": false,
-      "normalized": false,
       "rstrip": false,
-      "single_word": false,
       "special": true
     }
   },
   "decoder": {
     "type": "WordPiece",

 {
   "version": "1.0",
+  "added_tokens": [
+    {
+      "id": 0,
       "content": "<pad>",
+      "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
+    {
+      "id": 1,
       "content": "<unk>",
+      "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
+    {
+      "id": 2,
       "content": "<bos>",
+      "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
+    {
+      "id": 3,
       "content": "<eos>",
+      "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     }
+  ],
+  "normalizer": {
+    "type": "Sequence",
+    "normalizers": [
+      {
+        "type": "NFC"
+      }
+    ]
+  },
+  "pre_tokenizer": {
+    "type": "Sequence",
+    "pretokenizers": [
+      {
+        "type": "Whitespace"
+      },
+      {
+        "type": "Punctuation",
+        "behavior": "Isolated"
+      }
+    ]
   },
   "decoder": {
     "type": "WordPiece",