Maxim01 commited on
Commit
a64b523
·
verified ·
1 Parent(s): 0a2f74b

Add SetFit model

Browse files
1_Pooling/config.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
- "word_embedding_dimension": 384,
3
- "pooling_mode_cls_token": false,
4
- "pooling_mode_mean_tokens": true,
5
  "pooling_mode_max_tokens": false,
6
  "pooling_mode_mean_sqrt_len_tokens": false,
7
  "pooling_mode_weightedmean_tokens": false,
 
1
  {
2
+ "word_embedding_dimension": 312,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
  "pooling_mode_max_tokens": false,
6
  "pooling_mode_mean_sqrt_len_tokens": false,
7
  "pooling_mode_weightedmean_tokens": false,
README.md CHANGED
@@ -5,20 +5,19 @@ tags:
5
  - text-classification
6
  - generated_from_setfit_trainer
7
  widget:
8
- - text: Экзамены для поступления
9
- - text: Какие документы нужны для поступления
10
- - text: Продолжительность приемной кампании
11
- - text: Общежитие
12
- - text: Как получить дополнительные баллы для поступленияКак получить дополнительные
13
- баллы
14
  metrics:
15
  - accuracy
16
  pipeline_tag: text-classification
17
  library_name: setfit
18
  inference: true
19
- base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
20
  model-index:
21
- - name: SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
22
  results:
23
  - task:
24
  type: text-classification
@@ -29,13 +28,13 @@ model-index:
29
  split: test
30
  metrics:
31
  - type: accuracy
32
- value: 1.0
33
  name: Accuracy
34
  ---
35
 
36
- # SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
37
 
38
- This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
39
 
40
  The model has been trained using an efficient few-shot learning technique that involves:
41
 
@@ -46,9 +45,9 @@ The model has been trained using an efficient few-shot learning technique that i
46
 
47
  ### Model Description
48
  - **Model Type:** SetFit
49
- - **Sentence Transformer body:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2)
50
  - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
51
- - **Maximum Sequence Length:** 128 tokens
52
  - **Number of Classes:** 8 classes
53
  <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
54
  <!-- - **Language:** Unknown -->
@@ -61,23 +60,23 @@ The model has been trained using an efficient few-shot learning technique that i
61
  - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
62
 
63
  ### Model Labels
64
- | Label | Examples |
65
- |:------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
66
- | 3 | <ul><li>'Количество специальностей для поступления'</li><li>'На сколько специальностей можно подать документы?'</li><li>'На сколько направлений подготовки можно подать документы?'</li></ul> |
67
- | 5 | <ul><li>'Я после колледжа. Как мне поступить?'</li><li>'Вуз после колледжа'</li><li>'Как поступить в вуз после колледжа?'</li></ul> |
68
- | 7 | <ul><li>'Кто претендует на предоставление общежития'</li><li>'Общага'</li><li>'Кто может жить в общежитии?'</li></ul> |
69
- | 6 | <ul><li>'Назови вступи��ельные испытания'</li><li>'Какие есть вступительные испытания?'</li><li>'Внутренние экзамены для поступления'</li></ul> |
70
- | 0 | <ul><li>'Приемная кампания'</li><li>'Приемная кампания в вузе'</li><li>'Как долго длится приемная кампания'</li></ul> |
71
- | 4 | <ul><li>'Есть ли военная кафедра'</li><li>'Направления подготовки в вуцНа каком курсе начинается Военная кафедра'</li><li>'Военный учебный центр'</li></ul> |
72
- | 2 | <ul><li>'Как получить дополнительные баллы для поступленияКак получить дополнительные баллы'</li><li>'Как получить доп баллы'</li><li>'Расскажи о допполнительных баллах при поступлении'</li></ul> |
73
- | 1 | <ul><li>'Какие документы нужны для поступления'</li><li>'Необходимые документы для поступления'</li><li>'Документы на поступление каким способом подать можно?'</li></ul> |
74
 
75
  ## Evaluation
76
 
77
  ### Metrics
78
  | Label | Accuracy |
79
  |:--------|:---------|
80
- | **all** | 1.0 |
81
 
82
  ## Uses
83
 
@@ -97,7 +96,7 @@ from setfit import SetFitModel
97
  # Download from the 🤗 Hub
98
  model = SetFitModel.from_pretrained("Maxim01/Intent_Classification_Test")
99
  # Run inference
100
- preds = model("Общежитие")
101
  ```
102
 
103
  <!--
@@ -129,18 +128,18 @@ preds = model("Общежитие")
129
  ### Training Set Metrics
130
  | Training set | Min | Median | Max |
131
  |:-------------|:----|:-------|:----|
132
- | Word count | 1 | 4.3878 | 9 |
133
 
134
  | Label | Training Sample Count |
135
  |:------|:----------------------|
136
- | 0 | 7 |
137
- | 1 | 8 |
138
- | 2 | 5 |
139
- | 3 | 4 |
140
- | 4 | 7 |
141
- | 5 | 6 |
142
- | 6 | 5 |
143
- | 7 | 7 |
144
 
145
  ### Training Hyperparameters
146
  - batch_size: (8, 8)
@@ -164,20 +163,38 @@ preds = model("Общежитие")
164
  ### Training Results
165
  | Epoch | Step | Training Loss | Validation Loss |
166
  |:------:|:----:|:-------------:|:---------------:|
167
- | 0.0041 | 1 | 0.0986 | - |
168
- | 0.2041 | 50 | 0.0729 | - |
169
- | 0.4082 | 100 | 0.016 | - |
170
- | 0.6122 | 150 | 0.0063 | - |
171
- | 0.8163 | 200 | 0.0031 | - |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
172
 
173
  ### Framework Versions
174
- - Python: 3.11.11
175
- - SetFit: 1.1.1
176
- - Sentence Transformers: 3.3.1
177
- - Transformers: 4.47.1
178
- - PyTorch: 2.5.1+cu124
179
- - Datasets: 3.2.0
180
- - Tokenizers: 0.21.0
181
 
182
  ## Citation
183
 
 
5
  - text-classification
6
  - generated_from_setfit_trainer
7
  widget:
8
+ - text: Как подать документы, если я нахожусь в другом городе?
9
+ - text: Какие перспективы после окончания ВУЦ?
10
+ - text: Как проходит апелляция по результатам экзаменов?
11
+ - text: Как узнать, какие документы нужны для поступления на магистратуру?
12
+ - text: Какие достижения учитываются для аспирантуры?
 
13
  metrics:
14
  - accuracy
15
  pipeline_tag: text-classification
16
  library_name: setfit
17
  inference: true
18
+ base_model: cointegrated/rubert-tiny2
19
  model-index:
20
+ - name: SetFit with cointegrated/rubert-tiny2
21
  results:
22
  - task:
23
  type: text-classification
 
28
  split: test
29
  metrics:
30
  - type: accuracy
31
+ value: 0.7857142857142857
32
  name: Accuracy
33
  ---
34
 
35
+ # SetFit with cointegrated/rubert-tiny2
36
 
37
+ This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
38
 
39
  The model has been trained using an efficient few-shot learning technique that involves:
40
 
 
45
 
46
  ### Model Description
47
  - **Model Type:** SetFit
48
+ - **Sentence Transformer body:** [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
49
  - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
50
+ - **Maximum Sequence Length:** 2048 tokens
51
  - **Number of Classes:** 8 classes
52
  <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
53
  <!-- - **Language:** Unknown -->
 
60
  - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
61
 
62
  ### Model Labels
63
+ | Label | Examples |
64
+ |:------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
65
+ | 4 | <ul><li>'Как узнать результаты отбора в ВУЦ?'</li><li>'Как узнать, какие ВУЦ есть в моем регионе?'</li><li>'Какие экзамены принимаются в ВУЦ?'</li></ul> |
66
+ | 1 | <ul><li>'Как подать документы на платное отделение?'</li><li>'Как узнать, какие документы нужны для поступления на педагогические специальности?'</li><li>'Какие ошибки чаще всего допускают при подаче документов?'</li></ul> |
67
+ | 3 | <ul><li>'Как узнать, какие специальности доступны для дистанционного обучения?'</li><li>'Можно ли подать документы на специальности с разными условиями поступления?'</li><li>'Как узнать конкуренцию на специальность?'</li></ul> |
68
+ | 2 | <ul><li>'Сколько баллов можно получить за индивидуальные достижения?'</li><li>'Можно ли подать достижения после подачи документов?'</li><li>'Сколько максимум баллов можно получить за достижения?'</li></ul> |
69
+ | 5 | <ul><li>'Можно ли поступить на заочное отделение после колледжа?'</li><li>'Как подготовиться к вступительным экзаменам после колледжа'</li><li>'Можно ли поступить на бюджет после колледжа?'</li></ul> |
70
+ | 7 | <ul><li>'Какие документы нужны для заселения в общежитие?'</li><li>'Как узнать, есть ли свободные места в общежитии?'</li><li>'Какие условия проживания в общежитии?'</li></ul> |
71
+ | 0 | <ul><li>'Как узнать, что мои документы не потерялись?'</li><li>'Как подать заявление на несколько специальностей?'</li><li>'Какие сроки рассмотрения заявлений?'</li></ul> |
72
+ | 6 | <ul><li>'Какие ошибки чаще всего допускают на экзаменах?'</li><li>'Какие документы нужны на экзамен?'</li><li>'Как получить консультацию по вступительным испытаниям?'</li></ul> |
73
 
74
  ## Evaluation
75
 
76
  ### Metrics
77
  | Label | Accuracy |
78
  |:--------|:---------|
79
+ | **all** | 0.7857 |
80
 
81
  ## Uses
82
 
 
96
  # Download from the 🤗 Hub
97
  model = SetFitModel.from_pretrained("Maxim01/Intent_Classification_Test")
98
  # Run inference
99
+ preds = model("Какие перспективы после окончания ВУЦ?")
100
  ```
101
 
102
  <!--
 
128
  ### Training Set Metrics
129
  | Training set | Min | Median | Max |
130
  |:-------------|:----|:-------|:----|
131
+ | Word count | 3 | 6.7143 | 11 |
132
 
133
  | Label | Training Sample Count |
134
  |:------|:----------------------|
135
+ | 0 | 33 |
136
+ | 1 | 32 |
137
+ | 2 | 32 |
138
+ | 3 | 33 |
139
+ | 4 | 31 |
140
+ | 5 | 15 |
141
+ | 6 | 15 |
142
+ | 7 | 33 |
143
 
144
  ### Training Hyperparameters
145
  - batch_size: (8, 8)
 
163
  ### Training Results
164
  | Epoch | Step | Training Loss | Validation Loss |
165
  |:------:|:----:|:-------------:|:---------------:|
166
+ | 0.0009 | 1 | 0.1623 | - |
167
+ | 0.0446 | 50 | 0.2355 | - |
168
+ | 0.0893 | 100 | 0.1756 | - |
169
+ | 0.1339 | 150 | 0.1501 | - |
170
+ | 0.1786 | 200 | 0.1329 | - |
171
+ | 0.2232 | 250 | 0.119 | - |
172
+ | 0.2679 | 300 | 0.1048 | - |
173
+ | 0.3125 | 350 | 0.0928 | - |
174
+ | 0.3571 | 400 | 0.0902 | - |
175
+ | 0.4018 | 450 | 0.0841 | - |
176
+ | 0.4464 | 500 | 0.0903 | - |
177
+ | 0.4911 | 550 | 0.0969 | - |
178
+ | 0.5357 | 600 | 0.0747 | - |
179
+ | 0.5804 | 650 | 0.0704 | - |
180
+ | 0.625 | 700 | 0.0809 | - |
181
+ | 0.6696 | 750 | 0.0793 | - |
182
+ | 0.7143 | 800 | 0.0711 | - |
183
+ | 0.7589 | 850 | 0.0687 | - |
184
+ | 0.8036 | 900 | 0.0726 | - |
185
+ | 0.8482 | 950 | 0.0718 | - |
186
+ | 0.8929 | 1000 | 0.0751 | - |
187
+ | 0.9375 | 1050 | 0.0635 | - |
188
+ | 0.9821 | 1100 | 0.0723 | - |
189
 
190
  ### Framework Versions
191
+ - Python: 3.11.12
192
+ - SetFit: 1.1.2
193
+ - Sentence Transformers: 3.4.1
194
+ - Transformers: 4.51.3
195
+ - PyTorch: 2.6.0+cu124
196
+ - Datasets: 3.5.1
197
+ - Tokenizers: 0.21.1
198
 
199
  ## Citation
200
 
config.json CHANGED
@@ -1,26 +1,26 @@
1
  {
2
- "_name_or_path": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
3
  "architectures": [
4
  "BertModel"
5
  ],
6
  "attention_probs_dropout_prob": 0.1,
7
  "classifier_dropout": null,
 
8
  "gradient_checkpointing": false,
9
  "hidden_act": "gelu",
10
  "hidden_dropout_prob": 0.1,
11
- "hidden_size": 384,
12
  "initializer_range": 0.02,
13
- "intermediate_size": 1536,
14
  "layer_norm_eps": 1e-12,
15
- "max_position_embeddings": 512,
16
  "model_type": "bert",
17
  "num_attention_heads": 12,
18
- "num_hidden_layers": 12,
19
  "pad_token_id": 0,
20
  "position_embedding_type": "absolute",
21
  "torch_dtype": "float32",
22
- "transformers_version": "4.47.1",
23
  "type_vocab_size": 2,
24
  "use_cache": true,
25
- "vocab_size": 250037
26
  }
 
1
  {
 
2
  "architectures": [
3
  "BertModel"
4
  ],
5
  "attention_probs_dropout_prob": 0.1,
6
  "classifier_dropout": null,
7
+ "emb_size": 312,
8
  "gradient_checkpointing": false,
9
  "hidden_act": "gelu",
10
  "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 312,
12
  "initializer_range": 0.02,
13
+ "intermediate_size": 600,
14
  "layer_norm_eps": 1e-12,
15
+ "max_position_embeddings": 2048,
16
  "model_type": "bert",
17
  "num_attention_heads": 12,
18
+ "num_hidden_layers": 3,
19
  "pad_token_id": 0,
20
  "position_embedding_type": "absolute",
21
  "torch_dtype": "float32",
22
+ "transformers_version": "4.51.3",
23
  "type_vocab_size": 2,
24
  "use_cache": true,
25
+ "vocab_size": 83828
26
  }
config_sentence_transformers.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "__version__": {
3
- "sentence_transformers": "3.3.1",
4
- "transformers": "4.47.1",
5
- "pytorch": "2.5.1+cu124"
6
  },
7
  "prompts": {},
8
  "default_prompt_name": null,
 
1
  {
2
  "__version__": {
3
+ "sentence_transformers": "3.4.1",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.6.0+cu124"
6
  },
7
  "prompts": {},
8
  "default_prompt_name": null,
config_setfit.json CHANGED
@@ -1,4 +1,4 @@
1
  {
2
- "normalize_embeddings": false,
3
- "labels": null
4
  }
 
1
  {
2
+ "labels": null,
3
+ "normalize_embeddings": false
4
  }
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5907423a9906f5255b78828184b6eafc33d4b5a003620ec1aa2b6938f8321939
3
- size 470637416
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f3a8f3fe6e2cf4b237225f8f386d64fa2da6aebfcf6f5f0ec1d705bc2a84a8e1
3
+ size 116781184
model_head.pkl CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d655cb90ee7e60bbddf7e606591bed67a2b4d58dc5a4cd9ab5a25af033709ba7
3
- size 25543
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:07cfc5e1dca040c262ef706939d162a0c4e964b7a799f6b895362e79f08cb68c
3
+ size 20935
modules.json CHANGED
@@ -10,5 +10,11 @@
10
  "name": "1",
11
  "path": "1_Pooling",
12
  "type": "sentence_transformers.models.Pooling"
 
 
 
 
 
 
13
  }
14
  ]
 
10
  "name": "1",
11
  "path": "1_Pooling",
12
  "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
  }
20
  ]
sentence_bert_config.json CHANGED
@@ -1,4 +1,4 @@
1
  {
2
- "max_seq_length": 128,
3
  "do_lower_case": false
4
  }
 
1
  {
2
+ "max_seq_length": 2048,
3
  "do_lower_case": false
4
  }
special_tokens_map.json CHANGED
@@ -1,48 +1,34 @@
1
  {
2
- "bos_token": {
3
- "content": "<s>",
4
- "lstrip": false,
5
- "normalized": false,
6
- "rstrip": false,
7
- "single_word": false
8
- },
9
  "cls_token": {
10
- "content": "<s>",
11
- "lstrip": false,
12
- "normalized": false,
13
- "rstrip": false,
14
- "single_word": false
15
- },
16
- "eos_token": {
17
- "content": "</s>",
18
  "lstrip": false,
19
  "normalized": false,
20
  "rstrip": false,
21
  "single_word": false
22
  },
23
  "mask_token": {
24
- "content": "<mask>",
25
- "lstrip": true,
26
  "normalized": false,
27
  "rstrip": false,
28
  "single_word": false
29
  },
30
  "pad_token": {
31
- "content": "<pad>",
32
  "lstrip": false,
33
  "normalized": false,
34
  "rstrip": false,
35
  "single_word": false
36
  },
37
  "sep_token": {
38
- "content": "</s>",
39
  "lstrip": false,
40
  "normalized": false,
41
  "rstrip": false,
42
  "single_word": false
43
  },
44
  "unk_token": {
45
- "content": "<unk>",
46
  "lstrip": false,
47
  "normalized": false,
48
  "rstrip": false,
 
1
  {
 
 
 
 
 
 
 
2
  "cls_token": {
3
+ "content": "[CLS]",
 
 
 
 
 
 
 
4
  "lstrip": false,
5
  "normalized": false,
6
  "rstrip": false,
7
  "single_word": false
8
  },
9
  "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
  "normalized": false,
13
  "rstrip": false,
14
  "single_word": false
15
  },
16
  "pad_token": {
17
+ "content": "[PAD]",
18
  "lstrip": false,
19
  "normalized": false,
20
  "rstrip": false,
21
  "single_word": false
22
  },
23
  "sep_token": {
24
+ "content": "[SEP]",
25
  "lstrip": false,
26
  "normalized": false,
27
  "rstrip": false,
28
  "single_word": false
29
  },
30
  "unk_token": {
31
+ "content": "[UNK]",
32
  "lstrip": false,
33
  "normalized": false,
34
  "rstrip": false,
tokenizer.json CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
3
- size 17082987
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:754380a0044be8d5446c3435eba091032a336a7ba966773468921e7db6a04cc1
3
+ size 2413692
tokenizer_config.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "added_tokens_decoder": {
3
  "0": {
4
- "content": "<s>",
5
  "lstrip": false,
6
  "normalized": false,
7
  "rstrip": false,
@@ -9,7 +9,7 @@
9
  "special": true
10
  },
11
  "1": {
12
- "content": "<pad>",
13
  "lstrip": false,
14
  "normalized": false,
15
  "rstrip": false,
@@ -17,7 +17,7 @@
17
  "special": true
18
  },
19
  "2": {
20
- "content": "</s>",
21
  "lstrip": false,
22
  "normalized": false,
23
  "rstrip": false,
@@ -25,41 +25,41 @@
25
  "special": true
26
  },
27
  "3": {
28
- "content": "<unk>",
29
  "lstrip": false,
30
  "normalized": false,
31
  "rstrip": false,
32
  "single_word": false,
33
  "special": true
34
  },
35
- "250001": {
36
- "content": "<mask>",
37
- "lstrip": true,
38
  "normalized": false,
39
  "rstrip": false,
40
  "single_word": false,
41
  "special": true
42
  }
43
  },
44
- "bos_token": "<s>",
45
  "clean_up_tokenization_spaces": false,
46
- "cls_token": "<s>",
47
- "do_lower_case": true,
48
- "eos_token": "</s>",
49
  "extra_special_tokens": {},
50
- "mask_token": "<mask>",
51
- "max_length": 128,
52
- "model_max_length": 128,
 
53
  "pad_to_multiple_of": null,
54
- "pad_token": "<pad>",
55
  "pad_token_type_id": 0,
56
  "padding_side": "right",
57
- "sep_token": "</s>",
58
  "stride": 0,
59
  "strip_accents": null,
60
  "tokenize_chinese_chars": true,
61
  "tokenizer_class": "BertTokenizer",
62
  "truncation_side": "right",
63
  "truncation_strategy": "longest_first",
64
- "unk_token": "<unk>"
65
  }
 
1
  {
2
  "added_tokens_decoder": {
3
  "0": {
4
+ "content": "[PAD]",
5
  "lstrip": false,
6
  "normalized": false,
7
  "rstrip": false,
 
9
  "special": true
10
  },
11
  "1": {
12
+ "content": "[UNK]",
13
  "lstrip": false,
14
  "normalized": false,
15
  "rstrip": false,
 
17
  "special": true
18
  },
19
  "2": {
20
+ "content": "[CLS]",
21
  "lstrip": false,
22
  "normalized": false,
23
  "rstrip": false,
 
25
  "special": true
26
  },
27
  "3": {
28
+ "content": "[SEP]",
29
  "lstrip": false,
30
  "normalized": false,
31
  "rstrip": false,
32
  "single_word": false,
33
  "special": true
34
  },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
  "normalized": false,
39
  "rstrip": false,
40
  "single_word": false,
41
  "special": true
42
  }
43
  },
 
44
  "clean_up_tokenization_spaces": false,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": false,
48
  "extra_special_tokens": {},
49
+ "mask_token": "[MASK]",
50
+ "max_length": 512,
51
+ "model_max_length": 2048,
52
+ "never_split": null,
53
  "pad_to_multiple_of": null,
54
+ "pad_token": "[PAD]",
55
  "pad_token_type_id": 0,
56
  "padding_side": "right",
57
+ "sep_token": "[SEP]",
58
  "stride": 0,
59
  "strip_accents": null,
60
  "tokenize_chinese_chars": true,
61
  "tokenizer_class": "BertTokenizer",
62
  "truncation_side": "right",
63
  "truncation_strategy": "longest_first",
64
+ "unk_token": "[UNK]"
65
  }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff