Add SetFit model

Browse files

Files changed (13) hide show

1_Pooling/config.json +3 -3
README.md +63 -46
config.json +7 -7
config_sentence_transformers.json +3 -3
config_setfit.json +2 -2
model.safetensors +2 -2
model_head.pkl +2 -2
modules.json +6 -0
sentence_bert_config.json +1 -1
special_tokens_map.json +6 -20
tokenizer.json +2 -2
tokenizer_config.json +17 -17
vocab.txt +0 -0

1_Pooling/config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "word_embedding_dimension": 384,
-  "pooling_mode_cls_token": false,
-  "pooling_mode_mean_tokens": true,
   "pooling_mode_max_tokens": false,
   "pooling_mode_mean_sqrt_len_tokens": false,
   "pooling_mode_weightedmean_tokens": false,

 {
+  "word_embedding_dimension": 312,
+  "pooling_mode_cls_token": true,
+  "pooling_mode_mean_tokens": false,
   "pooling_mode_max_tokens": false,
   "pooling_mode_mean_sqrt_len_tokens": false,
   "pooling_mode_weightedmean_tokens": false,

README.md CHANGED Viewed

@@ -5,20 +5,19 @@ tags:
 - text-classification
 - generated_from_setfit_trainer
 widget:
-- text: Экзамены для поступления
-- text: Какие документы нужны для поступления
-- text: Продолжительность приемной кампании
-- text: Общежитие
-- text: Как получить дополнительные баллы для поступленияКак получить дополнительные
-    баллы
 metrics:
 - accuracy
 pipeline_tag: text-classification
 library_name: setfit
 inference: true
-base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
 model-index:
-- name: SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
   results:
   - task:
       type: text-classification
@@ -29,13 +28,13 @@ model-index:
       split: test
     metrics:
     - type: accuracy
-      value: 1.0
       name: Accuracy
 ---
-# SetFit with sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
-This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
 The model has been trained using an efficient few-shot learning technique that involves:
@@ -46,9 +45,9 @@ The model has been trained using an efficient few-shot learning technique that i
 ### Model Description
 - **Model Type:** SetFit
-- **Sentence Transformer body:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2)
 - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
-- **Maximum Sequence Length:** 128 tokens
 - **Number of Classes:** 8 classes
 <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
 <!-- - **Language:** Unknown -->
@@ -61,23 +60,23 @@ The model has been trained using an efficient few-shot learning technique that i
 - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
 ### Model Labels
-| Label | Examples                                                                                                                                                                                            |
-|:------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-| 3     | <ul><li>'Количество специальностей для поступления'</li><li>'На сколько специальностей можно подать документы?'</li><li>'На сколько направлений подготовки можно подать документы?'</li></ul>       |
-| 5     | <ul><li>'Я после колледжа. Как мне поступить?'</li><li>'Вуз после колледжа'</li><li>'Как поступить в вуз после колледжа?'</li></ul>                                                                 |
-| 7     | <ul><li>'Кто претендует на предоставление общежития'</li><li>'Общага'</li><li>'Кто может жить в общежитии?'</li></ul>                                                                               |
-| 6     | <ul><li>'Назови вступи��ельные испытания'</li><li>'Какие есть вступительные испытания?'</li><li>'Внутренние экзамены для поступления'</li></ul>                                                      |
-| 0     | <ul><li>'Приемная кампания'</li><li>'Приемная кампания в вузе'</li><li>'Как долго длится приемная кампания'</li></ul>                                                                               |
-| 4     | <ul><li>'Есть ли военная кафедра'</li><li>'Направления подготовки в вуцНа каком курсе начинается Военная кафедра'</li><li>'Военный учебный центр'</li></ul>                                         |
-| 2     | <ul><li>'Как получить дополнительные баллы для поступленияКак получить дополнительные баллы'</li><li>'Как получить доп баллы'</li><li>'Расскажи о допполнительных баллах при поступлении'</li></ul> |
-| 1     | <ul><li>'Какие документы нужны для поступления'</li><li>'Необходимые документы для поступления'</li><li>'Документы на поступление каким способом подать можно?'</li></ul>                           |
 ## Evaluation
 ### Metrics
 | Label   | Accuracy |
 |:--------|:---------|
-| **all** | 1.0      |
 ## Uses
@@ -97,7 +96,7 @@ from setfit import SetFitModel
 # Download from the 🤗 Hub
 model = SetFitModel.from_pretrained("Maxim01/Intent_Classification_Test")
 # Run inference
-preds = model("Общежитие")
 ```
 <!--
@@ -129,18 +128,18 @@ preds = model("Общежитие")
 ### Training Set Metrics
 | Training set | Min | Median | Max |
 |:-------------|:----|:-------|:----|
-| Word count   | 1   | 4.3878 | 9   |
 | Label | Training Sample Count |
 |:------|:----------------------|
-| 0     | 7                     |
-| 1     | 8                     |
-| 2     | 5                     |
-| 3     | 4                     |
-| 4     | 7                     |
-| 5     | 6                     |
-| 6     | 5                     |
-| 7     | 7                     |
 ### Training Hyperparameters
 - batch_size: (8, 8)
@@ -164,20 +163,38 @@ preds = model("Общежитие")
 ### Training Results
 | Epoch  | Step | Training Loss | Validation Loss |
 |:------:|:----:|:-------------:|:---------------:|
-| 0.0041 | 1    | 0.0986        | -               |
-| 0.2041 | 50   | 0.0729        | -               |
-| 0.4082 | 100  | 0.016         | -               |
-| 0.6122 | 150  | 0.0063        | -               |
-| 0.8163 | 200  | 0.0031        | -               |
 ### Framework Versions
-- Python: 3.11.11
-- SetFit: 1.1.1
-- Sentence Transformers: 3.3.1
-- Transformers: 4.47.1
-- PyTorch: 2.5.1+cu124
-- Datasets: 3.2.0
-- Tokenizers: 0.21.0
 ## Citation

 - text-classification
 - generated_from_setfit_trainer
 widget:
+- text: Как подать документы, если я нахожусь в другом городе?
+- text: Какие перспективы после окончания ВУЦ?
+- text: Как проходит апелляция по результатам экзаменов?
+- text: Как узнать, какие документы нужны для поступления на магистратуру?
+- text: Какие достижения учитываются для аспирантуры?
 metrics:
 - accuracy
 pipeline_tag: text-classification
 library_name: setfit
 inference: true
+base_model: cointegrated/rubert-tiny2
 model-index:
+- name: SetFit with cointegrated/rubert-tiny2
   results:
   - task:
       type: text-classification
       split: test
     metrics:
     - type: accuracy
+      value: 0.7857142857142857
       name: Accuracy
 ---
+# SetFit with cointegrated/rubert-tiny2
+This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
 The model has been trained using an efficient few-shot learning technique that involves:
 ### Model Description
 - **Model Type:** SetFit
+- **Sentence Transformer body:** [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
 - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
+- **Maximum Sequence Length:** 2048 tokens
 - **Number of Classes:** 8 classes
 <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
 <!-- - **Language:** Unknown -->
 - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
 ### Model Labels
+| Label | Examples                                                                                                                                                                                                                           |
+|:------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+| 4     | <ul><li>'Как узнать результаты отбора в ВУЦ?'</li><li>'Как узнать, какие ВУЦ есть в моем регионе?'</li><li>'Какие экзамены принимаются в ВУЦ?'</li></ul>                                                                           |
+| 1     | <ul><li>'Как подать документы на платное отделение?'</li><li>'Как узнать, какие документы нужны для поступления на педагогические специальности?'</li><li>'Какие ошибки чаще всего допускают при подаче документов?'</li></ul>     |
+| 3     | <ul><li>'Как узнать, какие специальности доступны для дистанционного обучения?'</li><li>'Можно ли подать документы на специальности с разными условиями поступления?'</li><li>'Как узнать конкуренцию на специальность?'</li></ul> |
+| 2     | <ul><li>'Сколько баллов можно получить за индивидуальные достижения?'</li><li>'Можно ли подать достижения после подачи документов?'</li><li>'Сколько максимум баллов можно получить за достижения?'</li></ul>                      |
+| 5     | <ul><li>'Можно ли поступить на заочное отделение после колледжа?'</li><li>'Как подготовиться к вступительным экзаменам после колледжа'</li><li>'Можно ли поступить на бюджет после колледжа?'</li></ul>                            |
+| 7     | <ul><li>'Какие документы нужны для заселения в общежитие?'</li><li>'Как узнать, есть ли свободные места в общежитии?'</li><li>'Какие условия проживания в общежитии?'</li></ul>                                                    |
+| 0     | <ul><li>'Как узнать, что мои документы не потерялись?'</li><li>'Как подать заявление на несколько специальностей?'</li><li>'Какие сроки рассмотрения заявлений?'</li></ul>                                                         |
+| 6     | <ul><li>'Какие ошибки чаще всего допускают на экзаменах?'</li><li>'Какие документы нужны на экзамен?'</li><li>'Как получить консультацию по вступительным испытаниям?'</li></ul>                                                   |
 ## Evaluation
 ### Metrics
 | Label   | Accuracy |
 |:--------|:---------|
+| **all** | 0.7857   |
 ## Uses
 # Download from the 🤗 Hub
 model = SetFitModel.from_pretrained("Maxim01/Intent_Classification_Test")
 # Run inference
+preds = model("Какие перспективы после окончания ВУЦ?")
 ```
 <!--
 ### Training Set Metrics
 | Training set | Min | Median | Max |
 |:-------------|:----|:-------|:----|
+| Word count   | 3   | 6.7143 | 11  |
 | Label | Training Sample Count |
 |:------|:----------------------|
+| 0     | 33                    |
+| 1     | 32                    |
+| 2     | 32                    |
+| 3     | 33                    |
+| 4     | 31                    |
+| 5     | 15                    |
+| 6     | 15                    |
+| 7     | 33                    |
 ### Training Hyperparameters
 - batch_size: (8, 8)
 ### Training Results
 | Epoch  | Step | Training Loss | Validation Loss |
 |:------:|:----:|:-------------:|:---------------:|
+| 0.0009 | 1    | 0.1623        | -               |
+| 0.0446 | 50   | 0.2355        | -               |
+| 0.0893 | 100  | 0.1756        | -               |
+| 0.1339 | 150  | 0.1501        | -               |
+| 0.1786 | 200  | 0.1329        | -               |
+| 0.2232 | 250  | 0.119         | -               |
+| 0.2679 | 300  | 0.1048        | -               |
+| 0.3125 | 350  | 0.0928        | -               |
+| 0.3571 | 400  | 0.0902        | -               |
+| 0.4018 | 450  | 0.0841        | -               |
+| 0.4464 | 500  | 0.0903        | -               |
+| 0.4911 | 550  | 0.0969        | -               |
+| 0.5357 | 600  | 0.0747        | -               |
+| 0.5804 | 650  | 0.0704        | -               |
+| 0.625  | 700  | 0.0809        | -               |
+| 0.6696 | 750  | 0.0793        | -               |
+| 0.7143 | 800  | 0.0711        | -               |
+| 0.7589 | 850  | 0.0687        | -               |
+| 0.8036 | 900  | 0.0726        | -               |
+| 0.8482 | 950  | 0.0718        | -               |
+| 0.8929 | 1000 | 0.0751        | -               |
+| 0.9375 | 1050 | 0.0635        | -               |
+| 0.9821 | 1100 | 0.0723        | -               |
 ### Framework Versions
+- Python: 3.11.12
+- SetFit: 1.1.2
+- Sentence Transformers: 3.4.1
+- Transformers: 4.51.3
+- PyTorch: 2.6.0+cu124
+- Datasets: 3.5.1
+- Tokenizers: 0.21.1
 ## Citation

config.json CHANGED Viewed

@@ -1,26 +1,26 @@
 {
-  "_name_or_path": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
   "architectures": [
     "BertModel"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 384,
   "initializer_range": 0.02,
-  "intermediate_size": 1536,
   "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
   "model_type": "bert",
   "num_attention_heads": 12,
-  "num_hidden_layers": 12,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.47.1",
   "type_vocab_size": 2,
   "use_cache": true,
-  "vocab_size": 250037
 }

 {
   "architectures": [
     "BertModel"
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
+  "emb_size": 312,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 312,
   "initializer_range": 0.02,
+  "intermediate_size": 600,
   "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 2048,
   "model_type": "bert",
   "num_attention_heads": 12,
+  "num_hidden_layers": 3,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
   "type_vocab_size": 2,
   "use_cache": true,
+  "vocab_size": 83828
 }

config_sentence_transformers.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "__version__": {
-    "sentence_transformers": "3.3.1",
-    "transformers": "4.47.1",
-    "pytorch": "2.5.1+cu124"
   },
   "prompts": {},
   "default_prompt_name": null,

 {
   "__version__": {
+    "sentence_transformers": "3.4.1",
+    "transformers": "4.51.3",
+    "pytorch": "2.6.0+cu124"
   },
   "prompts": {},
   "default_prompt_name": null,

config_setfit.json CHANGED Viewed

@@ -1,4 +1,4 @@
 {
-  "normalize_embeddings": false,
-  "labels": null
 }

 {
+  "labels": null,
+  "normalize_embeddings": false
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5907423a9906f5255b78828184b6eafc33d4b5a003620ec1aa2b6938f8321939
-size 470637416

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3a8f3fe6e2cf4b237225f8f386d64fa2da6aebfcf6f5f0ec1d705bc2a84a8e1
+size 116781184

model_head.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d655cb90ee7e60bbddf7e606591bed67a2b4d58dc5a4cd9ab5a25af033709ba7
-size 25543

 version https://git-lfs.github.com/spec/v1
+oid sha256:07cfc5e1dca040c262ef706939d162a0c4e964b7a799f6b895362e79f08cb68c
+size 20935

modules.json CHANGED Viewed

@@ -10,5 +10,11 @@
     "name": "1",
     "path": "1_Pooling",
     "type": "sentence_transformers.models.Pooling"
   }
 ]

     "name": "1",
     "path": "1_Pooling",
     "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
   }
 ]

sentence_bert_config.json CHANGED Viewed

@@ -1,4 +1,4 @@
 {
-  "max_seq_length": 128,
   "do_lower_case": false
 }

 {
+  "max_seq_length": 2048,
   "do_lower_case": false
 }

special_tokens_map.json CHANGED Viewed

@@ -1,48 +1,34 @@
 {
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
   "cls_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<pad>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "sep_token": {
-    "content": "</s>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
-    "content": "<unk>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
   "cls_token": {
+    "content": "[CLS]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "[PAD]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "sep_token": {
+    "content": "[SEP]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
+    "content": "[UNK]",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
-size 17082987

 version https://git-lfs.github.com/spec/v1
+oid sha256:754380a0044be8d5446c3435eba091032a336a7ba966773468921e7db6a04cc1
+size 2413692

tokenizer_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "added_tokens_decoder": {
     "0": {
-      "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -9,7 +9,7 @@
       "special": true
     },
     "1": {
-      "content": "<pad>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -17,7 +17,7 @@
       "special": true
     },
     "2": {
-      "content": "</s>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -25,41 +25,41 @@
       "special": true
     },
     "3": {
-      "content": "<unk>",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
-    "250001": {
-      "content": "<mask>",
-      "lstrip": true,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
-  "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
-  "cls_token": "<s>",
-  "do_lower_case": true,
-  "eos_token": "</s>",
   "extra_special_tokens": {},
-  "mask_token": "<mask>",
-  "max_length": 128,
-  "model_max_length": 128,
   "pad_to_multiple_of": null,
-  "pad_token": "<pad>",
   "pad_token_type_id": 0,
   "padding_side": "right",
-  "sep_token": "</s>",
   "stride": 0,
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",
   "truncation_side": "right",
   "truncation_strategy": "longest_first",
-  "unk_token": "<unk>"
 }

 {
   "added_tokens_decoder": {
     "0": {
+      "content": "[PAD]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "1": {
+      "content": "[UNK]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "2": {
+      "content": "[CLS]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "3": {
+      "content": "[SEP]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
   "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 2048,
+  "never_split": null,
   "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
   "pad_token_type_id": 0,
   "padding_side": "right",
+  "sep_token": "[SEP]",
   "stride": 0,
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizer",
   "truncation_side": "right",
   "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
 }

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff