SetFit with JohanHeinsen/Old_News_Segmentation_SBERT_V0.1

This is a SetFit model that can be used for Text Classification. This SetFit model uses JohanHeinsen/Old_News_Segmentation_SBERT_V0.1 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: JohanHeinsen/Old_News_Segmentation_SBERT_V0.1
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 2 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
0	'En skikkelig Karl fra Jylland søger Condition til St. Hansdag og er at finde paa Christianshavn paa Hiørnet af Dronningensgade og Torvegagen i Kielderen i Nr. 359.' 'En Amme søger Plads, eller i Mangel som Goldamme, er at finde i Nyehavn, anden Port fra Charlottenborg.' 'En skikkelig Pige, som kan forevise de bedste Skudsmaale, ønsker sig en Tieneste som Frøkenpige eller Stuepige til 1ste Novbr. enten paa en Herregaard eller hos en honet Familie i Kiøbstæden. Hun anvises fra Adressecomtoiret.'
1	'En skikkelig Jomfru, som forstaaer godt Madlavning, Vadsk, Reengjøren og deslige, kan faae Condition paa Vesterbro Nr. 63, men uden gode Recommendationer om Troskab og god Opførsel nytter det ikke at mælde sig.' 'En Pige, som kan paatage sig et Kjøkken, kan strax faae Condition, naar hun mælder sig i Toldbodgaden Nr. 44, i Stuen.' 'En Goldamme kan strax faae Condition i Kronprindsensgaden Nr. 39, 3die Sal.'

Label

Examples

'En skikkelig Karl fra Jylland søger Condition til St. Hansdag og er at finde paa Christianshavn paa Hiørnet af Dronningensgade og Torvegagen i Kielderen i Nr. 359.'
'En Amme søger Plads, eller i Mangel som Goldamme, er at finde i Nyehavn, anden Port fra Charlottenborg.'
'En skikkelig Pige, som kan forevise de bedste Skudsmaale, ønsker sig en Tieneste som Frøkenpige eller Stuepige til 1ste Novbr. enten paa en Herregaard eller hos en honet Familie i Kiøbstæden. Hun anvises fra Adressecomtoiret.'

'En skikkelig Jomfru, som forstaaer godt Madlavning, Vadsk, Reengjøren og deslige, kan faae Condition paa Vesterbro Nr. 63, men uden gode Recommendationer om Troskab og god Opførsel nytter det ikke at mælde sig.'
'En Pige, som kan paatage sig et Kjøkken, kan strax faae Condition, naar hun mælder sig i Toldbodgaden Nr. 44, i Stuen.'
'En Goldamme kan strax faae Condition i Kronprindsensgaden Nr. 39, 3die Sal.'

Evaluation

Metrics

Label	Accuracy	F1	Precision	Recall
all	0.9434	0.9239	0.8922	0.9579

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("setfit_model_id")
# Run inference
preds = model("En Pige søger Tieneste hos eenlige Folk, eller hvor der er et Par Børn at passe, anvises i lille Færgestrædet Nr. 231.")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	8	32.1640	176

Label	Training Sample Count
0	389
1	227

Training Hyperparameters

batch_size: (16, 16)
num_epochs: (2, 2)
max_steps: -1
sampling_strategy: oversampling
num_iterations: 12
body_learning_rate: (2e-05, 2e-05)
head_learning_rate: 2e-05
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
l2_weight: 0.01
seed: 42
eval_max_steps: -1
load_best_model_at_end: False

Training Results

Epoch	Step	Training Loss	Validation Loss
0.0011	1	0.0621	-
0.0541	50	0.2937	-
0.1082	100	0.1367	-
0.1623	150	0.037	-
0.2165	200	0.0215	-
0.2706	250	0.0165	-
0.3247	300	0.0103	-
0.3788	350	0.0134	-
0.4329	400	0.0146	-
0.4870	450	0.003	-
0.5411	500	0.0028	-
0.5952	550	0.0027	-
0.6494	600	0.0039	-
0.7035	650	0.0003	-
0.7576	700	0.0001	-
0.8117	750	0.0001	-
0.8658	800	0.0001	-
0.9199	850	0.0001	-
0.9740	900	0.0	-
1.0281	950	0.0	-
1.0823	1000	0.0	-
1.1364	1050	0.0	-
1.1905	1100	0.0	-
1.2446	1150	0.0	-
1.2987	1200	0.0	-
1.3528	1250	0.0	-
1.4069	1300	0.0	-
1.4610	1350	0.0	-
1.5152	1400	0.0	-
1.5693	1450	0.0	-
1.6234	1500	0.0	-
1.6775	1550	0.0	-
1.7316	1600	0.0	-
1.7857	1650	0.0	-
1.8398	1700	0.0	-
1.8939	1750	0.0	-
1.9481	1800	0.0	-

Framework Versions

Python: 3.11.12
SetFit: 1.1.3
Sentence Transformers: 4.1.0
Transformers: 4.51.3
PyTorch: 2.7.0
Datasets: 2.19.2
Tokenizers: 0.21.1

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}

Downloads last month: 20

Safetensors

Model size

0.1B params

Tensor type

F32

Model tree for JohanHeinsen/Labour_ads_demand

Base model

CALDISS-AAU/DA-BERT_Old_News_V1

Finetuned

JohanHeinsen/Old_News_Segmentation_SBERT_V0.1

Finetuned

(13)

this model

Evaluation results

Accuracy on Unknown
test set self-reported

0.943
F1 on Unknown
test set self-reported

0.924
Precision on Unknown
test set self-reported

0.892
Recall on Unknown
test set self-reported

0.958

View on Papers With Code