SentenceTransformer based on Alibaba-NLP/gte-multilingual-base

This is a sentence-transformers model finetuned from Alibaba-NLP/gte-multilingual-base on the ko-triplet-v1.0 dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: Alibaba-NLP/gte-multilingual-base
Maximum Sequence Length: 8192 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity
Training Dataset:
- ko-triplet-v1.0
Language: ko

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '항체 활성을 가지고 있는 특별한 단백질을 뭐라고 부를까?',
    '항체 활성을 가지고 있는 특별한 단백질을 면역글로불린(immunoglobulin)이라 부르며 Ig로 표기한다.',
    'Immunoblotting 결과, 한 번의 Dps 단백질 주입만으로도 매우 많은 양의 항체가 생성되었음을 확인하였으며, 이는 Dps 단백질이 매우 높은 항원성을 가지고 있다는 것을 의미한다(data not shown).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Dataset: all-nli-dev
Evaluated with TripletEvaluator

Metric	Value
cosine_accuracy	0.9967

Training Details

Training Dataset

ko-triplet-v1.0

Dataset: ko-triplet-v1.0 at 9cc1d6a
Size: 744,862 training samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 8 tokens mean: 25.75 tokens max: 133 tokens	min: 10 tokens mean: 132.62 tokens max: 1277 tokens	min: 11 tokens mean: 198.97 tokens max: 1046 tokens

Samples:

anchor	positive	negative
`2011년에 경북대학교는 어떻게 채용조건형 계약학과인 모바일공학과를 신설했어`	② 경북대 모바일공학과(경북대 모바일공학과, 2012) 경북대 모바일공학과는 삼성전자와 지식경제부가 공동으로 지원하는 제3자 계약형의 계약학과이다. 경북대는 2011년 들어 삼성전자, 지식경제부와 협력하여 모바일공학과를 준비하였으며 삼성전자 역시 차세대 모바일 분야의 인재들을 육성하기 위해 모바일공학과를 개설하게 되었다(석민, 2012). 채용조건형 계약학과인 만큼 졸업 후 상당수의 학생들이 삼성전자에 채용될 것으로 예상되며 삼성 측의 각종 교육혜택과 장학금 지원도 보장된다. ③ 세종대 국방시스템공학과(세종대학교 국방시스템공학과, 2012) 세종대 국방시스템공학과는 국방부와 학교가 협력을 맺은 장교육성형 계약학과이다. 국방시스템공학과는 정보과학화속에 점차 첨단화되어 가는 국방운용 체계를 이해하고 이를 효율적으로 운용, 관리하기 위한 기본지식과 역량을 갖춘 군사과학기술전문가 양성을 위한 교육과정을 제공한다. 이를 위해 무기체계의 공학적 원리를 이해하고 과학기술군을 선도하는 전문가로서의 자질함양을 위하여 군사과학기술 분야에 대한 교과목을 편성하고 있으며, 군의 핵심간부로서 자질함양을 위하여 국방정책 및 전략에 대한 교육 과정도 제공한다.	(3) 계약학과의 주요 사례 ① 성균관대 반도체시스템공학과(성균관대학교 반도체시스템공학과, 2012) 성균관대는 삼성전자와 반도체시스템공학과를 학사 과정에 설치하면서 최초로 채용조건형 계약학과를 도입하였다. 또한 대학원 과정으로 삼성전자와 IT융합학과, 삼성전기와 이동통신공학과, 삼성물산과 초고층·장대교량학과를 운영하고 있다. 성균관대학교 반도체시스템공학과는 기업 맞춤형 인재를 양성하기 위해 현장연계 프로그램을 운영하고, 현장 중심의 교육과정을 편성했다. 전공 수업의 대학 및 산업체 강의 비율을 50:50으로 유지하고, 각 분야의 전문가를 초청하여 일반 정보를 비롯, 시장 경향까지 현장감 넘치는 정보와 직접적인 지식을 제공하는 한편, 졸업 이후 현장 업무에 빠르게 적응할 수 있도록 현장체험 시간을 보장하고 있다. 1학년 학생들을 대상으로는 사업장 견학을 실시하여 자신의 전공과 진로에 대해 실제적인 이해를 도와주며, 현장 경험 기회를 제공하고, 실제 입사 전에 인턴십 프로그램을 통해 실제 현장의 전문가로부터 교육을 받는 경험도 할 수 있다. 이를 통해 재학 중 삼성전자에서 실시하는 최소채용절차를 통과하여 입사를 보장받고, 동 대학원(반도체시스템공학과)에 진학할 경우 전액 장학금 및 학업 장려금도 지원 받을 수 있다. 이는 채용조건형 계약학과의 우수사례라고 볼 수 있으며, 기업 맞춤형 인재양성을 위해 현장 중심의 경험을 확대한 것 역시 장점이라고 볼 수 있다.
`추후에 누구를 대상으로 한 바이노럴 비트에 미치는 영향에 대한 추가적인 연구가 요구되는가?`	`추후 실제 청력이 저하된 피실험자를 대상으로 청력 저하 요인별로 바이노럴 비트에 미치는 영향에 대한 추가적인 연구가 요구된다.`	`아직까지 청력 차이에 따른 바이노럴 비트의 뇌파동조 정도에 대한 체계적인 연구가 보고된 바 없다.`
`상대적으로 구분되는 법의 특성상 상법을 기준으로 볼 때 특별법으로 볼 수 있는 법은 뭐야`	나. 특별법의 개념과 네트워크적 의미 특별법은 법률의 유형을 분류할 때 일반법에 대비하여 쓰이는 개념이다. 일반법은 보편적이고 추상적인 규율을 하는 법률을 말하는 반면, 특별법은 특정한 법적 대상, 즉, 사람이나 지역, 기간 등에 대하여 적용되는 개별적이고 구체적인 법률을 의미한다(박영도, 2012). 이 구분은 「은행법」, 「상법」 및 「민법」의 관계에서 볼 수 있듯이 상대적인 것이다. 즉, 「상법」은 「민법」의 특별법이고, 「은행법」 은 「상법」의 특별법이다. 일반법과 특별법은 이처럼 내용의 상대적인 구체성과 개별성을 기준으로 판단되는 것이 정확하나, 현행법에 대한 실증적인 연구를 할 때는 보통 제명상 특별법이라는 분류를 사용한다(박영도, 2012; 최윤철 등 4인, 2012). 예를 들면 「상법」이 「민법」의 특별법이라고 하여 제명상의 특별법과 동일하게 취급하고 분석하는 것은 적절하지 못한 것으로 보인다. 또한 각종 진흥법과 지원법도 급부적인 형태의 특별법의 일종으로 이해되고 있다(손현, 2016).	앞서 살펴본 선행연구에서 공통적으로 제시되는 발전방향은 사업 추진체계 정비 및 인프라 구축, 이를 통한 전문 적응지원 서비스 및 민간일자리 전이 지원, 민간일 자리 전이 가능성에 따른 배치기관 연계, 장애, 성별, 연령 등 개인의 특성 등을 고려한 일자리 개발 및 확대 등이라고 볼 수 있다. 선행연구에서 제시된 사업 발전방향과 개선방안 등을 종합적으로 분석한 결과, 장애인일자리사업의 주요 개념은 ‘장애인’과 ‘일자리’라는 두 가지 개념으로 구분해서 생각해볼 수 있다. 먼저 장애인이라는 참여자를 중심으로 볼 때, 개인을 구성하는 다양한 요소에서 비롯되는 ‘개인특성’ 요인이 있고, 일자리라는 특성을 중심으로 볼 때의 주요 구성요인은 ‘근로조건’과 ‘직무특성’으로 구분될 수 있다. 마지막으로 장애인과 일자리의 연결 지점이라 할 수 있는 ‘적응지원 서비스’ 요인으로 개인이 일자리에 잘 적응할 수 있도록 전문자원을 활용하는 것이라 정의할 수 있다.

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Evaluation Dataset

ko-triplet-v1.0

Dataset: ko-triplet-v1.0 at 9cc1d6a
Size: 744,862 evaluation samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 7 tokens mean: 26.08 tokens max: 104 tokens	min: 11 tokens mean: 132.54 tokens max: 631 tokens	min: 11 tokens mean: 202.75 tokens max: 1121 tokens

Samples:

anchor	positive	negative
`국토교통부가 공동주택관리업무를 지원하고자 행복지원센터를 둔 기관은 어디야`	5. 공동주택관리지원기구 □ 공동주택관리업무를 지원하기 위해 국토교통부와 서울시는 지원기구를 신설하여 업무를 수행 중임 □ 국토교통부는 2014년 4월 8일부터 한국토지주택공사(LH)의 자회사인 주택관리공단에 ‘행복지원센터’라는 이름으로 공동주택관리지원센터를 설치하여 공동주택관리에 관한 지원업무를 수행 중임 ○ 동 센터는 다음과 같은 업무를 수행 중임 - 입주자대표회의 구성·운영 등 민원에 대해 전화상담 - 관리주체 또는 입주자대표회의 요청 시 회계·계약·시설관리 진단서비스 - 관리주체 또는 입주자대표회의 요청 시 공사·용역 타당성 자문 - 층간소음 분쟁 등에 대해 현장 방문을 통해 상담·중재 - 진단서비스, 타당성 검토 시 현장 방문 결과를 반영(피드백)	■ 추진내용 ① 행복주택 확대 ② 공동육아 시설 등 보육 시설 확대를 통한 육아의 어려움 해결 ③ 안동시 공공시설을 활용한 저렴한 예식장 및 예복 대여 등으로 결혼부담 감소 ④ 저소득층 육아 지원 사업 ⑤ 정부의 주택 지원사업 홍보 ⑥ 안동 육아종합지원센터 개소 ⑦ 시립 어린이집 확충 ⑧ 예비엄마 병원진료 교통비 지원 ⑨ 원도심 내 공공산후조리원 설치 ■ 고려사항 출산율과 주거문제 해결은 대한민국 전체의 문제로, 안동시 내부적으로 모두를 해결하기에는 어려움이 있다. 행복주택은 지자체와 국토교통부가 함께 진행하는 사업이므로 행복주택 수를 늘려 비어있는 주거공간의 활용과 동시에 청년 주거 문제를 동시에 해결하는 등의 새로운 방법을 모색하는 것이 필요하다.
`과대광고를 한 P2P 사업자가 월정액을 뭐로 청구해서 이용자에게 피해를 입히지`	□ 반면, 최근 온라인 영화(영상물) 제공을 주요 서비스로 하는 일부 온라인서비스사업자의 과장광고 등으로 인한 이용자의 피해가 증가하고 있어 영업질서 유지를 위한 조치가 필요한 상태임 ○ 예를 들어, 영화, 방송, 애니메이션 등의 영상물 파일의 공유를 주요 서비스로 제공하는 P2P, 웹하드 사업자가 ‘무료회원가입 및 무제한 영화다운로드’를 광고 한 후, 회원가입을 한 이용자에게 자동결제방식을 통하여 이용자가 인식하지 못한 사이에 매월 일정금액을 청구하여 수익을 얻는 등의 소비자 피해가 발생하고 있음 □ 한편, 최근 다수의 성인용 비디오물이 인터넷 등 정보통신망에서 유통될 목적으로 디지털형태로 제작, 배포되고 있어, 디지털형태의 비디오물제작, 유통에 대한 관리가 미비할 경우 청소년에 대한 선정적이고 폭력적 매체물의 노출빈도가 높아질 것으로 우려됨 ○ 참고로, 영상물등급위원회의 「2010등급분류연감」에 따르면, 2010년 영상물등급위원회가 등급분류한 비디오물 4,616건 중 3,849건(83.3%)이 다매체 방식으로 제공되는 청소년관람불가 또는 제한관람가 등급의 비디오물이었음	○ 한편, 온라인상에서 이용자간 자유로운 영상물 거래를 가능하게 하는 온라인서비스가 등장함에 따라, 유통사업자가 개별적인 영상물 제공에 대하여 일정한 대가를 받는 전통적인 유통방식의 변화가 발생하고 있음 - 웹하드, P2P 서비스는 인터넷상의 디지털파일 공유 서비스 제공에 대해서만 이용자로부터 대가를 받고, 개별적인 영상물의 업로드는 이용자가 하는 방식으로 운영되고 있음 - Youtube, 엠군, 아프리카TV 등의 동영상 서비스 제공 사업자는 이용자가 업로드 한 영상물을 다른 이용자에게 무료로 제공하고, 사업수익은 광고 등을 통하여 얻는 방식으로 운영되고 있음 □ 2010년 이후에는 스마트폰과 태블릿PC로 대표되는 무선통신기기의 기술적 발전으로 인하여 다양한 플랫폼에서 하나의 영상콘텐츠를 유통할 수 있는 기회가 열리게 됨에 따라, 온라인 영상물 중심의 비디오물 유통구조는 보다 일반화될 것으로 보임
`스트레스를 받은 닭은 코티코스테론의 증가와 인슐린 과다분비로 인하여 체내에 무엇이 증가하나요?`	`지금까지 알려진 것을 보면 스트레스를 받은 닭은 corticosterone의 증가와 인슐린 과다분비로 인하여 체내에 지방축적이 증가하는 것으로 알려져 있다.`	`닭의 경우 스트레스에 의해 증체량과 사료효율 감소가 보고되었으며, 이와 같은 결과는 닭의 골격근 발달저하와 지방축적 증가를 유발한다고 하였다.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
learning_rate: 1e-05
num_train_epochs: 1
warmup_ratio: 0.1
bf16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 16
per_device_eval_batch_size: 16
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 1e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
eval_use_gather_object: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	Training Loss	Validation Loss	all-nli-dev_cosine_accuracy
0	0	-	-	0.9799
0.0370	100	0.2228	0.1064	0.9890
0.0741	200	0.1292	0.0510	0.9938
0.1111	300	0.0785	0.0400	0.9944
0.1481	400	0.0675	0.0345	0.9955
0.1852	500	0.0667	0.0320	0.9953
0.2222	600	0.0644	0.0306	0.9956
0.2593	700	0.067	0.0304	0.9959
0.2963	800	0.0568	0.0296	0.9956
0.3333	900	0.0617	0.0287	0.9958
0.3704	1000	0.0556	0.0274	0.9962
0.4074	1100	0.0532	0.0271	0.9962
0.4444	1200	0.0524	0.0262	0.9966
0.4815	1300	0.0529	0.0267	0.9962
0.5185	1400	0.0527	0.0260	0.9962
0.5556	1500	0.0479	0.0253	0.9962
0.5926	1600	0.0515	0.0245	0.9967
0.6296	1700	0.0512	0.0251	0.9962
0.6667	1800	0.0548	0.0245	0.9963
0.7037	1900	0.0476	0.0246	0.9965
0.7407	2000	0.0456	0.0247	0.9961
0.7778	2100	0.0548	0.0242	0.9965
0.8148	2200	0.051	0.0241	0.9965
0.8519	2300	0.0472	0.0242	0.9967
0.8889	2400	0.0492	0.0241	0.9967
0.9259	2500	0.0463	0.0239	0.9967
0.9630	2600	0.0484	0.0238	0.9967
1.0	2700	0.0498	0.0238	0.9967

Framework Versions

Python: 3.11.10
Sentence Transformers: 3.3.0
Transformers: 4.44.2
PyTorch: 2.4.1+cu124
Accelerate: 1.1.1
Datasets: 2.19.0
Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}