SentenceTransformer based on vinai/phobert-base-v2

This is a sentence-transformers model finetuned from vinai/phobert-base-v2 on the dataset_full_fixed dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: vinai/phobert-base-v2
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("phobert-base-v2-tloss")
# Run inference
sentences = [
    'Bác sĩ cho cháu hỏi là sử dụng điện thoại có ảnh hưởng như thế nào đến bệnh động kinh ạ?',
    'Chào em, Hiện nay chưa có nghiên cứu khẳng định tác hại của sóng điện thoại lên bệnh động kinh, em nhé. Chào BS, Em sinh cháu gái được 4 tháng 10 ngày, nặng 7kg. Không hiểu sao 2 mắt của bé đều có quầng thâm. Cháu ăn vẫn đều, ngủ hay bị giật mình, giấc ngủ không sâu. Xin BS tư vấn giúp. (Bích Ngọc - Hà Nội) BS-CK1 Nguyễn Thị Thu Thảo: Chào em, Trường hợp này em nên đưa bé đi khám để loại trừ bệnh lý còi xương do thiếu vitamin D, canxi. Riêng mắt có quầng thâm có thể là do bé thiếu ngủ hoặc do ảnh hưởng từ gia đình. Chào BS, Hôm nay em đi siêu âm thì túi thai là 22mm, phôi thai là 7mm tương ứng với thai 7w4d nhưng chưa có tim thai. BS kết luận là thai lưu. Liệu em còn hi vọng gì không? Rất mong BS tư vấn giúp. (Quynh Chi) BS Chuyên khoa của AloBacsi: Chào em, Trường hợp này cần được tiếp tục theo dõi thêm 1 - 2 tuần, nếu vẫn chưa xác định được tim thai hoạt động thì nhiều khả năng là thai ngưng phát triển. Tốt nhất, em nên đến BV sản khoa có uy tín khám và theo dõi. Thân mến,',
    'Nguy cơ mụn đầu đen Những ai có nguy cơ bị mụn đầu đen? Mụn đầu đen có thể xảy ra với mọi đối tượng, đặc biệt là ở độ tuổi dậy thì . Yếu tố làm tăng nguy cơ bị mụn đầu đen Một số yếu tố làm tăng nguy cơ bị mụn đầu đen, bao gồm: Các yếu tố môi trường bên ngoài như bụi bẩn, các chất tẩy rửa, mỹ phẩm, môi trường có độ ẩm cao… Yếu tố cơ địa như da dầu . Chế độ dinh dưỡng, sinh hoạt: Vệ sinh da không đúng cách, chế độ ăn uống nhiều sữa, đường.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.643
cosine_accuracy@3 0.769
cosine_accuracy@5 0.817
cosine_accuracy@10 0.8729
cosine_precision@1 0.643
cosine_precision@3 0.2563
cosine_precision@5 0.1634
cosine_precision@10 0.0873
cosine_recall@1 0.643
cosine_recall@3 0.769
cosine_recall@5 0.817
cosine_recall@10 0.8729
cosine_ndcg@10 0.7558
cosine_mrr@10 0.7186
cosine_map@100 0.7236

Training Details

Training Dataset

dataset_full_fixed

  • Dataset: dataset_full_fixed at ef2e7fd
  • Size: 43,803 training samples
  • Columns: query and positive
  • Approximate statistics based on the first 1000 samples:
    query positive
    type string string
    details
    • min: 5 tokens
    • mean: 76.56 tokens
    • max: 256 tokens
    • min: 37 tokens
    • mean: 186.86 tokens
    • max: 256 tokens
  • Samples:
    query positive
    Thưa BS,


    Em đáng điều trị lao mới theo phác đồ 1A được 5 tháng rưỡi. Cách đây một thời gian mắt em bị mờ và em dừng thuốc E. Thời gian như sau từ lúc mắt bắt đầu mờ từ khi hết 4 tháng điều trị, dừng E sau đấy 10 ngày.


    Em đi khám mắt thì mặc dù thị lực kém đi nhưng không thấy tổn thương, đã 1 tháng kể từ ngày dừng thuốc rồi mà mắt em chưa hồi phục được bao nhiêu chỉ đỡ nhức mỏi thôi. BS cho em hỏi mắt em có thể phục hồi được nữa không và nếu hồi phục thì thời gian dài ngắn như thế nào ạ? Em vẫn đang dùng một số loại thuốc bổ mắt và vitamin 3B. Cám ơn BS nhiều.


    Nguyễn Văn Khôi - khoit…@gmail.com
    Chào bạn Khôi, Trong quá trình mà mắt bị mờ là do tác dụng phụ của thuốc lao Ethambutol gây viêm thần kinh thị giác. Trong trường hợp này bắt buộc phải ngưng Ethambutol, việc phục hồi thị lực nhanh hay chậm là tùy thuộc vào thời gian sử dụng Ethambutol trước đó, tổn thương thần kinh thị giác nhiều hay ít, cơ địa bệnh nhân. Tuy nhiên chắc chắn thị lực sẽ được phục hồi hoàn toàn sau khi ngưng Ethambutol. Trong thời gian này bạn uống một số thuốc bổ mắt như vitamin 3B là phù hợp. Thân mến!
    Thưa BS,


    Cháu năm nay 25 tuổi, là nữ ạ. Trong 2 năm liền cháu bị zona thần kinh tại cùng 1 vị trí trên mặt. Cháu rất sợ bệnh có thể tái phát lại bất kỳ lúc nào vì ngay trên mặt để lại sẹo rất xấu.


    Cháu nghe nói có văcxin phòng bệnh zona, BS tư vấn giúp cháu xem cháu có thể tiêm văcxin không ạ? Cháu cám ơn BS ạ.
    Chào bạn Trang, Những thông tin như bạn tìm hiểu là có. Hiện tại văcxin phòng bệnh zona có thể làm hạn chế những biến chứng và khả năng tái phát bệnh trên một số cơ địa bị suy giảm miễn dịch. Bạn mới 25 tuổi - đây là độ tuổi còn trẻ nên có thể tăng cường hệ thống miễn dịch của mình bằng cách ăn uống và tập luyện thể dục thể thao. Văc xin phòng bệnh zona đang là một số nghiên cứu và chưa được chính thức đưa ra trên thị trường. Đây là bước tiến mới của y học nhưng bạn cần phải chờ đợi đến khi được chính thức đưa vào sử dụng. Thân mến.
    Xạ phẫu gamma knife là gì, BS có thể cho biết sơ lược về lịch sử của phương pháp này? Tại Việt Nam, gamma knife được triển khai từ khi nào, ở những bệnh viện nào ạ? Chào bạn, Trước đây, một bệnh nhân không may mắc bệnh lý về u não, u màng não, u tuyến yên hoặc những bệnh nhân bị dị dạng mạch máu não, đặc biệt những bệnh nhân bị u dây thần kinh số 8 hay đau dây thần kinh số 5. Những trường hợp này cần có những biện pháp can thiệp xâm lấn, bao gồm phẫu thuật mổ mở, phẫu thuật mổ nội soi, phẫu thuật bằng robot,... Tuy nhiên, biện pháp phẫu thuật nào cũng có thể để lại các biến chứng do cuộc phẫu thuật gây ra với mức độ thương tổn ở hệ thống não hoặc hệ thống thần kinh, ít hay nhiều sẽ tùy thuộc vào phương pháp phẫu thuật nào. Với đà phát triển của khoa học kỹ thuật, hiện tại có rất nhiều các phương tiện có thể hỗ trợ, giúp đỡ cho bệnh nhân điều trị khối u trên tiêu chí càng mở rộng phạm vị xâm lấn càng tốt. Vì vậy, hệ thống gamma knife đã được ra đời. Sơ lược về lịch sử của phương pháp này, Năm 1951, giáo sư Lars Leksell là người Thụy Điển giới hiệu khái niệm “tia xạ định vị” dùng nhiều chùm tia năng lượng cao phá hủy mô đích mà bảo đảm an toàn cho ...
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 160
  • per_device_eval_batch_size: 160
  • learning_rate: 1e-06
  • num_train_epochs: 5
  • lr_scheduler_type: constant_with_warmup
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 160
  • per_device_eval_batch_size: 160
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: constant_with_warmup
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss dim_768_cosine_ndcg@10
0.3650 100 4.0328 -
0.7299 200 1.7942 -
1.0 274 - 0.6135
1.0949 300 0.8893 -
1.4599 400 0.7174 -
1.8248 500 0.6156 -
2.0 548 - 0.7054
2.1898 600 0.5409 -
2.5547 700 0.5128 -
2.9197 800 0.4915 -
3.0 822 - 0.7311
3.2847 900 0.4562 -
3.6496 1000 0.4595 -
4.0 1096 - 0.7465
4.0146 1100 0.4146 -
4.3796 1200 0.4076 -
4.7445 1300 0.3908 -
5.0 1370 - 0.7558
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 4.1.0
  • Transformers: 4.44.2
  • PyTorch: 2.7.0+cu128
  • Accelerate: 1.7.0
  • Datasets: 3.6.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
3
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for thang1943/phobert-base-v2-tloss

Finetuned
(292)
this model

Dataset used to train thang1943/phobert-base-v2-tloss

Evaluation results