Upload BGE Reranker Fold 5/5 - Val F1: 0.8086, CV Mean: 0.7997
Browse files- .gitattributes +1 -0
- README.md +305 -0
- config.json +41 -0
- fold_info.json +7 -0
- id2label.json +5 -0
- label2id.json +5 -0
- model.safetensors +3 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +56 -0
.gitattributes
CHANGED
|
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
| 36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
README.md
ADDED
|
@@ -0,0 +1,305 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- cross-encoder
|
| 5 |
+
- reranker
|
| 6 |
+
- generated_from_trainer
|
| 7 |
+
- dataset_size:5759
|
| 8 |
+
- loss:CrossEntropyLoss
|
| 9 |
+
base_model: BAAI/bge-reranker-v2-m3
|
| 10 |
+
pipeline_tag: text-classification
|
| 11 |
+
library_name: sentence-transformers
|
| 12 |
+
---
|
| 13 |
+
|
| 14 |
+
# CrossEncoder based on BAAI/bge-reranker-v2-m3
|
| 15 |
+
|
| 16 |
+
This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text pair classification.
|
| 17 |
+
|
| 18 |
+
## Model Details
|
| 19 |
+
|
| 20 |
+
### Model Description
|
| 21 |
+
- **Model Type:** Cross Encoder
|
| 22 |
+
- **Base model:** [BAAI/bge-reranker-v2-m3](https://huggingface.co/BAAI/bge-reranker-v2-m3) <!-- at revision 953dc6f6f85a1b2dbfca4c34a2796e7dde08d41e -->
|
| 23 |
+
- **Maximum Sequence Length:** 8192 tokens
|
| 24 |
+
- **Number of Output Labels:** 3 labels
|
| 25 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 26 |
+
<!-- - **Language:** Unknown -->
|
| 27 |
+
<!-- - **License:** Unknown -->
|
| 28 |
+
|
| 29 |
+
### Model Sources
|
| 30 |
+
|
| 31 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 32 |
+
- **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
|
| 33 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
| 34 |
+
- **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
|
| 35 |
+
|
| 36 |
+
## Usage
|
| 37 |
+
|
| 38 |
+
### Direct Usage (Sentence Transformers)
|
| 39 |
+
|
| 40 |
+
First install the Sentence Transformers library:
|
| 41 |
+
|
| 42 |
+
```bash
|
| 43 |
+
pip install -U sentence-transformers
|
| 44 |
+
```
|
| 45 |
+
|
| 46 |
+
Then you can load this model and run inference.
|
| 47 |
+
```python
|
| 48 |
+
from sentence_transformers import CrossEncoder
|
| 49 |
+
|
| 50 |
+
# Download from the 🤗 Hub
|
| 51 |
+
model = CrossEncoder("cross_encoder_model_id")
|
| 52 |
+
# Get scores for pairs of texts
|
| 53 |
+
pairs = [
|
| 54 |
+
['[PROMPT]\nVào năm 1951, sau khi đến Việt Nam, John F. Kennedy đã hỏi tướng De Lattre - người lúc đó là Cao ủy kiêm Tổng chỉ huy quân Pháp ở Đông Dương - về lý do tại sao viện trợ của Nga không thể giúp Pháp chiến thắng. Chức vụ của De Lattre là gì?\n[CONTEXT]\nTháng 10/1951, nghị sĩ John F. Kennedy - về sau trở thành Tổng thống Mỹ - đã đến Việt Nam để khảo sát. Lúc đó, Mỹ đã tài trợ một cách hào phóng cho chiến tranh của thực dân Pháp ở Đông Dương, nhưng Kennedy tự hỏi: tại sao viện trợ Mỹ vẫn không thể giúp Pháp chiến thắng? Ông đã hỏi tướng De Lattre, Cao ủy kiêm Tổng chỉ huy quân Pháp ở Đông Dương rằng: “Tại sao ông có thể trông mong người Việt Nam (Quốc gia Việt Nam) chiến đấu (chống lại Việt Minh) để duy trì nước họ như một bộ phận của Pháp?". Về lại Mỹ, Kennedy phát biểu ngày 15/11/1951 trên đài phát thanh:', '[RESPONSE]\nVào năm 1951, John F. Kennedy đã hỏi tướng De Lattre, người lúc đó là Thủ tướng Pháp, về lý do tại sao viện trợ của Nga không thể giúp Pháp chiến thắng ở Đông Dương.'],
|
| 55 |
+
['[PROMPT]\nMặc dù cải cách hành chính của Nhật Bản đã được thực hiện từ tháng 1 năm 2001 và được cho là đã mang lại kết quả đáng khích lệ, nhưng nền kinh tế Nhật Bản lại tăng trưởng vượt bậc với tốc độ trung bình hơn 5% mỗi năm trong giai đoạn 2001-2015. Vậy tình hình của việc cải cách hành chính đang diễn ra như thế nào?\n[CONTEXT]\nNhật Bản đang xúc tiến 6 chương trình cải cách lớn trong đó có cải cách cơ cấu kinh tế, giảm thâm hụt ngân sách, cải cách khu vực tài chính và sắp xếp lại cơ cấu chính phủ,... Cải cách hành chính của Nhật được thực hiện từ tháng 1 năm 2001. Dù diễn ra chậm chạp nhưng cải cách đang đi dần vào quỹ đạo, trở thành xu thế không thể đảo ngược ở Nhật Bản và gần đây đã đem lại kết quả đáng khích lệ, nền kinh tế Nhật đã phục hồi và tăng trưởng trở lại, tuy nhiên trong giai đoạn 2001-2015, kinh tế Nhật vẫn chỉ đạt được tốc độ tăng trưởng rất chậm, trung bình chỉ dưới 1% mỗi năm.', '[RESPONSE]\nCác cải cách hành chính của Nhật Bản được hỗ trợ bởi việc áp dụng công nghệ tiên tiến từ các nước phát triển khác như Mỹ và Đức, điều này giúp tối ưu hóa quy trình và nâng cao hiệu quả quản lý hành chính.'],
|
| 56 |
+
['[PROMPT]\nBirminham đóng vai trò wan trọng vè công việc gi?\n[CONTEXT]\nBirmingham từng nổi bật trong vai trò là một trung tâm sản xuất và kỹ thuật, song kinh tế thành phố hiện nay do khu vực dịch vụ chi phối, đến năm 2012 khu vực này chiếm 88% số công việc của thành phố. Birmingham là trung tâm lớn nhất tại Anh Quốc về công việc trong hành chính công, giáo dục và y tế; và sau Leeds là trung tâm lớn thứ nhì ngoài Luân Đôn về công việc trong các khu vực tài chính và kinh doanh khác. Birmingham được xếp hạng là một thành phố thế giới cấp beta-, đứng sau Luân Đôn và Manchester tại Anh Quốc, và nền kinh tế đại đô thị quanh thành phố lớn thứ nhì tại Anh Quốc với GDP PPP đạt 121,1 tỉ USD vào năm 2014. Các công ty lớn có trụ sở tại Birmingham gồm công ty kỹ thuật IMI plc, và tính cả vùng đại đô thị thì Birmingham là nơi tập trung nhiều công ty lớn chỉ sau Luân Đôn và vùng đông nam. Thành phố có các hạ tầng lớn như Trung tâm Triển lãm Quốc gia và Trung tâm Hội nghị Quốc tế, thu hút 42% tổng số hội nghị và hội chợ triển lãm tại Anh Quốc.', '[RESPONSE]\nBirmingham đóng vai trò quan trọng trong công việc hành chính công, giáo dục, y tế và là trung tâm lớn thứ nhì ngoài Luân Đôn về công việc tài chính và kinh doanh.'],
|
| 57 |
+
['[PROMPT]\nNhững khu rừng nào nằm ở phía Đông và Tây trong nội thành Paris, và có phải chúng được quy hoạch bởi Napoleon Bonaparte không?\n[CONTEXT]\nTới thời Đệ nhị đế chế, việc tạo ra các không gian xanh trở nên cần thiết cho một thành phố có dân số đang phát triển nhanh. Với sự chỉ đạo của kỹ sư Jean-Charles Alphand và họa sĩ phong cảnh Jean-Pierre Barillet-Deschamps, các khu vườn của Paris mới có được bộ mặt như hiện nay. Rừng Boulogne và rừng Vincennes, nằm ngoài Paris, được bố trí tôn trọng điểm cực tây và điểm cực đông của nội thành thành phố. Một số khu vườn khác trong trung tâm cũng được bố trí lại cùng các không gian thoáng đãng được mở ra ở các khu phố. Ở các quận mới hơn, một số công viên quan trọng được quy hoạch: Monceau, Montsouris, Buttes-Chaumont đều do kiến trúc sư của Napoléon III dự kiến.', '[RESPONSE]\nRừng Boulogne ở phía Tây và rừng Vincennes ở phía Đông nội thành Paris. Chúng không được quy hoạch bởi Napoleon Bonaparte mà dưới thời Đệ nhị đế chế, với sự chỉ đạo của kỹ sư Jean-Charles Alphand.'],
|
| 58 |
+
["[PROMPT]\nCông trình nào được xây dựng lại vào thập niên 50 và 60 của thế kỉ XX, trong khi dân số thành phố đạt đỉnh vào năm 1970 với 1,113,000 cư dân?\n[CONTEXT]\nThành phố trải qua tái phát triển quy mô lớn trong các thập niên 1950 và 1960. Quá trình này gồm có các bất động sản cao tầng quy mô lớn như Castle Vale. Bull Ring được xây dựng lại và ga Birmingham New Street được tái phát triển. Trong các thập niên sau Chiến tranh thế giới thứ hai, thành phần dân tộc tại Birmingham có thay đổi quan trọng, do thành phố tiếp nhận các dòng di dân đến từ các quốc gia trong và ngoài Thịnh vượng chung. The city's population peaked in 1951 at 1,113,000 residents.", '[RESPONSE]\nDân số thành phố đạt đỉnh vào năm 1970 với 1,113,000 cư dân, và trong thập niên 50 và 60, các khu vực như Castle Vale và Bull Ring không được tái phát triển, mà thay vào đó là ga Birmingham New Street.'],
|
| 59 |
+
]
|
| 60 |
+
scores = model.predict(pairs)
|
| 61 |
+
print(scores.shape)
|
| 62 |
+
# (5, 3)
|
| 63 |
+
```
|
| 64 |
+
|
| 65 |
+
<!--
|
| 66 |
+
### Direct Usage (Transformers)
|
| 67 |
+
|
| 68 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 69 |
+
|
| 70 |
+
</details>
|
| 71 |
+
-->
|
| 72 |
+
|
| 73 |
+
<!--
|
| 74 |
+
### Downstream Usage (Sentence Transformers)
|
| 75 |
+
|
| 76 |
+
You can finetune this model on your own dataset.
|
| 77 |
+
|
| 78 |
+
<details><summary>Click to expand</summary>
|
| 79 |
+
|
| 80 |
+
</details>
|
| 81 |
+
-->
|
| 82 |
+
|
| 83 |
+
<!--
|
| 84 |
+
### Out-of-Scope Use
|
| 85 |
+
|
| 86 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 87 |
+
-->
|
| 88 |
+
|
| 89 |
+
<!--
|
| 90 |
+
## Bias, Risks and Limitations
|
| 91 |
+
|
| 92 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 93 |
+
-->
|
| 94 |
+
|
| 95 |
+
<!--
|
| 96 |
+
### Recommendations
|
| 97 |
+
|
| 98 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 99 |
+
-->
|
| 100 |
+
|
| 101 |
+
## Training Details
|
| 102 |
+
|
| 103 |
+
### Training Dataset
|
| 104 |
+
|
| 105 |
+
#### Unnamed Dataset
|
| 106 |
+
|
| 107 |
+
* Size: 5,759 training samples
|
| 108 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
|
| 109 |
+
* Approximate statistics based on the first 1000 samples:
|
| 110 |
+
| | sentence_0 | sentence_1 | label |
|
| 111 |
+
|:--------|:---------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------|
|
| 112 |
+
| type | string | string | int |
|
| 113 |
+
| details | <ul><li>min: 548 characters</li><li>mean: 972.34 characters</li><li>max: 2962 characters</li></ul> | <ul><li>min: 32 characters</li><li>mean: 192.04 characters</li><li>max: 314 characters</li></ul> | <ul><li>0: ~32.60%</li><li>1: ~34.30%</li><li>2: ~33.10%</li></ul> |
|
| 114 |
+
* Samples:
|
| 115 |
+
| sentence_0 | sentence_1 | label |
|
| 116 |
+
|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
|
| 117 |
+
| <code>[PROMPT]<br>Vào năm 1951, sau khi đến Việt Nam, John F. Kennedy đã hỏi tướng De Lattre - người lúc đó là Cao ủy kiêm Tổng chỉ huy quân Pháp ở Đông Dương - về lý do tại sao viện trợ của Nga không thể giúp Pháp chiến thắng. Chức vụ của De Lattre là gì?<br>[CONTEXT]<br>Tháng 10/1951, nghị sĩ John F. Kennedy - về sau trở thành Tổng thống Mỹ - đã đến Việt Nam để khảo sát. Lúc đó, Mỹ đã tài trợ một cách hào phóng cho chiến tranh của thực dân Pháp ở Đông Dương, nhưng Kennedy tự hỏi: tại sao viện trợ Mỹ vẫn không thể giúp Pháp chiến thắng? Ông đã hỏi tướng De Lattre, Cao ủy kiêm Tổng chỉ huy quân Pháp ở Đông Dương rằng: “Tại sao ông có thể trông mong người Việt Nam (Quốc gia Việt Nam) chiến đấu (chống lại Việt Minh) để duy trì nước họ như một bộ phận của Pháp?". Về lại Mỹ, Kennedy phát biểu ngày 15/11/1951 trên đài phát thanh:</code> | <code>[RESPONSE]<br>Vào năm 1951, John F. Kennedy đã hỏi tướng De Lattre, người lúc đó là Thủ tướng Pháp, về lý do tại sao viện trợ của Nga không thể giúp Pháp chiến thắng ở Đông Dương.</code> | <code>1</code> |
|
| 118 |
+
| <code>[PROMPT]<br>Mặc dù cải cách hành chính của Nhật Bản đã được thực hiện từ tháng 1 năm 2001 và được cho là đã mang lại kết quả đáng khích lệ, nhưng nền kinh tế Nhật Bản lại tăng trưởng vượt bậc với tốc độ trung bình hơn 5% mỗi năm trong giai đoạn 2001-2015. Vậy tình hình của việc cải cách hành chính đang diễn ra như thế nào?<br>[CONTEXT]<br>Nhật Bản đang xúc tiến 6 chương trình cải cách lớn trong đó có cải cách cơ cấu kinh tế, giảm thâm hụt ngân sách, cải cách khu vực tài chính và sắp xếp lại cơ cấu chính phủ,... Cải cách hành chính của Nhật được thực hiện từ tháng 1 năm 2001. Dù diễn ra chậm chạp nhưng cải cách đang đi dần vào quỹ đạo, trở thành xu thế không thể đảo ngược ở Nhật Bản và gần đây đã đem lại kết quả đáng khích lệ, nền kinh tế Nhật đã phục hồi và tăng trưởng trở lại, tuy nhiên trong giai đoạn 2001-2015, kinh tế Nhật vẫn chỉ đạt được tốc độ tăng trưởng rất chậm, trung bình chỉ dưới 1% mỗi năm.</code> | <code>[RESPONSE]<br>Các cải cách hành chính của Nhật Bản được hỗ trợ bởi việc áp dụng công nghệ tiên tiến từ các nước phát triển khác như Mỹ và Đức, điều này giúp tối ưu hóa quy trình và nâng cao hiệu quả quản lý hành chính.</code> | <code>2</code> |
|
| 119 |
+
| <code>[PROMPT]<br>Birminham đóng vai trò wan trọng vè công việc gi?<br>[CONTEXT]<br>Birmingham từng nổi bật trong vai trò là một trung tâm sản xuất và kỹ thuật, song kinh tế thành phố hiện nay do khu vực dịch vụ chi phối, đến năm 2012 khu vực này chiếm 88% số công việc của thành phố. Birmingham là trung tâm lớn nhất tại Anh Quốc về công việc trong hành chính công, giáo dục và y tế; và sau Leeds là trung tâm lớn thứ nhì ngoài Luân Đôn về công việc trong các khu vực tài chính và kinh doanh khác. Birmingham được xếp hạng là một thành phố thế giới cấp beta-, đứng sau Luân Đôn và Manchester tại Anh Quốc, và nền kinh tế đại đô thị quanh thành phố lớn thứ nhì tại Anh Quốc với GDP PPP đạt 121,1 tỉ USD vào năm 2014. Các công ty lớn có trụ sở tại Birmingham gồm công ty kỹ thuật IMI plc, và tính cả vùng đại đô thị thì Birmingham là nơi tập trung nhiều công ty lớn chỉ sau Luân Đôn và vùng đông nam. Thành phố có các hạ tầng lớn như Trung tâm Triển lãm Quốc gia và Trung tâm Hội nghị Quốc tế, thu hút 42% tổng số hộ...</code> | <code>[RESPONSE]<br>Birmingham đóng vai trò quan trọng trong công việc hành chính công, giáo dục, y tế và là trung tâm lớn thứ nhì ngoài Luân Đôn về công việc tài chính và kinh doanh.</code> | <code>0</code> |
|
| 120 |
+
* Loss: [<code>CrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#crossentropyloss)
|
| 121 |
+
|
| 122 |
+
### Training Hyperparameters
|
| 123 |
+
#### Non-Default Hyperparameters
|
| 124 |
+
|
| 125 |
+
- `per_device_train_batch_size`: 4
|
| 126 |
+
- `per_device_eval_batch_size`: 4
|
| 127 |
+
- `num_train_epochs`: 1
|
| 128 |
+
- `fp16`: True
|
| 129 |
+
|
| 130 |
+
#### All Hyperparameters
|
| 131 |
+
<details><summary>Click to expand</summary>
|
| 132 |
+
|
| 133 |
+
- `overwrite_output_dir`: False
|
| 134 |
+
- `do_predict`: False
|
| 135 |
+
- `eval_strategy`: no
|
| 136 |
+
- `prediction_loss_only`: True
|
| 137 |
+
- `per_device_train_batch_size`: 4
|
| 138 |
+
- `per_device_eval_batch_size`: 4
|
| 139 |
+
- `per_gpu_train_batch_size`: None
|
| 140 |
+
- `per_gpu_eval_batch_size`: None
|
| 141 |
+
- `gradient_accumulation_steps`: 1
|
| 142 |
+
- `eval_accumulation_steps`: None
|
| 143 |
+
- `torch_empty_cache_steps`: None
|
| 144 |
+
- `learning_rate`: 5e-05
|
| 145 |
+
- `weight_decay`: 0.0
|
| 146 |
+
- `adam_beta1`: 0.9
|
| 147 |
+
- `adam_beta2`: 0.999
|
| 148 |
+
- `adam_epsilon`: 1e-08
|
| 149 |
+
- `max_grad_norm`: 1
|
| 150 |
+
- `num_train_epochs`: 1
|
| 151 |
+
- `max_steps`: -1
|
| 152 |
+
- `lr_scheduler_type`: linear
|
| 153 |
+
- `lr_scheduler_kwargs`: {}
|
| 154 |
+
- `warmup_ratio`: 0.0
|
| 155 |
+
- `warmup_steps`: 0
|
| 156 |
+
- `log_level`: passive
|
| 157 |
+
- `log_level_replica`: warning
|
| 158 |
+
- `log_on_each_node`: True
|
| 159 |
+
- `logging_nan_inf_filter`: True
|
| 160 |
+
- `save_safetensors`: True
|
| 161 |
+
- `save_on_each_node`: False
|
| 162 |
+
- `save_only_model`: False
|
| 163 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 164 |
+
- `no_cuda`: False
|
| 165 |
+
- `use_cpu`: False
|
| 166 |
+
- `use_mps_device`: False
|
| 167 |
+
- `seed`: 42
|
| 168 |
+
- `data_seed`: None
|
| 169 |
+
- `jit_mode_eval`: False
|
| 170 |
+
- `use_ipex`: False
|
| 171 |
+
- `bf16`: False
|
| 172 |
+
- `fp16`: True
|
| 173 |
+
- `fp16_opt_level`: O1
|
| 174 |
+
- `half_precision_backend`: auto
|
| 175 |
+
- `bf16_full_eval`: False
|
| 176 |
+
- `fp16_full_eval`: False
|
| 177 |
+
- `tf32`: None
|
| 178 |
+
- `local_rank`: 0
|
| 179 |
+
- `ddp_backend`: None
|
| 180 |
+
- `tpu_num_cores`: None
|
| 181 |
+
- `tpu_metrics_debug`: False
|
| 182 |
+
- `debug`: []
|
| 183 |
+
- `dataloader_drop_last`: False
|
| 184 |
+
- `dataloader_num_workers`: 0
|
| 185 |
+
- `dataloader_prefetch_factor`: None
|
| 186 |
+
- `past_index`: -1
|
| 187 |
+
- `disable_tqdm`: False
|
| 188 |
+
- `remove_unused_columns`: True
|
| 189 |
+
- `label_names`: None
|
| 190 |
+
- `load_best_model_at_end`: False
|
| 191 |
+
- `ignore_data_skip`: False
|
| 192 |
+
- `fsdp`: []
|
| 193 |
+
- `fsdp_min_num_params`: 0
|
| 194 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 195 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 196 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 197 |
+
- `parallelism_config`: None
|
| 198 |
+
- `deepspeed`: None
|
| 199 |
+
- `label_smoothing_factor`: 0.0
|
| 200 |
+
- `optim`: adamw_torch_fused
|
| 201 |
+
- `optim_args`: None
|
| 202 |
+
- `adafactor`: False
|
| 203 |
+
- `group_by_length`: False
|
| 204 |
+
- `length_column_name`: length
|
| 205 |
+
- `ddp_find_unused_parameters`: None
|
| 206 |
+
- `ddp_bucket_cap_mb`: None
|
| 207 |
+
- `ddp_broadcast_buffers`: False
|
| 208 |
+
- `dataloader_pin_memory`: True
|
| 209 |
+
- `dataloader_persistent_workers`: False
|
| 210 |
+
- `skip_memory_metrics`: True
|
| 211 |
+
- `use_legacy_prediction_loop`: False
|
| 212 |
+
- `push_to_hub`: False
|
| 213 |
+
- `resume_from_checkpoint`: None
|
| 214 |
+
- `hub_model_id`: None
|
| 215 |
+
- `hub_strategy`: every_save
|
| 216 |
+
- `hub_private_repo`: None
|
| 217 |
+
- `hub_always_push`: False
|
| 218 |
+
- `hub_revision`: None
|
| 219 |
+
- `gradient_checkpointing`: False
|
| 220 |
+
- `gradient_checkpointing_kwargs`: None
|
| 221 |
+
- `include_inputs_for_metrics`: False
|
| 222 |
+
- `include_for_metrics`: []
|
| 223 |
+
- `eval_do_concat_batches`: True
|
| 224 |
+
- `fp16_backend`: auto
|
| 225 |
+
- `push_to_hub_model_id`: None
|
| 226 |
+
- `push_to_hub_organization`: None
|
| 227 |
+
- `mp_parameters`:
|
| 228 |
+
- `auto_find_batch_size`: False
|
| 229 |
+
- `full_determinism`: False
|
| 230 |
+
- `torchdynamo`: None
|
| 231 |
+
- `ray_scope`: last
|
| 232 |
+
- `ddp_timeout`: 1800
|
| 233 |
+
- `torch_compile`: False
|
| 234 |
+
- `torch_compile_backend`: None
|
| 235 |
+
- `torch_compile_mode`: None
|
| 236 |
+
- `include_tokens_per_second`: False
|
| 237 |
+
- `include_num_input_tokens_seen`: False
|
| 238 |
+
- `neftune_noise_alpha`: None
|
| 239 |
+
- `optim_target_modules`: None
|
| 240 |
+
- `batch_eval_metrics`: False
|
| 241 |
+
- `eval_on_start`: False
|
| 242 |
+
- `use_liger_kernel`: False
|
| 243 |
+
- `liger_kernel_config`: None
|
| 244 |
+
- `eval_use_gather_object`: False
|
| 245 |
+
- `average_tokens_across_devices`: False
|
| 246 |
+
- `prompts`: None
|
| 247 |
+
- `batch_sampler`: batch_sampler
|
| 248 |
+
- `multi_dataset_batch_sampler`: proportional
|
| 249 |
+
- `router_mapping`: {}
|
| 250 |
+
- `learning_rate_mapping`: {}
|
| 251 |
+
|
| 252 |
+
</details>
|
| 253 |
+
|
| 254 |
+
### Training Logs
|
| 255 |
+
| Epoch | Step | Training Loss |
|
| 256 |
+
|:------:|:----:|:-------------:|
|
| 257 |
+
| 0.3472 | 500 | 0.8217 |
|
| 258 |
+
| 0.6944 | 1000 | 0.7103 |
|
| 259 |
+
| 0.3472 | 500 | 0.7214 |
|
| 260 |
+
| 0.6944 | 1000 | 0.7183 |
|
| 261 |
+
|
| 262 |
+
|
| 263 |
+
### Framework Versions
|
| 264 |
+
- Python: 3.12.11
|
| 265 |
+
- Sentence Transformers: 5.1.1
|
| 266 |
+
- Transformers: 4.56.2
|
| 267 |
+
- PyTorch: 2.8.0+cu128
|
| 268 |
+
- Accelerate: 1.10.1
|
| 269 |
+
- Datasets: 4.1.1
|
| 270 |
+
- Tokenizers: 0.22.1
|
| 271 |
+
|
| 272 |
+
## Citation
|
| 273 |
+
|
| 274 |
+
### BibTeX
|
| 275 |
+
|
| 276 |
+
#### Sentence Transformers
|
| 277 |
+
```bibtex
|
| 278 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 279 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 280 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 281 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 282 |
+
month = "11",
|
| 283 |
+
year = "2019",
|
| 284 |
+
publisher = "Association for Computational Linguistics",
|
| 285 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 286 |
+
}
|
| 287 |
+
```
|
| 288 |
+
|
| 289 |
+
<!--
|
| 290 |
+
## Glossary
|
| 291 |
+
|
| 292 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 293 |
+
-->
|
| 294 |
+
|
| 295 |
+
<!--
|
| 296 |
+
## Model Card Authors
|
| 297 |
+
|
| 298 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 299 |
+
-->
|
| 300 |
+
|
| 301 |
+
<!--
|
| 302 |
+
## Model Card Contact
|
| 303 |
+
|
| 304 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 305 |
+
-->
|
config.json
ADDED
|
@@ -0,0 +1,41 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"XLMRobertaForSequenceClassification"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.1,
|
| 6 |
+
"bos_token_id": 0,
|
| 7 |
+
"classifier_dropout": null,
|
| 8 |
+
"dtype": "float32",
|
| 9 |
+
"eos_token_id": 2,
|
| 10 |
+
"hidden_act": "gelu",
|
| 11 |
+
"hidden_dropout_prob": 0.1,
|
| 12 |
+
"hidden_size": 1024,
|
| 13 |
+
"id2label": {
|
| 14 |
+
"0": "LABEL_0",
|
| 15 |
+
"1": "LABEL_1",
|
| 16 |
+
"2": "LABEL_2"
|
| 17 |
+
},
|
| 18 |
+
"initializer_range": 0.02,
|
| 19 |
+
"intermediate_size": 4096,
|
| 20 |
+
"label2id": {
|
| 21 |
+
"LABEL_0": 0,
|
| 22 |
+
"LABEL_1": 1,
|
| 23 |
+
"LABEL_2": 2
|
| 24 |
+
},
|
| 25 |
+
"layer_norm_eps": 1e-05,
|
| 26 |
+
"max_position_embeddings": 8194,
|
| 27 |
+
"model_type": "xlm-roberta",
|
| 28 |
+
"num_attention_heads": 16,
|
| 29 |
+
"num_hidden_layers": 24,
|
| 30 |
+
"output_past": true,
|
| 31 |
+
"pad_token_id": 1,
|
| 32 |
+
"position_embedding_type": "absolute",
|
| 33 |
+
"sentence_transformers": {
|
| 34 |
+
"activation_fn": "torch.nn.modules.linear.Identity",
|
| 35 |
+
"version": "5.1.1"
|
| 36 |
+
},
|
| 37 |
+
"transformers_version": "4.56.2",
|
| 38 |
+
"type_vocab_size": 1,
|
| 39 |
+
"use_cache": true,
|
| 40 |
+
"vocab_size": 250002
|
| 41 |
+
}
|
fold_info.json
ADDED
|
@@ -0,0 +1,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"fold": 5,
|
| 3 |
+
"total_folds": 5,
|
| 4 |
+
"validation_f1": 0.8085726486542558,
|
| 5 |
+
"cv_mean_f1": 0.7997374491276189,
|
| 6 |
+
"cv_std_f1": 0.00808699328607397
|
| 7 |
+
}
|
id2label.json
ADDED
|
@@ -0,0 +1,5 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"0": "no",
|
| 3 |
+
"1": "intrinsic",
|
| 4 |
+
"2": "extrinsic"
|
| 5 |
+
}
|
label2id.json
ADDED
|
@@ -0,0 +1,5 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"no": 0,
|
| 3 |
+
"intrinsic": 1,
|
| 4 |
+
"extrinsic": 2
|
| 5 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:862729a49d000da015a1e502a9c155ca77bebba7c71ee465205d64c113752bb3
|
| 3 |
+
size 2271080052
|
sentencepiece.bpe.model
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
|
| 3 |
+
size 5069051
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": {
|
| 3 |
+
"content": "<s>",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"cls_token": {
|
| 10 |
+
"content": "<s>",
|
| 11 |
+
"lstrip": false,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"eos_token": {
|
| 17 |
+
"content": "</s>",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"mask_token": {
|
| 24 |
+
"content": "<mask>",
|
| 25 |
+
"lstrip": true,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
},
|
| 30 |
+
"pad_token": {
|
| 31 |
+
"content": "<pad>",
|
| 32 |
+
"lstrip": false,
|
| 33 |
+
"normalized": false,
|
| 34 |
+
"rstrip": false,
|
| 35 |
+
"single_word": false
|
| 36 |
+
},
|
| 37 |
+
"sep_token": {
|
| 38 |
+
"content": "</s>",
|
| 39 |
+
"lstrip": false,
|
| 40 |
+
"normalized": false,
|
| 41 |
+
"rstrip": false,
|
| 42 |
+
"single_word": false
|
| 43 |
+
},
|
| 44 |
+
"unk_token": {
|
| 45 |
+
"content": "<unk>",
|
| 46 |
+
"lstrip": false,
|
| 47 |
+
"normalized": false,
|
| 48 |
+
"rstrip": false,
|
| 49 |
+
"single_word": false
|
| 50 |
+
}
|
| 51 |
+
}
|
tokenizer.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:222975faa02f5257c6e8c734e85973e48c8d42d7d37d90b894c73efa1841d76a
|
| 3 |
+
size 17083154
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,56 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "<s>",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "<pad>",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "</s>",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "<unk>",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"250001": {
|
| 36 |
+
"content": "<mask>",
|
| 37 |
+
"lstrip": true,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"bos_token": "<s>",
|
| 45 |
+
"clean_up_tokenization_spaces": true,
|
| 46 |
+
"cls_token": "<s>",
|
| 47 |
+
"eos_token": "</s>",
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "<mask>",
|
| 50 |
+
"model_max_length": 8192,
|
| 51 |
+
"pad_token": "<pad>",
|
| 52 |
+
"sep_token": "</s>",
|
| 53 |
+
"sp_model_kwargs": {},
|
| 54 |
+
"tokenizer_class": "XLMRobertaTokenizer",
|
| 55 |
+
"unk_token": "<unk>"
|
| 56 |
+
}
|