broken quantization?
Just for your information, i think something went wrong in this quantization. I tried a german to english example which worked fine, but when trying to translate to chinese or japanese, it seems to output nonsense. This seems to only affect the AWQ-Int4 version, GPTQ-Int8 seems to work ok i think.
(and yes i am using vllm==0.8.0, transformers==4.51.3)
Examples:
Input:
Translate the following German sentence into English:\n <div data-sara-click-el="body\_element" data-area="text" data-pos="2"><div class="RichText lg:w-8/12 md:w-10/12 lg:mx-auto md:mx-auto lg:px-24 md:px-24 sm:px-16 break-words word-wrap">
<p data-forward-id="tyygncc9vi">Die Zahl afghanischer Frauen, die in Deutschland Asyl beantragen, ist sprunghaft gestiegen. Das geht aus Statistiken des <a href="https://www.spiegel.de/thema/bamf/" data-link-flag="spon">Bundesamts fรผr Migration und Flรผchtlinge (Bamf)</a> hervor. Demnach haben im Juli 3104 Afghaninnen einen Asylantrag gestellt, mehr als doppelt so viele wie im Vormonat. Im gesamten Jahr waren es bisher 9593 Antrรคge, darunter rund 4500 sogenannte Folgeantrรคge von Menschen, die schon lรคnger hier leben.</p>
</div></div> <en>
Output:
The number of Afghan women applying for asylum in Germany has skyrocketed. This is revealed by statistics from the <a href=\"https://www.spiegel.de/thema/bamf/\" data-link-flag=\"spon\">Federal Office for Migration and Refugees (Bamf)>. According to this, in July, 3,104 Afghan women applied for asylum, more than twice as many as in the previous month. So far this year, there have been 9,593 applications, including around 4,500 so-called follow-up applications from people who have been living here for longer.</p>
Input:
Translate the following German sentence into Chinese:\n <div data-sara-click-el
="body\_element" data-area="text" data-pos="2"><div class="RichText lg:w-8/12 md:w-10/12 lg:mx-auto md:mx-auto lg:px-24 md:px-24 sm:px-16 break-words word-wrap">
<p data-forward-id="tyygncc9vi">Die Zahl afghanischer Frauen, die in Deutschland Asyl beantragen, ist sprunghaft gestiegen. Das geht aus Statistiken des <a href="https://www.spiegel.de/thema/bamf/" data-link-flag="spon">Bu
ndesamts fรผr Migration und Flรผchtlinge (Bamf)</a> hervor. Demnach haben im Juli 3104 Afghaninnen einen Asylantrag gestellt, mehr als doppelt so viele wie im Vormonat. Im gesamten Jahr waren es bisher 9593 Antrรคge, darunter
rund 4500 sogenannte Folgeantrรคge von Menschen, die schon lรคnger hier leben.</p>
</div></div> <zh>
Output:
ๅพทๅฝ่้ฆ ่้ฆ ่้ฆ ่้ฆ - ๅจๅพทๅฝ็ณ่ฏทๅบ - ่้ฆ - ่้ฆ ็ณ่ฏทๅบ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่ - ๅ - ๅนถ - ่
Input:
Translate the following German sentence into Japanese:\n <div data-sara-click-e
l="body\_element" data-area="text" data-pos="2"><div class="RichText lg:w-8/12 md:w-10/12 lg:mx-auto md:mx-auto lg:px-24 md:px-24 sm:px-16 break-words word-wrap">
<p data-forward-id="tyygncc9vi">Die Zahl afghanischer Frauen, die in Deutschland Asyl beantragen, ist sprunghaft gestiegen. Das geht aus Statistiken des <a href="https://www.spiegel.de/thema/bamf/" data-link-flag="spon">Bu
ndesamts fรผr Migration und Flรผchtlinge (Bamf)</a> hervor. Demnach haben im Juli 3104 Afghaninnen einen Asylantrag gestellt, mehr als doppelt so viele wie im Vormonat. Im gesamten Jahr waren es bisher 9593 Antrรคge, darunter
rund 4500 sogenannte Folgeantrรคge von Menschen, die schon lรคnger hier leben.</p>
</div></div> <ja>
Output:
ใใคใใฎ็ตฑ่จ ใใค ใขใ ใใค ใขใ ใใค ใใค ใใค ใใค ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ ใ
@KT313 Thank you for your feedback. There might be two reasons for this situation. Firstly, the performance of the int4 quantized model is not as good as that of the int8 and non-quantized versions. We can also see that the performance of the quantized model is slightly weaker when we test the automatic indicators. Secondly, your input contains many HTML tokens. We recommend removing these easily confused tokens.
I test this case in the space and the results are fine.
AWQ INT4 performance is terrible.
FP16 version:
['
ๅจๅพทๅฝ็ณ่ฏทๅบๆค็้ฟๅฏๆฑๅฅณๆงๆฐ้ๆฅๅงๅขๅ ใ่ฟไธๆฐๆฎๆฅ่ช่้ฆ็งปๆฐๅ้พๆฐๅฑ๏ผBamf๏ผ็็ป่ฎกๆฐๆฎใๆฐๆฎๆพ็คบ๏ผ7ๆไปฝๆ3104ๅ้ฟๅฏๆฑๅฅณๆง็ณ่ฏทๅบๆค๏ผๆฏๅไธไธชๆๅขๅ ไบไธๅๅคใไปๅนดไปฅๆฅ๏ผ็ณ่ฏทๅบๆค็้ฟๅฏๆฑๅฅณๆงๆปๆฐไธบ9593ไบบ๏ผๅ ถไธญๅ ๆฌ็บฆ4500ๅๅทฒๅจๅพทๅฝ็ๆดป่พไน ็ไบบ็ๆ่ฐๅ็ปญ็ณ่ฏทใ
\n\nINT4 version:
['ๅพทๅฝ่้ฆ ่้ฆ ่้ฆ ่้ฆ - ๅจๅพทๅฝ็ณ่ฏทๅบ - ่้ฆ - ่้ฆ ็้ฟๅฏๆฑๅฆๅฅณ, - ่้ฆ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ - ่ -']
This model's performance is not efficient with Document-level
