CLLBJ16
/

CoMemo-2B

@@ -1,22 +1,21 @@
 ---
-license: mit
-pipeline_tag: image-text-to-text
-library_name: transformers
 base_model:
-  - OpenGVLab/InternViT-300M-448px
-  - internlm/internlm2-chat-1_8b
-base_model_relation: merge
 language:
-  - multilingual
 tags:
-  - internvl
-  - custom_code
 ---
 # CoMemo-2B
-[\[📂 GitHub\]](https://github.com/LALBJ/CoMemo) [\[📜 Paper\]](https://arxiv.org/pdf/2506.06279) [\[🚀 Quick Start\]](#quick-start)
 ## Introduction
@@ -145,13 +144,15 @@ pixel_values = pixel_values.to(torch.bfloat16).cuda()
 generation_config = dict(max_new_tokens=1024, do_sample=True)
 # single-image single-round conversation (单图单轮对话)
-question = '<image>\nPlease describe the image shortly.'
 target_aspect_ratio = [target_aspect_ratio]
 # Use RoPE-DHR
 response = model.chat(tokenizer, pixel_values, question, generation_config, target_aspect_ratio=target_aspect_ratio)
 # # Use Original Rope
 # response = model.chat(tokenizer, pixel_values, question, generation_config, target_aspect_ratio=target_aspect_ratio)
-print(f'User: {question}\nAssistant: {response}')
 # multi-image single-round conversation, separate images (多图多轮对话，独立图像)
 pixel_values1, target_aspect_ratio1 = load_image('./assets/image1.jpg', max_num=12)
@@ -162,14 +163,17 @@ pixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)
 target_aspect_ratio = [target_aspect_ratio1, target_aspect_ratio2]
 num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]
-question = 'Image-1: <image>\nImage-2: <image>\nWhat are the similarities and differences between these two images.'
 # Use RoPE-DHR
 response = model.chat(tokenizer, pixel_values, question, generation_config,
                                num_patches_list=num_patches_list, target_aspect_ratio=target_aspect_ratio)
 # # Use Original RoPE
 # response = model.chat(tokenizer, pixel_values, question, generation_config,
 #                                num_patches_list=num_patches_list, target_aspect_ratio=target_aspect_ratio)
-print(f'User: {question}\nAssistant: {response}')
 ```
 ## License

 ---
 base_model:
+- OpenGVLab/InternViT-300M-448px
+- internlm/internlm2-chat-1_8b
 language:
+- multilingual
+library_name: transformers
+license: mit
+pipeline_tag: image-text-to-text
 tags:
+- internvl
+- custom_code
+base_model_relation: merge
 ---
 # CoMemo-2B
+[\[📂 GitHub\]](https://github.com/LALBJ/CoMemo) [\[📜 Paper\]](https://arxiv.org/pdf/2506.06279) [\[🚀 Quick Start\]](#quick-start)  [\[🌐 Project Page\]](https://lalbj.github.io/projects/CoMemo/)
 ## Introduction
 generation_config = dict(max_new_tokens=1024, do_sample=True)
 # single-image single-round conversation (单图单轮对话)
+question = '<image>
+Please describe the image shortly.'
 target_aspect_ratio = [target_aspect_ratio]
 # Use RoPE-DHR
 response = model.chat(tokenizer, pixel_values, question, generation_config, target_aspect_ratio=target_aspect_ratio)
 # # Use Original Rope
 # response = model.chat(tokenizer, pixel_values, question, generation_config, target_aspect_ratio=target_aspect_ratio)
+print(f'User: {question}
+Assistant: {response}')
 # multi-image single-round conversation, separate images (多图多轮对话，独立图像)
 pixel_values1, target_aspect_ratio1 = load_image('./assets/image1.jpg', max_num=12)
 target_aspect_ratio = [target_aspect_ratio1, target_aspect_ratio2]
 num_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]
+question = 'Image-1: <image>
+Image-2: <image>
+What are the similarities and differences between these two images.'
 # Use RoPE-DHR
 response = model.chat(tokenizer, pixel_values, question, generation_config,
                                num_patches_list=num_patches_list, target_aspect_ratio=target_aspect_ratio)
 # # Use Original RoPE
 # response = model.chat(tokenizer, pixel_values, question, generation_config,
 #                                num_patches_list=num_patches_list, target_aspect_ratio=target_aspect_ratio)
+print(f'User: {question}
+Assistant: {response}')
 ```
 ## License