BAAI
/

Emu3-Chat

@@ -49,7 +49,7 @@ from processing_emu3 import Emu3Processor
 # model path
 EMU_HUB = "BAAI/Emu3-Chat"
-VQ_HUB = "BAAI/Emu3-VisionTokenizer"
 # prepare model and processor
 model = AutoModelForCausalLM.from_pretrained(
@@ -60,7 +60,7 @@ model = AutoModelForCausalLM.from_pretrained(
     trust_remote_code=True,
 )
-tokenizer = AutoTokenizer.from_pretrained(EMU_HUB, trust_remote_code=True)
 image_processor = AutoImageProcessor.from_pretrained(VQ_HUB, trust_remote_code=True)
 image_tokenizer = AutoModel.from_pretrained(VQ_HUB, device_map="cuda:0", trust_remote_code=True).eval()
 processor = Emu3Processor(image_processor, image_tokenizer, tokenizer)
@@ -73,19 +73,23 @@ inputs = processor(
     text=text,
     image=image,
     mode='U',
-    padding_side="left",
-    padding="longest",
     return_tensors="pt",
 )
 # prepare hyper parameters
-GENERATION_CONFIG = GenerationConfig(pad_token_id=tokenizer.pad_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id)
 # generate
 outputs = model.generate(
     inputs.input_ids.to("cuda:0"),
     GENERATION_CONFIG,
-    max_new_tokens=320,
 )
 outputs = outputs[:, inputs.input_ids.shape[-1]:]

 # model path
 EMU_HUB = "BAAI/Emu3-Chat"
+VQ_HUB = "BAAI/Emu3-VisionTokenier"
 # prepare model and processor
 model = AutoModelForCausalLM.from_pretrained(
     trust_remote_code=True,
 )
+tokenizer = AutoTokenizer.from_pretrained(EMU_HUB, trust_remote_code=True, padding_side="left")
 image_processor = AutoImageProcessor.from_pretrained(VQ_HUB, trust_remote_code=True)
 image_tokenizer = AutoModel.from_pretrained(VQ_HUB, device_map="cuda:0", trust_remote_code=True).eval()
 processor = Emu3Processor(image_processor, image_tokenizer, tokenizer)
     text=text,
     image=image,
     mode='U',
     return_tensors="pt",
+    padding="longest",
 )
 # prepare hyper parameters
+GENERATION_CONFIG = GenerationConfig(
+    pad_token_id=tokenizer.pad_token_id,
+    bos_token_id=tokenizer.bos_token_id,
+    eos_token_id=tokenizer.eos_token_id,
+    max_new_tokens=1024,
+)
 # generate
 outputs = model.generate(
     inputs.input_ids.to("cuda:0"),
     GENERATION_CONFIG,
+    attention_mask=pos_inputs.attention_mask.to("cuda:0"),
 )
 outputs = outputs[:, inputs.input_ids.shape[-1]:]