JiaxinGe
/

Diffusers-BAGEL

Model card Files Files and versions

para-lost commited on Jul 25

Commit

37b1444

·

1 Parent(s): b122ff8

chaneg name

Files changed (1) hide show

pipeline.py +4 -14

pipeline.py CHANGED Viewed

@@ -21,7 +21,7 @@ import random
 import cv2
 import numpy as np
 from torchvision import transforms
-from torchvision.transforms import functional as F
 from torchvision.transforms import InterpolationMode
 from dataclasses import dataclass
@@ -6059,18 +6059,8 @@ class MaxLongEdgeMinShortEdgeResize(torch.nn.Module):
         if max(new_width, new_height) > self.max_size:
             scale = self.max_size / max(new_width, new_height)
             new_width, new_height = self._apply_scale(new_width, new_height, scale)
-        # if img.dim() == 3:
-        #     img = img.unsqueeze(0)  # → [1,C,H,W]
-        resized = F.interpolate(
-            img,
-            size=(new_height, new_width),
-            mode=self.interpolation,     # e.g. "bilinear"
-            antialias=self.antialias,         # if you need anti‑aliasing
-        )
-        # resized = resized.squeeze(0)  # → [C,H,W]
-        return resized
-        # return F.resize(img, (new_height, new_width), self.interpolation, antialias=self.antialias)
 class ImageTransform:
@@ -6829,7 +6819,7 @@ class InterleaveInferencer:
         past_key_values = gen_context['past_key_values']
         kv_lens = gen_context['kv_lens']
         ropes = gen_context['ropes']
-        device = next(self.model.parameters()).device
         generation_input = self.model.prepare_start_tokens(kv_lens, ropes, self.new_token_ids)
         generation_input = self._to_device(generation_input, device)
         unpacked_latent = self.model.generate_text(

 import cv2
 import numpy as np
 from torchvision import transforms
+from torchvision.transforms import functional as TF
 from torchvision.transforms import InterpolationMode
 from dataclasses import dataclass
         if max(new_width, new_height) > self.max_size:
             scale = self.max_size / max(new_width, new_height)
             new_width, new_height = self._apply_scale(new_width, new_height, scale)
+        return TF.resize(img, (new_height, new_width), self.interpolation, antialias=self.antialias)
 class ImageTransform:
         past_key_values = gen_context['past_key_values']
         kv_lens = gen_context['kv_lens']
         ropes = gen_context['ropes']
         generation_input = self.model.prepare_start_tokens(kv_lens, ropes, self.new_token_ids)
         generation_input = self._to_device(generation_input, device)
         unpacked_latent = self.model.generate_text(