xuan-luo
/

DiffSkip-Llama-3-8B-Instruct

Text Generation

Model card Files Files and versions

xuan-luo commited on May 30

Commit

5331fff

·

verified ·

1 Parent(s): f63473a

Update modeling_ddllama.py

Files changed (1) hide show

modeling_ddllama.py +0 -4

modeling_ddllama.py CHANGED Viewed

@@ -1225,10 +1225,6 @@ class DDLlamaForCausalLM(DDLlamaPreTrainedModel, GenerationMixin):
             router_masks = [mask.to(hidden_states.device) for mask in router_masks]
             router_masks = torch.stack(router_masks, dim=-1).float()
-            n_layers = torch.sum(router_masks, dim=1).squeeze(dim=0)
-            n_layers_list = n_layers.cpu().tolist()
-            print(n_layers_list, end='')
             if self.training and labels is not None:
                 router_weights *= router_masks
                 shift_router_weights = router_weights[:, :-1, :].contiguous()

             router_masks = [mask.to(hidden_states.device) for mask in router_masks]
             router_masks = torch.stack(router_masks, dim=-1).float()
             if self.training and labels is not None:
                 router_weights *= router_masks
                 shift_router_weights = router_weights[:, :-1, :].contiguous()