Crystalcareai
/

Quiet-Mistral

Text Generation

Model card Files Files and versions Community

Crystalcareai commited on Mar 26

Commit

90a26fc

•

1 Parent(s): 331e42c

Update modeling_quiet.py

Files changed (1) hide show

modeling_quiet.py +2 -4

modeling_quiet.py CHANGED Viewed

@@ -688,15 +688,13 @@ class QuietSdpaAttention(QuietAttention):
             value_states = value_states.contiguous()
         attn_output = torch.nn.functional.scaled_dot_product_attention(
-            query_states,
-            key_states,
-            value_states,
             attn_mask=attention_mask,
             dropout_p=self.attention_dropout if self.training else 0.0,
-            # The q_len > 1 is necessary to match with AttentionMaskConverter.to_causal_4d that does not create a causal mask in case q_len == 1.
             is_causal=self.is_causal and attention_mask is None and q_len > 1,
         )
         attn_output = attn_output.transpose(1, 2).contiguous()
         attn_output = attn_output.view(bsz, q_len, self.hidden_size)

             value_states = value_states.contiguous()
         attn_output = torch.nn.functional.scaled_dot_product_attention(
+            query_states, key_states, value_states,
             attn_mask=attention_mask,
             dropout_p=self.attention_dropout if self.training else 0.0,
             is_causal=self.is_causal and attention_mask is None and q_len > 1,
         )
         attn_output = attn_output.transpose(1, 2).contiguous()
         attn_output = attn_output.view(bsz, q_len, self.hidden_size)