Spaces:

amsterdamNLP
/

attention-rollout

Running

Martijn van Beers commited on Sep 22, 2022

Commit

decf1d6

•

1 Parent(s): 86d2882

Always explain based on the positive class for IG

With integrated Gradients, always use the positive class
as the target, so that the visualization always shows
green for words that contribute to a positive prediction
and red for words that contribute to a negative prediction

Files changed (1) hide show

lib/integrated_gradients.py +3 -3

lib/integrated_gradients.py CHANGED Viewed

@@ -35,8 +35,8 @@ class IntegratedGradientsExplainer:
     def run_attribution_model(self, input_ids, attention_mask, index=None, layer=None, steps=20):
         try:
             output = self.model(input_ids=input_ids, attention_mask=attention_mask)[0]
-            if index is None:
-                index = output.argmax(axis=-1).item()
             ablator = LayerIntegratedGradients(self.custom_forward, layer)
             input_tensor = input_ids
@@ -45,7 +45,7 @@ class IntegratedGradientsExplainer:
                     inputs=input_ids,
                     baselines=self.ref_token_id,
                     additional_forward_args=(attention_mask),
-                    target=index,
                     n_steps=steps,
             )
             return self.summarize_attributions(attributions).unsqueeze_(0), output, index

     def run_attribution_model(self, input_ids, attention_mask, index=None, layer=None, steps=20):
         try:
             output = self.model(input_ids=input_ids, attention_mask=attention_mask)[0]
+#            if index is None:
+#                index = output.argmax(axis=-1).item()
             ablator = LayerIntegratedGradients(self.custom_forward, layer)
             input_tensor = input_ids
                     inputs=input_ids,
                     baselines=self.ref_token_id,
                     additional_forward_args=(attention_mask),
+                    target=1,
                     n_steps=steps,
             )
             return self.summarize_attributions(attributions).unsqueeze_(0), output, index