2020SC04581_Demo_Contract_Understanding_Using_NLP

Sleeping

App Files Files Community

gauravthere

akdeniz27 commited on Jan 26, 2023

Commit

519a08a

•

0 Parent(s):

Duplicate from akdeniz27/contract-understanding-atticus-dataset-demo

Browse files

Co-authored-by: Taner Akdeniz <akdeniz27@users.noreply.huggingface.co>

Files changed (6) hide show

.gitattributes +27 -0
README.md +38 -0
app.py +78 -0
predict.py +113 -0
requirements.txt +4 -0
test.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,27 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,38 @@

+---
+title: Contract Understanding Atticus Dataset (CUAD) Demo
+emoji: 💻
+colorFrom: red
+colorTo: purple
+sdk: streamlit
+app_file: app.py
+pinned: false
+duplicated_from: akdeniz27/contract-understanding-atticus-dataset-demo
+---
+# Configuration
+`title`: _string_
+Display title for the Space
+`emoji`: _string_
+Space emoji (emoji-only character allowed)
+`colorFrom`: _string_
+Color for Thumbnail gradient (red, yellow, green, blue, indigo, purple, pink, gray)
+`colorTo`: _string_
+Color for Thumbnail gradient (red, yellow, green, blue, indigo, purple, pink, gray)
+`sdk`: _string_
+Can be either `gradio` or `streamlit`
+`sdk_version` : _string_
+Only applicable for `streamlit` SDK.
+See [doc](https://hf.co/docs/hub/spaces) for more info on supported versions.
+`app_file`: _string_
+Path to your main application file (which contains either `gradio` or `streamlit` Python code).
+Path is relative to the root of the repository.
+`pinned`: _boolean_
+Whether the Space stays on top of your list.

app.py ADDED Viewed

	@@ -0,0 +1,78 @@

+from transformers import AutoModelForQuestionAnswering, AutoTokenizer
+import streamlit as st
+import json
+from predict import run_prediction
+st.set_page_config(layout="wide")
+model_list = ['akdeniz27/roberta-base-cuad',
+			  'akdeniz27/roberta-large-cuad',
+			  'akdeniz27/deberta-v2-xlarge-cuad']
+st.sidebar.header("Select CUAD Model")
+model_checkpoint = st.sidebar.radio("", model_list)
+if model_checkpoint == "akdeniz27/deberta-v2-xlarge-cuad": import sentencepiece
+st.sidebar.write("Project: https://www.atticusprojectai.org/cuad")
+st.sidebar.write("Git Hub: https://github.com/TheAtticusProject/cuad")
+st.sidebar.write("CUAD Dataset: https://huggingface.co/datasets/cuad")
+st.sidebar.write("License: CC BY 4.0 https://creativecommons.org/licenses/by/4.0/")
+@st.cache(allow_output_mutation=True)
+def load_model():
+    model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)
+    tokenizer = AutoTokenizer.from_pretrained(model_checkpoint , use_fast=False)
+    return model, tokenizer
+@st.cache(allow_output_mutation=True)
+def load_questions():
+	with open('test.json') as json_file:
+		data = json.load(json_file)
+	questions = []
+	for i, q in enumerate(data['data'][0]['paragraphs'][0]['qas']):
+		question = data['data'][0]['paragraphs'][0]['qas'][i]['question']
+		questions.append(question)
+	return questions
+@st.cache(allow_output_mutation=True)
+def load_contracts():
+	with open('test.json') as json_file:
+		data = json.load(json_file)
+	contracts = []
+	for i, q in enumerate(data['data']):
+		contract = ' '.join(data['data'][i]['paragraphs'][0]['context'].split())
+		contracts.append(contract)
+	return contracts
+model, tokenizer = load_model()
+questions = load_questions()
+contracts = load_contracts()
+contract = contracts[0]
+st.header("Contract Understanding Atticus Dataset (CUAD) Demo")
+st.write("Based on https://github.com/marshmellow77/cuad-demo")
+selected_question = st.selectbox('Choose one of the 41 queries from the CUAD dataset:', questions)
+question_set = [questions[0], selected_question]
+contract_type = st.radio("Select Contract", ("Sample Contract", "New Contract"))
+if contract_type == "Sample Contract":
+	sample_contract_num = st.slider("Select Sample Contract #")
+	contract = contracts[sample_contract_num]
+	with st.expander(f"Sample Contract #{sample_contract_num}"):
+		st.write(contract)
+else:
+	contract = st.text_area("Input New Contract", "", height=256)
+Run_Button = st.button("Run", key=None)
+if Run_Button == True and not len(contract)==0 and not len(question_set)==0:
+	predictions = run_prediction(question_set, contract, 'akdeniz27/roberta-base-cuad')
+	for i, p in enumerate(predictions):
+		if i != 0: st.write(f"Question: {question_set[int(p)]}\n\nAnswer: {predictions[p]}\n\n")

predict.py ADDED Viewed

	@@ -0,0 +1,113 @@

+import torch
+import time
+from torch.utils.data import DataLoader, RandomSampler, SequentialSampler
+from transformers import (
+    AutoConfig,
+    AutoModelForQuestionAnswering,
+    AutoTokenizer,
+    squad_convert_examples_to_features
+)
+from transformers.data.processors.squad import SquadResult, SquadV2Processor, SquadExample
+from transformers.data.metrics.squad_metrics import compute_predictions_logits
+def run_prediction(question_texts, context_text, model_path):
+    ### Setting hyperparameters
+    max_seq_length = 512
+    doc_stride = 256
+    n_best_size = 1
+    max_query_length = 64
+    max_answer_length = 512
+    do_lower_case = False
+    null_score_diff_threshold = 0.0
+    # model_name_or_path = "../cuad-models/roberta-base/"
+    def to_list(tensor):
+        return tensor.detach().cpu().tolist()
+    config_class, model_class, tokenizer_class = (
+        AutoConfig, AutoModelForQuestionAnswering, AutoTokenizer)
+    config = config_class.from_pretrained(model_path)
+    tokenizer = tokenizer_class.from_pretrained(
+        model_path, do_lower_case=True, use_fast=False)
+    model = model_class.from_pretrained(model_path, config=config)
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    model.to(device)
+    processor = SquadV2Processor()
+    examples = []
+    for i, question_text in enumerate(question_texts):
+        example = SquadExample(
+            qas_id=str(i),
+            question_text=question_text,
+            context_text=context_text,
+            answer_text=None,
+            start_position_character=None,
+            title="Predict",
+            answers=None,
+        )
+        examples.append(example)
+    features, dataset = squad_convert_examples_to_features(
+        examples=examples,
+        tokenizer=tokenizer,
+        max_seq_length=max_seq_length,
+        doc_stride=doc_stride,
+        max_query_length=max_query_length,
+        is_training=False,
+        return_dataset="pt",
+        threads=1,
+    )
+    eval_sampler = SequentialSampler(dataset)
+    eval_dataloader = DataLoader(dataset, sampler=eval_sampler, batch_size=10)
+    all_results = []
+    for batch in eval_dataloader:
+        model.eval()
+        batch = tuple(t.to(device) for t in batch)
+        with torch.no_grad():
+            inputs = {
+                "input_ids": batch[0],
+                "attention_mask": batch[1],
+                "token_type_ids": batch[2],
+            }
+            example_indices = batch[3]
+            outputs = model(**inputs)
+            for i, example_index in enumerate(example_indices):
+                eval_feature = features[example_index.item()]
+                unique_id = int(eval_feature.unique_id)
+                output = [to_list(output[i]) for output in outputs.to_tuple()]
+                start_logits, end_logits = output
+                result = SquadResult(unique_id, start_logits, end_logits)
+                all_results.append(result)
+    final_predictions = compute_predictions_logits(
+        all_examples=examples,
+        all_features=features,
+        all_results=all_results,
+        n_best_size=n_best_size,
+        max_answer_length=max_answer_length,
+        do_lower_case=do_lower_case,
+        output_prediction_file=None,
+        output_nbest_file=None,
+        output_null_log_odds_file=None,
+        verbose_logging=False,
+        version_2_with_negative=True,
+        null_score_diff_threshold=null_score_diff_threshold,
+        tokenizer=tokenizer
+    )
+    return final_predictions

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+streamlit
+torch
+transformers
+sentencepiece

test.json ADDED Viewed

The diff for this file is too large to render. See raw diff