Edit model card

svalabs/mt5-large-german-query-gen-v1

This is a german doc2query model usable for document expansion to further boost search results by generating queries.

Usage (code from doc2query/msmarco-14langs-mt5-base-v1)

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch

model_name = 'svalabs/mt5-large-german-query-gen-v1'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to('cuda:0')

text = "qgen: Python ist eine universelle, üblicherweise interpretierte, höhere Programmiersprache. Sie hat den Anspruch, einen gut lesbaren, knappen Programmierstil zu fördern. So werden beispielsweise Blöcke nicht durch geschweifte Klammern, sondern durch Einrückungen strukturiert."


def create_queries(para):
    input_ids = tokenizer.encode(para, return_tensors='pt').to('cuda:0')
    with torch.no_grad():
        # Here we use top_k / top_k random sampling. It generates more diverse queries, but of lower quality
        sampling_outputs = model.generate(
            input_ids=input_ids,
            max_length=64,
            do_sample=True,
            top_p=0.95,
            top_k=20, 
            num_return_sequences=10
            )
        
        # Here we use Beam-search. It generates better quality queries, but with less diversity
        beam_outputs = model.generate(
            input_ids=input_ids, 
            max_length=64, 
            num_beams=10, 
            no_repeat_ngram_size=2, 
            num_return_sequences=10, 
            early_stopping=False
        )

    print("Paragraph:")
    print(para)
    
    print("\nBeam Outputs:")
    for i in range(len(beam_outputs)):
        query = tokenizer.decode(beam_outputs[i], skip_special_tokens=True)
        print(f'{i + 1}: {query}')

    print("\nSampling Outputs:")
    for i in range(len(sampling_outputs)):
        query = tokenizer.decode(sampling_outputs[i], skip_special_tokens=True)
        print(f'{i + 1}: {query}')

create_queries(text)

Console Output:

Paragraph:
qgen: Python ist eine universelle, 
üblicherweise interpretierte, 
höhere Programmiersprache.
Sie hat den Anspruch, einen gut lesbaren,
knappen Programmierstil zu fördern. 
So werden beispielsweise Blöcke nicht durch geschweifte Klammern,
sondern durch Einrückungen strukturiert. 

Beam Outputs:
1: ist Python eine universelle Programmiersprache
2: Welche Art von Programmiersprache ist Python?
3: Welche Programmiersprache ist Python?
4: Was ist Python-Programmierung?
5: welche sprache ist python
6: Was ist der Unterschied zwischen Python und Perl?
7: Was ist der Unterschied zwischen Python und Ruby?
8: Was ist der Unterschied zwischen Python und Java?
9: was ist python
10: was ist der unterschied zwischen c++ und python?

Sampling Outputs:
1: ist Python eine universelle Programmiersprache
2: Was ist der Zweck der Python-Sprache?
3: Was ist der Unterschied zwischen Python und Java?
4: welche sprache ist python
5: Was ist Python-Programmierung?
6: welcher teil der sprache ist python
7: Welche Art von Programmiersprache ist Python?
8: ist Python eine universelle Programmiersprache
9: warum Python eine universelle Programmiersprache ist
10: ist Python-Programmierung universell

References

'Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks'. 'MS MARCO: A Human Generated MAchine Reading COmprehension Dataset'. 'GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval'. google/mt5-large mMARCO dataset doc2query

Downloads last month
7
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train svalabs/mt5-large-german-query-gen-v1