Nandan Thakur's picture

2 7 46

Nandan Thakur

nthakur

·

https://thakur-nandan.github.io

AI & ML interests

NLP, IR, QA

Recent Activity

updated a dataset 4 days ago

miracl/nomiracl

upvoted a paper 4 days ago

NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation

updated a collection 4 days ago

🌐 NoMIRACL Dataset [EMNLP'24]

View all activity

Organizations

Posts 1

Post

3261

🦢 The SWIM-IR dataset contains 29 million text-retrieval training pairs across 27 diverse languages. It is one of the largest synthetic multilingual datasets generated using PaLM 2 on Wikipedia! 🔥🔥

SWIM-IR dataset contains three subsets :
- Cross-lingual:nthakur/swim-ir-cross-lingual
- Monolingual: nthakur/swim-ir-monolingual
- Indic Cross-lingual: nthakur/indic-swim-ir-cross-lingual

Check it out:
https://huggingface.co/collections/nthakur/swim-ir-dataset-662ddaecfc20896bf14dd9b7

Collections 3

Papers 11

arxiv:2410.13716

arxiv:2406.16828

arxiv:2312.11361

arxiv:2311.05800

models 35

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0-v2

Updated Aug 23 • 4

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0-final

nthakur/Meta-Llama-3-8B-Instruct-mirage-all-teacher-instruct-llama-3-sft

Updated Aug 13 • 9

nthakur/Mistral-7B-Instruct-v0.2-mirage-all-teacher-instruct-mistral-sft

Updated Aug 13 • 3

nthakur/Mistral-7B-Instruct-v0.2-multilingual-dpo-v1.0

nthakur/Mistral-7B-Instruct-v0.2-multilingual-deita-10k-v0-sft-v0.1

Updated Aug 12 • 10

nthakur/Meta-Llama-3-8B-Instruct-mirage-mirage-gpt-4o-sft-instruct-llama-3

Updated Aug 12 • 4

nthakur/Meta-Llama-3-8B-Instruct-mirage-meta-llama-3-sft-instruct

Updated Aug 10 • 3

nthakur/Mistral-7B-Instruct-v0.2-mirage-gpt-4o-sft-instruct-mistral

Updated Aug 10 • 2

nthakur/Mistral-7B-Instruct-v0.2-mirage-mistral-sft-instruct

Updated Aug 9 • 3

datasets 56

nthakur/mirage-eval-rag-output

Viewer • Updated Aug 12 • 11.2k • 355

nthakur/mirage-meta-llama-3-mistral-sft-instruct-meta-llama-tokenizer

Viewer • Updated Aug 12 • 56.4k • 39

nthakur/mirage-mistral-llama-3-sft-instruct-mistral-tokenizer

Viewer • Updated Aug 12 • 56.4k • 29

nthakur/multilingual-ultrafeedback-binarized-dpo-v0.1

Viewer • Updated Aug 11 • 76.4k • 32

nthakur/GSM8KInstruct-Parallel-instruct-dpo-v0.1

Viewer • Updated Aug 11 • 70k • 33

nthakur/mirage-gpt-4o-sft-instruct-llama-3

Viewer • Updated Aug 10 • 29.2k • 31

nthakur/multilingual-deita-10k-v0-sft-v0.1

Viewer • Updated Aug 9 • 24.4k • 32

nthakur/mirage-gpt-4o-sft-instruct-mistral

Viewer • Updated Aug 9 • 29.2k • 30

nthakur/mirage-meta-llama-3-sft-instruct

Viewer • Updated Aug 9 • 57.6k • 41

nthakur/mirage-mistral-sft-instruct

Viewer • Updated Aug 9 • 55.6k • 54