Mesolitica

company

https://mesolitica.com/

mesolitica

mesolitica

Request to join this org

AI & ML interests

We develop Multimodality Artificial Intelligence for South East Asia.

Organization Card

Community About org cards

Continously gather pretraining data Malaysian context, up to 200B tokens, https://huggingface.co/collections/mesolitica/malaysian-pretraining-dataset-66d6968e9e7dbd3be34b9630
Pretrain from scratch Multi-nodes training bare-metal or Kubernetes, we done up to 10x 8 A100 DGX nodes, https://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930f
Generate synthetic massive Instruction finetuning dataset, from RAG, Function Call, up to 128k context length QA, https://huggingface.co/collections/mesolitica/malaysian-synthetic-dataset-656c2673fe7fe0b1e9e25fe2
Build multimodality dataset, we have Visual QA, Audio QA, Visual-Visual QA and Visual-Audio QA, https://huggingface.co/collections/mesolitica/multimodal-malaysian-dataset-653a16214037a1bc4417eb3a
Build multimodality model, https://huggingface.co/collections/mesolitica/multimodal-malaysian-llm-65c6f893e03f78fa9e5c8859
Experience in build continuous batching also we support vLLM development, https://github.com/mesolitica/transformers-openai-api https://github.com/mesolitica/vllm-whisper
Support static cache Encoder-Decoder for HuggingFace Transformers for 2x inference speed, https://github.com/mesolitica?q=static&type=all&language=&sort=
Context parallelism and currently developing this parallelism for vLLM, https://github.com/mesolitica/context-parallelism-xformers
Build massive pseudolabel speech recognition dataset with timestamp and postprocessing, https://huggingface.co/collections/mesolitica/speech-to-text-dataset-65425beb992ac570f0446a5c
Build Noisy Neural Translation Model using T5 SDPA Packing, https://huggingface.co/collections/mesolitica/malaysian-noisy-translation-657e5f88e6759943575a91ac
Want to serve real-time speech-to-speech with interruptable like GPT-4o? Websocket with GRPC backend to serve better streaming, we open source the JS widget, https://github.com/mesolitica/nous-chat-widget

Collections 26

spaces 5

🏆🇲🇾📋

Malaysian Embedding Leaderboard

🏆🇲🇾🤖

Malay LLM Leaderboard

🏆🇲🇾🗣️

Malaysian STT Leaderboard

Realtime STT Websocket

Malaysian TTS

models 258

mesolitica/nanot5-small-malaysian-translation-v2

Translation • Updated 5 days ago • 255

mesolitica/nanot5-base-malaysian-translation-v2

Translation • Updated 5 days ago • 437

mesolitica/malaysian-whisper-large-v3-turbo

Updated 7 days ago • 111

mesolitica/malaysian-SmolLM2-360M-Instruct

Text Generation • Updated 7 days ago • 4

mesolitica/malaysian-Llama-3.2-1B-Instruct

Updated 7 days ago • 39

mesolitica/malaysian-Qwen2.5-3B-Instruct

Updated 20 days ago

mesolitica/malaysian-Qwen2.5-1.5B-Instruct

Updated 20 days ago

mesolitica/malaysian-Qwen2.5-0.5B-Instruct

Updated 20 days ago

mesolitica/malaysian-Llama-3.2-3B-Instruct

Updated 21 days ago • 320 • 1

mesolitica/mallam-5B-4096

Text Generation • Updated 27 days ago • 311 • 2

datasets 206

mesolitica/Malaysian-Emilia

Updated about 5 hours ago • 6

mesolitica/malaysian-stt

Preview • Updated 2 days ago • 50 • 1

mesolitica/malaysian-benchmark

Preview • Updated 11 days ago • 37

mesolitica/malay-voiceassistant

Preview • Updated 22 days ago • 8

mesolitica/Zyda-2-filter-malaysian-context

Updated 25 days ago • 3

mesolitica/crowdsourced-malaysian-translation-v2

Viewer • Updated 26 days ago • 5 • 58

mesolitica/malay-dialect-dictionary-instructions

Preview • Updated about 1 month ago • 5

mesolitica/pseudolabel-malaysian-podcast

Viewer • Updated Oct 9 • 291k • 4

mesolitica/malay-dialect-instructions

Viewer • Updated Oct 5 • 21.8k • 62 • 2

mesolitica/chatgpt4-code-instruct

Viewer • Updated Oct 4 • 68.7k • 57 • 1