Context size

by deksden - opened 16 days ago

Discussion

deksden

16 days ago

Собственно - а какой размер контекста?

heylimon

T-Tech org 15 days ago

У квена базовый размер контекста - 32к, с расширением Yarn до 128к. Мы не дообучали модель на длинном контексте и не проверяли как поведет модель на контексте >8k

deksden

15 days ago

размер контекста - довольно существенная штука для практического использования!

было бы здорово это всё проверить. 128к гораздо интереснее 32к, и тем более 8к.

задачи обработки текста со 128к вполне себе понятны: например, обработка документации - 128к за раз это норм. В 32к не всякий набор документов влезет. Для исходного кода тоже важно - я умудряюсь найти чем забить 200к у клода. Понятно, что скорость инференса за 32к падает. но иногда такое прям надо!

heylimon

T-Tech org 12 days ago

померил Qwen-32B и T-pro на бенчмарке длинного контекста Libra
Для контекста > 32k лучше использовать rope scaling из рекомендаций с хф карточки квена
{ "factor": 4.0, "original_max_position_embeddings": 32768, "type": "yarn" }
В целом видно, что способность обрабатывать длинный контекст у T-pro незначительно хуже чем у Qwen-32B-it
В следующих релизах планируем поддержать длинный контекст

deksden

12 days ago

Супер! Довольно заметная фича

jaggaman

6 days ago

парни оч нужна поддержка длинного контекстного окна, qwen это поддерживал

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment