模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

#3
by fukai - opened

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

请问下这边使用的时候内存消耗大概多少啊,我也准备用这个模型,想做个参考,感谢

早日来个量化版本

Alibaba-NLP org
edited Jun 19

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

不知道后续会不会基于 qwen2 72b 模型进行训练的版本,进一步探索性能的上限?

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

那量化版本有测试过可不可以使用吗

Alibaba-NLP org

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

不知道后续会不会基于 qwen2 72b 模型进行训练的版本,进一步探索性能的上限?

想搞,但显卡数量不太支持 😂

izhx changed discussion status to closed
izhx changed discussion status to open
Alibaba-NLP org

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

那量化版本有测试过可不可以使用吗

感谢,下周试一下,还没搞过量化。

模型太耗内存了,有量化版本吗?flashatt是不是可以关闭,对显卡限制太多

这个模型只是为了探索LLM在embedding上的性能,不推荐实际应用中使用。

可以考虑使用GTE-v1.5的 baselarge 版本,我们也会马上发布多语言的小模型。

那量化版本有测试过可不可以使用吗

感谢,下周试一下,还没搞过量化。

我们测试过,包括gte-qwen2-1.5B,在我们的场景中,效果挺惊艳的。
但是模型太大,没法实际应用部署。
希望能出不同的量化版本,gptq,awq等

Sign up or log in to comment