Edit model card

gua-a v0.2 GGUF

En la mitología guarani: El padre de la sabiduria usaba un gua'a o loro para intentar comunicarse con su dios supremo Tupã. Haciendo la misma analogía creamos el modelo "gua-a" para difundir la cultura guarani a todos los hispanohablantes.

🦜 Model Details

gua-a v0.2: Esta es una versión mejorada del modelo de lenguaje desarrollado en somosnlp/gua-a para capturar y comprender instrucciones relacionadas con la cultura guaraní. Fue ajustado mediante la técnica Direct Preference Optimization (DPO) con datos específicos de la cultura guaraní según el libro Ñande Ypykuéra de Narciso R. Colmán, contrastando las respuestas generadas por RAG + GPT-4 + Human Feedback y mistral-7b-bnb-4bit para el entranamiento por DPO. gua-a v0.2 deriva de un modelo base Mistral 7B y se optimiza mediante la cuantización a 4 bits y el almacenamiento en el formato GGUF para mejorar su eficiencia en términos de almacenamiento y cálculo. Esto lo hace más adecuado para despliegues en entornos con recursos limitados, sin comprometer significativamente su capacidad para comprender y generar texto de alta calidad.

Model Description

Provided files

Name Quant method Bits Size Max RAM required Use case
gua-a_v0.2-dpo_mistral-7b_q4_K_M.gguf Q4_K_M 4 4.37 GB 4.16 GB medium, balanced quality - recommended

Nota: las cifras de RAM anteriores asumen que no se utiliza la GPU. Si las capas se descargan en la GPU, se reducirá el uso de RAM y se utilizará VRAM en su lugar.

⭐ Uses

Este modelo está pensado para su uso exclusivamente educativo, permitiendo que las personas puedan adentrarse más al mundo de la cultura guaraní desde la Inteligencia Artificial.

🤖 How to Get Started with the Model

Download model ⬇️

Puedes descargar el modelo directamente por medio del siguiente enlace: DOWNLOAD GUA-A-V0.2-GGUF

Prompt template: Alpaca 🧾

Responde a preguntas de forma clara, amable, concisa y solamente en el lenguaje español, sobre el libro Ñande Ypykuéra.

Contexto
-------------------------
{}
-------------------------

### Pregunta:
{}

### Respuesta:
{}

Llamacpp 🦙

Install dependencies

# Si vas a utilizar solo CPU
pip install llama-cpp-python

# Si tienes una GPU basada en NVidia CUDA acceleration
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python

# O con OpenBLAS acceleration
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# O con CLBLast acceleration
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# O con AMD ROCm GPU acceleration (Linux only)
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# O con Metal GPU acceleration for macOS systems only
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python

# En windows, ejemplo para NVidia CUDA:
$env:CMAKE_ARGS = "-DLLAMA_CUBLAS=on"
pip install llama-cpp-python

Simple Inference

from llama_cpp import Llama

llm = Llama(
  model_path="./gua-a_v0.2-dpo_mistral-7b_q4_K_M.gguf",  # Primero debes descargar el modelo
  n_ctx=512,  # Máximo tamaño del contexto
  n_threads=2, # Número de CPUs a usar
  n_gpu_layers=0 # El número de capas usadas para la GPU, si es "-1" utilizará todas las capas en la GPU, si es "0" solo se utilizará la CPU.
)

prompt = f"""Responde a preguntas de forma clara, amable, concisa y solamente en el lenguaje español, sobre el libro Ñande Ypykuéra.

Contexto
-------------------------
{context}
-------------------------

### Pregunta:
{query}

### Respuesta:
"""

contexto = ""
pregunta = "Quién es gua'a?"

# Ejemplo Simple de Inferencia
output = llm(prompt.format(context=contexto, query=pregunta),
  max_tokens=512,
  stop=["</s>"],
  echo=True
)

respuesta = output['choices'][0]['text'].split("### Respuesta:\n")[1]

print(respuesta)

Bias, Risks, and Limitations

El modelo gua-a_v0.2-dpo_mistral-7b_GGUF es un modelo experimental, las respuestas pueden ser imprecisas y de baja calidad. El dataset utilizado por el modelo solo refleja parte de la cultura guaraní, limitandose a la visión del autor del libro.

More Information

Este proyecto fue desarrollado por Think Paraguayo 🇵🇾.

Team:

Enrique Paiva

Contact

mail: think.paraguayo@gmail.com

Downloads last month
28
GGUF
Model size
7.24B params
Architecture
llama

4-bit

Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train thinkPy/gua-a_v0.2-dpo_mistral-7b_GGUF