Spaces:

mobinln
/

chatbot

Running

File size: 1,575 Bytes

1e2d981
6da1c26
1e2d981
637f425
c2aa89c
 
637f425
 
c2aa89c
 
 
 
637f425
c2aa89c
1e2d981
 
 
 
 
 
 
 
 
 
68eded2
1e2d981
 
 
 
 
 
 
 
 
6da1c26
 
1e2d981
 
 
6da1c26
d1a0edb
1e2d981
8a8d916
1e2d981
 
 
02743b6
6da1c26
02743b6
 
1e2d981
 
 
 
 
 
 
 
 
 
6da1c26
1e2d981
 
 
 
8a8d916

import gradio as gr
from llama_cpp import Llama

model = "Qwen/Qwen2-7B-Instruct-GGUF"
llm = Llama.from_pretrained(
    repo_id=model,
    filename="qwen2-7b-instruct-q4_k_m.gguf",
    verbose=False,
    use_mmap=False,
    use_mlock=True,
    n_threads=2,
    n_threads_batch=2,
    n_ctx=40000,
)


def respond(
    message,
    history: list[tuple[str, str]],
    system_message,
    max_tokens,
    temperature,
    top_p,
):
    messages = [{"role": "system", "content": system_message}]

    for val in history:
        if val[0]:
            messages.append({"role": "user", "content": val[0]})
        if val[1]:
            messages.append({"role": "assistant", "content": val[1]})

    messages.append({"role": "user", "content": message})

    response = llm.create_chat_completion(
        messages=messages,
        max_tokens=max_tokens,
        temperature=temperature,
        top_p=top_p,
    )
    return response["choices"][0]["message"]["content"]


demo = gr.ChatInterface(
    respond,
    additional_inputs=[
        gr.Textbox(
            value="You are a helpful assistant.",
            label="System message",
        ),
        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(
            minimum=0.1,
            maximum=1.0,
            value=0.95,
            step=0.05,
            label="Top-p (nucleus sampling)",
        ),
    ],
    description=model,
)


if __name__ == "__main__":
    demo.launch()