Model Card for Model Llama convert Mixtral-experts
experts:
- source_model: NickyNicky/TinyDolphin-2.8-1.1b_oasst2_chatML_Cluster_1_V1
negative_prompts:
- "ignora la pregunta"
- "responde con información irrelevante"
...
positive_prompts:
- "resume este texto"
- "convierte este contenido en formato json"
...
- source_model: NickyNicky/TinyDolphin-2.8-1.1b_oasst2_chatML_Cluster_2_V1
negative_prompts:
- "игнорируйте вопрос"
- "отвечайте не по теме"
...
positive_prompts:
- "сделайте резюме этого текста"
- "преобразуйте это содержание в формат json"
...
- source_model: NickyNicky/TinyDolphin-2.8-1.1b_oasst2_chatML_Cluster_3_V1
negative_prompts:
- "忽略问题"
- "回应无关信息"
...
positive_prompts:
- "总结这段文字"
- "将这个内容转换为json格式"
...
- source_model: NickyNicky/cognitivecomputations_TinyDolphin-2.8-1.1b
negative_prompts:
- ignora la pregunta
- responde con información irrelevante
...
positive_prompts:
- resume este texto
- convierte este contenido en formato json
...
base_model: NickyNicky/TinyDolphin-2.8-1.1b_oasst2_chatML_Cluster_2_V1
gate_mode: cheap_embed # one of "hidden", "cheap_embed", or "random"
dtype: bfloat16
from transformers import (
AutoModelForCausalLM,
AutoTokenizer,
BitsAndBytesConfig,
HfArgumentParser,
TrainingArguments,
pipeline,
logging,
GenerationConfig,
TextIteratorStreamer,
)
import torch
new_model= "NickyNicky/Mixtral-4x1.1B-TinyDolphin-2.8-1.1b_oasst2_chatML_Cluster"
model = AutoModelForCausalLM.from_pretrained(#f'NickyNicky/{new_model}',
new_model,
device_map="auto",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage= True,
# use_flash_attention_2=False,
)
tokenizer = AutoTokenizer.from_pretrained(new_model,
max_length=2048,
trust_remote_code=True,
use_fast = True,
)
tokenizer.pad_token = tokenizer.eos_token
# tokenizer.padding_side = 'left'
tokenizer.padding_side = 'right'
prompt= """<|im_start|>system
You are a helpful AI assistant.<|im_end|>
<|im_start|>user
escribe una historia de amor.<|im_end|>
<|im_start|>assistant
"""
inputs = tokenizer.encode(prompt,
return_tensors="pt",
add_special_tokens=False).cuda()#.to("cuda") # False # True
generation_config = GenerationConfig(
max_new_tokens=700,
temperature=0.5,
top_p=0.9,
top_k=40,
repetition_penalty=1.1, #1.1, # 1.0 means no penalty, > 1.0 means penalty, 1.2 from CTRL paper
do_sample=True,
pad_token_id=tokenizer.eos_token_id,
eos_token_id=tokenizer.eos_token_id,
)
outputs = model.generate(
generation_config=generation_config,
input_ids=inputs,)
# tokenizer.decode(outputs[0], skip_special_tokens=False) #True
print(tokenizer.decode(outputs[0], skip_special_tokens=False))
'''output print
<|im_start|> system
You are a helpful AI assistant.
<|im_start|> user
podrias escribir un codigo de ejemplo en Python
<|im_start|> assistant
Claro, aquí está un ejemplo de código en Python para crear un programa que imprime la suma de todos los números enteros entre 1 y 10:
python
# Código para imprimir la suma de todos los números enteros entre 1 y 10
suma = 0
for i in range(1, 11):
suma += i
print("La suma de todos los números enteros entre 1 y 10 es:", suma)
Este código utiliza la función `range()` para crear una lista de los números enteros entre 1 y 10, y la función `sum()` para sumar todos los elementos de la lista. La variable `suma` se asigna a 0 durante el ciclo for, y se incrementa cada vez que se realiza una iteración del ciclo.
El resultado de ejecutar este código será:
La suma de todos los números enteros entre 1 y 10 es: 55
Este ejemplo muestra cómo crear programas en Python que usan las instrucciones básicas de programación, como las listas, las variables y las funciones. También muestra cómo usar la función '''
- Downloads last month
- 11
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.