Spaces:

AugustLight
/

LLight-3.2-3b-Instruct

Sleeping

App Files Files Community

AugustLight commited on Oct 26, 2024

Commit

cb249bf

verified ·

1 Parent(s): 9f5efd5

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -30

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ from huggingface_hub import hf_hub_download
 from llama_cpp import Llama
 import os
-# Так надо
 model = None
 def load_model():
@@ -21,9 +21,11 @@ def load_model():
         model = Llama(
             model_path=model_path,
-            n_ctx=2048,        # Размер контекста
-            n_threads=4,       # Количество потоков
-            n_batch=512        # Размер батча
         )
         print("Модель успешно инициализирована!")
@@ -38,33 +40,41 @@ def respond(message, history, system_message, max_new_tokens, temperature, top_p
         global model
         if model is None:
             model = load_model()
-        context = f"{system_message}\n\n"
-        for user_msg, assistant_msg in history:
-            context += f"User: {user_msg}\nAssistant: {assistant_msg}\n"
-        context += f"User: {message}\nAssistant: "
-        print(f"Генерируем ответ для контекста длиной {len(context)} символов")
-        response = model(
-            prompt=context,
-            max_tokens=max_new_tokens,
-            temperature=temperature,
-            top_p=top_p,
-            stop=["User:", "\n\n", "<|endoftext|>"],
-            echo=False  # Не возвращать промпт в ответе
-        )
-        generated_text = response['choices'][0]['text']
-        print(f"Ответ сгенерирован успешно, длина: {len(generated_text)}")
-        return generated_text.strip()
     except Exception as e:
         error_msg = f"Произошла ошибка: {str(e)}"
         print(error_msg)
         return error_msg
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
@@ -74,8 +84,8 @@ demo = gr.ChatInterface(
         ),
         gr.Slider(
             minimum=1,
-            maximum=2048,
-            value=512,
             step=1,
             label="Max new tokens"
         ),
@@ -94,21 +104,21 @@ demo = gr.ChatInterface(
             label="Top-p (nucleus sampling)"
         ),
     ],
-    title="GGUF Chat Model",
-    description="Чат с GGUF моделью (LLight-3.2-3B-Instruct)",
     examples=[
         ["Привет! Как дела?"],
         ["Расскажи мне о себе"],
         ["Что ты умеешь делать?"]
     ],
-    cache_examples=False
 )
 # Запускаем приложение
 if __name__ == "__main__":
     try:
         print("Инициализация приложения...")
-        model = load_model()
         print("Модель загружена успешно при старте")
     except Exception as e:
         print(f"Ошибка при инициализации: {str(e)}")

 from llama_cpp import Llama
 import os
+# Global model instance
 model = None
 def load_model():
         model = Llama(
             model_path=model_path,
+            n_ctx=512,
+            n_threads=os.cpu_count(),
+            n_batch=128,
+            n_gpu_layers=0,
+            embedding_cache_size=1024
         )
         print("Модель успешно инициализирована!")
         global model
         if model is None:
             model = load_model()
+        with gr.Progress() as progress:
+            progress(0, desc="Подготовка контекста...")
+            # Ограничиваем историю последними 3 сообщениями
+            recent_history = history[-3:] if len(history) > 3 else history
+            context = f"{system_message}\n\n"
+            for user_msg, assistant_msg in recent_history:
+                context += f"User: {user_msg}\nAssistant: {assistant_msg}\n"
+            context += f"User: {message}\nAssistant: "
+            print(f"Генерируем ответ для контекста длиной {len(context)} символов")
+            progress(0.3, desc="Генерация ответа...")
+            response = model(
+                prompt=context,
+                max_tokens=max_new_tokens,
+                temperature=temperature,
+                top_p=top_p,
+                stop=["User:", "\n\n", "<|endoftext|>"],
+                echo=False
+            )
+            progress(1, desc="Готово!")
+            generated_text = response['choices'][0]['text']
+            print(f"Ответ сгенерирован успешно, длина: {len(generated_text)}")
+            return generated_text.strip()
     except Exception as e:
         error_msg = f"Произошла ошибка: {str(e)}"
         print(error_msg)
         return error_msg
+# Создаем интерфейс с оптимизированными параметрами
 demo = gr.ChatInterface(
     respond,
     additional_inputs=[
         ),
         gr.Slider(
             minimum=1,
+            maximum=512,
+            value=128,
             step=1,
             label="Max new tokens"
         ),
             label="Top-p (nucleus sampling)"
         ),
     ],
+    title="LLight Chat Model (Optimized)",
+    description="Оптимизированный чат с LLight-3.2-3B",
     examples=[
         ["Привет! Как дела?"],
         ["Расскажи мне о себе"],
         ["Что ты умеешь делать?"]
     ],
+    cache_examples=True  # Включаем кэширование примеров
 )
 # Запускаем приложение
 if __name__ == "__main__":
     try:
         print("Инициализация приложения...")
+        model = load_model()  # Предзагружаем модель
         print("Модель загружена успешно при старте")
     except Exception as e:
         print(f"Ошибка при инициализации: {str(e)}")