somosnlp
/

spanish_medica_llm

Text Generation

PEFT

Safetensors

Spanish

Generated from Trainer

Model card Files Files and versions Community

inoid commited on Apr 25

Commit

7fc808c

•

1 Parent(s): b3f8931

Update README.md

Browse files

Files changed (1) hide show

README.md +16 -21

README.md CHANGED Viewed

@@ -47,14 +47,16 @@ Si queréis incluir una versión de la Model Card en español, enlazadla aquí a
 -->
-Más de 600 millones de personas hablantes del idioma español necesitan recursos, como los LLMs, para la obtención de información médica de forma libre y segura,
-cumpliendo con los objetivo del milenio: Salud y Bienestar, Educación y Calidad, Fin de la Pobreza propuestos por la ONU.
-Existen pocos LLM para el  dominio médico en idioma español.
-El objetivo de este proyecto es crear un gran modelo de lenguaje (LLM; siglas en inglés) para el contexto médico en español permitiendo crear soluciones
-y servicios de información de salud en LATAM. El modelo contará con información de medicinas convencionales, naturales y tradicionales.
-Un resultado del proyecto es un conjunto de datos público del dominio médico que agrupa recursos de otras fuentes que permite crear o ajustar LLM.
-Los resultados del desempeño del LLM se comparan con  otros modelos del state-of-the-art como BioMistral, Meditron, MedPalm.
 ## Model Details
@@ -93,8 +95,8 @@ Los resultados del desempeño del LLM se comparan con  otros modelos del state-o
 <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
-Los creadores del LLM no se hacen responsable de resultados nocivos que puedan generar. Se sugiere un proceso de evaluación riguroso con especialistas
-de los resultados generados.
 ## Bias, Risks, and Limitations
@@ -162,7 +164,7 @@ Dataset used was [somosnlp/SMC/](https://huggingface.co/datasets/somosnlp/SMC/)
 <!-- This should link to a Dataset Card. -->
-El corpus usado fue un 20% de [somosnlp/SMC/](https://huggingface.co/datasets/somosnlp/SMC/)
 #### Factors
@@ -199,8 +201,8 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ### Model Architecture and Objective
-Se utilizó la arquitectura de [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B) porque es un modelo fundacional
-entrenado con un conjunto de datos de dominio médico.
 ### Compute Infrastructure
@@ -224,8 +226,6 @@ Nvidia T4 Small 4 vCPU 15 GB RAM 16 GB VRAM
 - accelerate
 - datasets
-[More Information Needed]
 ## License
 <!-- Indicar bajo qué licencia se libera el modelo explicando, si no es apache 2.0, a qué se debe la licencia más restrictiva (i.e. herencia de las licencias del modelo pre-entrenado o de los datos utilizados). -->
@@ -271,13 +271,10 @@ Aquí tenéis un ejemplo de cita de un dataset que podéis adaptar:
 <!-- Indicar aquí que el marco en el que se desarrolló el proyecto, en esta sección podéis incluir agradecimientos y más información sobre los miembros del equipo. Podéis adaptar el ejemplo a vuestro gusto. -->
-Este proyecto fue desarrollado durante el [Hackathon #Somos600M](https://somosnlp.org/hackathon) organizado por SomosNLP.
-El modelo fue entrenado usando GPU patrocinado por HuggingFace.
-<!--
     This project was developed during the [Hackathon #Somos600M](https://somosnlp.org/hackathon) organized by SomosNLP.
     The model was trained using GPUs sponsored by HuggingFace.
--->
 **Team:**
@@ -293,6 +290,4 @@ El modelo fue entrenado usando GPU patrocinado por HuggingFace.
 ## Contact
 <!-- Email de contacto para´posibles preguntas sobre el modelo. -->
-<!-- For any doubt or suggestion contact to: PhD Dionis López (inoid2007@gmail.com) -->
- Para cualquier duda contactar a: Dr.C Dionis López (inoid2007@gmail.com)

 -->
+More than 600 million Spanish-speaking people need resources, such as LLMs, to obtain medical information freely and safely,
+complying with the millennium objectives: Health and Wellbeing, Education and Quality, End of Poverty proposed by the UN.
+There are few LLMs for the medical domain in the Spanish language.
+The objective of this project is to create a large language model (LLM) for the medical context in Spanish, allowing the creation of solutions
+and health information services in LATAM. The model will have information on conventional, natural and traditional medicines.
+An output of the project is a public dataset from the medical domain that pools resources from other sources that allows LLM to be created or fine-tuned.
+The performance results of the LLM are compared with other state-of-the-art models such as BioMistral, Meditron, MedPalm.
+[**Dataset Card in Spanish**](README_es.md)
 ## Model Details
 <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+The creators of LOL are not responsible for any harmful results they may generate. A rigorous evaluation process with specialists is suggested
+of the results generated.
 ## Bias, Risks, and Limitations
 <!-- This should link to a Dataset Card. -->
+The corpus used was 20% [somosnlp/SMC/](https://huggingface.co/datasets/somosnlp/SMC/)
 #### Factors
 ### Model Architecture and Objective
+The architecture of [BioMistral/BioMistral-7B](https://huggingface.co/BioMistral/BioMistral-7B)because it is a foundational model
+trained with a medical domain dataset.
 ### Compute Infrastructure
 - accelerate
 - datasets
 ## License
 <!-- Indicar bajo qué licencia se libera el modelo explicando, si no es apache 2.0, a qué se debe la licencia más restrictiva (i.e. herencia de las licencias del modelo pre-entrenado o de los datos utilizados). -->
 <!-- Indicar aquí que el marco en el que se desarrolló el proyecto, en esta sección podéis incluir agradecimientos y más información sobre los miembros del equipo. Podéis adaptar el ejemplo a vuestro gusto. -->
     This project was developed during the [Hackathon #Somos600M](https://somosnlp.org/hackathon) organized by SomosNLP.
     The model was trained using GPUs sponsored by HuggingFace.
 **Team:**
 ## Contact
 <!-- Email de contacto para´posibles preguntas sobre el modelo. -->
+ For any doubt or suggestion contact to: PhD Dionis López (inoid2007@gmail.com)