open_medical_llm_leaderboard

Running

aaditya commited on Mar 15

Commit

c65fc48

•

1 Parent(s): 20d5de3

Update src/backend/run_eval_suite.py

Files changed (1) hide show

src/backend/run_eval_suite.py CHANGED Viewed

@@ -15,16 +15,14 @@ def run_evaluation(eval_request: EvalRequest, task_names, num_fewshot, batch_siz
         print(
             "WARNING: --limit SHOULD ONLY BE USED FOR TESTING. REAL METRICS SHOULD NOT BE COMPUTED USING LIMIT."
         )
-    task_names = utils.pattern_match(task_names, tasks.ALL_TASKS)
     print(f"Selected Tasks: {task_names}")
     results = evaluator.simple_evaluate(
         model="hf-causal-experimental", # "hf-causal"
         model_args=eval_request.get_model_args(),
         tasks=task_names,
-        num_fewshot=num_fewshot,
         batch_size=batch_size,
         device=device,
         no_cache=no_cache,
@@ -54,4 +52,4 @@ def run_evaluation(eval_request: EvalRequest, task_names, num_fewshot, batch_siz
         repo_type="dataset",
     )
-    return results

         print(
             "WARNING: --limit SHOULD ONLY BE USED FOR TESTING. REAL METRICS SHOULD NOT BE COMPUTED USING LIMIT."
         )
+    task_names = ["medmcqa", "medqa_4options", "mmlu_anatomy", "mmlu_clinical_knowledge", "mmlu_college_biology", "mmlu_college_medicine", "mmlu_medical_genetics", "mmlu_professional_medicine", "pubmedqa"]
     print(f"Selected Tasks: {task_names}")
     results = evaluator.simple_evaluate(
         model="hf-causal-experimental", # "hf-causal"
         model_args=eval_request.get_model_args(),
         tasks=task_names,
+        # num_fewshot=num_fewshot,
         batch_size=batch_size,
         device=device,
         no_cache=no_cache,
         repo_type="dataset",
     )
+    return results