Spaces:
Running
on
CPU Upgrade
Running
on
CPU Upgrade
Update app.py (#13)
Browse files- Update app.py (fcdba52d99dc573b68256bafc611d94d461f24ea)
Co-authored-by: Alessandro Ercolani <giux78@users.noreply.huggingface.co>
app.py
CHANGED
|
@@ -131,6 +131,12 @@ def filter_models(
|
|
| 131 |
|
| 132 |
return filtered_df
|
| 133 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 134 |
|
| 135 |
demo = gr.Blocks(css=custom_css)
|
| 136 |
with demo:
|
|
@@ -238,7 +244,24 @@ with demo:
|
|
| 238 |
leaderboard_table,
|
| 239 |
queue=True,
|
| 240 |
)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 241 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 242 |
with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
|
| 243 |
gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
|
| 244 |
|
|
|
|
| 131 |
|
| 132 |
return filtered_df
|
| 133 |
|
| 134 |
+
def get_data_totale():
|
| 135 |
+
dataset = pd.read_csv("leaderboard_general.csv", sep=',')
|
| 136 |
+
if 'model ' in dataset.columns:
|
| 137 |
+
dataset.rename(columns={'model ': 'model'}, inplace=True)
|
| 138 |
+
return dataset
|
| 139 |
+
|
| 140 |
|
| 141 |
demo = gr.Blocks(css=custom_css)
|
| 142 |
with demo:
|
|
|
|
| 244 |
leaderboard_table,
|
| 245 |
queue=True,
|
| 246 |
)
|
| 247 |
+
|
| 248 |
+
with gr.TabItem('Classifica RAG'):
|
| 249 |
+
|
| 250 |
+
gr.Markdown('''# Classifica RAG degli LLM italiani''')
|
| 251 |
+
gr.Markdown(f'''In questa sezione i modelli sono valutati su dei task di Q&A e ordinati per F1 Score e EM (Exact Match). La repo di riferimento è [questa](https://github.com/C080/open-llm-ita-leaderboard).
|
| 252 |
+
I modelli in cima alla classifica sono ritenuti preferibili per i task di Retrieval Augmented Generation.''')
|
| 253 |
+
gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
|
| 254 |
+
gr.Markdown(f"Si ringrazia il @galatolo per il codice dell'eval.")
|
| 255 |
+
|
| 256 |
|
| 257 |
+
with gr.TabItem('Eval aggiuntive'):
|
| 258 |
+
|
| 259 |
+
gr.Markdown('''# Altre evaluation''')
|
| 260 |
+
gr.Markdown('''Qui ci sono altri test di altri modelli valutati su molte metriche''')
|
| 261 |
+
gr.Dataframe(get_data_totale)
|
| 262 |
+
|
| 263 |
+
|
| 264 |
+
|
| 265 |
with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
|
| 266 |
gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
|
| 267 |
|