Spaces:

davanstrien
/

missing-ner-models

Build error

App Files Files Community

davanstrien HF Staff commited on Nov 20, 2023

Commit

bffa030

1 Parent(s): 7709561

Update language summary and add dataset count for

Browse files

Files changed (1) hide show

app.py +11 -4

app.py CHANGED Viewed

@@ -41,10 +41,12 @@ for lang in tqdm(freqs.keys()):
         list_models(filter=ModelFilter(language=lang, task="token-classification"))
     )
     models_for_lang_any_task = list(list_models(filter=ModelFilter(language=lang)))
     if not models_for_lang_with_task_token_classification:
         data = {
             "language": lang,
-            "datasets": freqs[lang],
             "token_classification_models": len(
                 models_for_lang_with_task_token_classification
             ),
@@ -58,8 +60,13 @@ len(no_model)
 df = pd.DataFrame(no_model)
 df = df.sort_values(
-    by=["datasets", "token_classification_models", "all_models"],
-    ascending=[False, True, True],
 )
@@ -68,7 +75,7 @@ def report_summary():
     for row in df.head(20).itertuples():
         language = row[1]
         summary += f"# Summary for language: {language}\n"
-        summary += f"This language has {(row[2])} token classification datasets, it has {row[3]} token classification models, and {row[4]} models overall.\n"
         summary += f"- [Datasets for token classification task for {language}](https://huggingface.co/datasets?task_categories=task_categories:token-classification&language=language:{language})\n"
         summary += f"- [Token classification models for {language}](https://huggingface.co/models?task_categories=task_categories:token-classification&language=language:{language})\n"
         summary += f"- [All models for {language}](https://huggingface.co/models?language={language}&sort=trending)\n"

         list_models(filter=ModelFilter(language=lang, task="token-classification"))
     )
     models_for_lang_any_task = list(list_models(filter=ModelFilter(language=lang)))
+    datasets_for_lang_any_task = list(list_datasets(filter=f"language:{lang}"))
     if not models_for_lang_with_task_token_classification:
         data = {
             "language": lang,
+            "datasets_for_token_classification": freqs[lang],
+            "datasets": len(datasets_for_lang_any_task),
             "token_classification_models": len(
                 models_for_lang_with_task_token_classification
             ),
 df = pd.DataFrame(no_model)
 df = df.sort_values(
+    by=[
+        "datasets_for_token_classification",
+        "datasets",
+        "token_classification_models",
+        "all_models",
+    ],
+    ascending=[False, False, True, True],
 )
     for row in df.head(20).itertuples():
         language = row[1]
         summary += f"# Summary for language: {language}\n"
+        summary += f"This language has {(row[2])} token classification datasets, {row[3]} datasets overall, {row[4]} token classification models, and {row[5]} models overall.\n"
         summary += f"- [Datasets for token classification task for {language}](https://huggingface.co/datasets?task_categories=task_categories:token-classification&language=language:{language})\n"
         summary += f"- [Token classification models for {language}](https://huggingface.co/models?task_categories=task_categories:token-classification&language=language:{language})\n"
         summary += f"- [All models for {language}](https://huggingface.co/models?language={language}&sort=trending)\n"