Spaces:

CesarLeblanc
/

plantbert_space

Running

App Files Files Community

CesarLeblanc commited on 14 days ago

Commit

d34103c

verified ·

1 Parent(s): b1677f2

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -22

app.py CHANGED Viewed

@@ -1,14 +1,13 @@
 import gradio as gr
 from transformers import pipeline
 import requests
 from bs4 import BeautifulSoup
 import pandas as pd
-# Initialize models
 classification_model = pipeline("text-classification", model="models/text_classification_model", tokenizer="models/text_classification_model", top_k=5)
-mask_model = pipeline("fill-mask", model="models/fill_mask_model", tokenizer="models/fill_mask_model", top_k=100)
-# Load data
 eunis_habitats = pd.read_excel('data/eunis_habitats.xlsx')
 def return_habitat_image(habitat_label):
@@ -20,11 +19,9 @@ def return_habitat_image(habitat_label):
         if img_tag:
             image_url = img_tag['src']
         else:
-            image_url = "https://www.salonlfc.com/wp-content/uploads/2018/01/image-not-found-scaled-1150x647.png"
     else:
-        image_url = "https://www.salonlfc.com/wp-content/uploads/2018/01/image-not-found-scaled-1150x647.png"
-    #image_url = "https://www.commissionoceanindien.org/wp-content/uploads/2018/07/plantnet.jpg"  # While we don't have the rights
-    #image_url = "https://files.ibot.cas.cz/cevs/images/syntaxa/large/Rorippo-Phalaridetum_arundinaceae2.jpg"  # 800-600 for Q51
     image = gr.Image(value=image_url)
     return image
@@ -38,29 +35,20 @@ def return_species_image(species):
         if img_tag:
             image_url = img_tag['src']
         else:
-            image_url = "https://www.salonlfc.com/wp-content/uploads/2018/01/image-not-found-scaled-1150x647.png"
     else:
-        image_url = "https://www.salonlfc.com/wp-content/uploads/2018/01/image-not-found-scaled-1150x647.png"
-    #image_url = "https://www.commissionoceanindien.org/wp-content/uploads/2018/07/plantnet.jpg"  # While we don't have the rights
-    #image_url = "https://files.ibot.cas.cz/cevs/images/taxa/large/Eryngium_maritimum18.jpg"  # 1600-1200 for Q51 for eryngium maritimum
     image = gr.Image(value=image_url)
     return image
 def gbif_normalization(text):
-    base = "https://api.gbif.org/v1"
-    api = "species"
-    function = "match"
-    parameter = "name"
-    url = f"{base}/{api}/{function}?{parameter}="
     all_species = text.split(',')
     all_species = [species.strip() for species in all_species]
     species_gbif = []
     for species in all_species:
-        url = url.replace(url.partition('name')[2], f'={species}')
-        r = requests.get(url)
-        r = r.json()
-        if 'species' in r:
-            r = r["species"]
         else:
             r = species
         species_gbif.append(r)
@@ -103,7 +91,7 @@ def masking(text, k):
             j = 0
             while True:
-                prediction = mask_model(masked_text)[j]
                 species = prediction['token_str']
                 if species in text_split or species in best_predictions:
                     j += 1

 import gradio as gr
 from transformers import pipeline
 import requests
+import pygbif
 from bs4 import BeautifulSoup
 import pandas as pd
 classification_model = pipeline("text-classification", model="models/text_classification_model", tokenizer="models/text_classification_model", top_k=5)
+masking_model = pipeline("fill-mask", model="models/fill_mask_model", tokenizer="models/fill_mask_model", top_k=100)
 eunis_habitats = pd.read_excel('data/eunis_habitats.xlsx')
 def return_habitat_image(habitat_label):
         if img_tag:
             image_url = img_tag['src']
         else:
+            image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/a/ac/No_image_available.svg/2048px-No_image_available.svg.png"
     else:
+        image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/a/ac/No_image_available.svg/2048px-No_image_available.svg.png"
     image = gr.Image(value=image_url)
     return image
         if img_tag:
             image_url = img_tag['src']
         else:
+            image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/a/ac/No_image_available.svg/2048px-No_image_available.svg.png"
     else:
+        image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/a/ac/No_image_available.svg/2048px-No_image_available.svg.png"
     image = gr.Image(value=image_url)
     return image
 def gbif_normalization(text):
     all_species = text.split(',')
     all_species = [species.strip() for species in all_species]
     species_gbif = []
     for species in all_species:
+        gbif_match_result = pygbif.species.name_backbone(species, taxonRank="SPECIES")
+        if 'usage' in gbif_match_result:
+            r = gbif_match_result["usage"]["canonicalName"]
         else:
             r = species
         species_gbif.append(r)
             j = 0
             while True:
+                prediction = masking_model(masked_text)[j]
                 species = prediction['token_str']
                 if species in text_split or species in best_predictions:
                     j += 1