Spaces:

jattokatarratto
/

MultiNER-simplified

Sleeping

App Files Files Community

jattokatarratto commited on Feb 7

Commit

0c212bd

verified ·

1 Parent(s): 9eefd88

Update app.py

Browse files

Files changed (1) hide show

app.py +309 -106

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import os
 from transformers import file_utils
 print(file_utils.default_cache_path)
@@ -11,14 +10,21 @@ import logging
 import time
-from transformers import pipeline, AutoTokenizer
 from transformers.pipelines.pt_utils import KeyDataset
 from concurrent.futures import ThreadPoolExecutor, as_completed
 from collections import Counter
 import torch
-torch.cuda.empty_cache()  # Clear cache ot torch
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 print(f"Device: {device}...")
@@ -116,6 +122,135 @@ for modelName in models_List:
                 modelGliner = GLiNER.from_pretrained(modelName, map_location=device)
 def process_row_Gliner(args, tokenizerGliner, modelGlinerBio, modelGliner, glinerlabels, row):
     context_to_annotate = row[args.source_column]
@@ -361,12 +496,12 @@ def annotate(df, args, pipeInner, tokenizerGliner, modelGliner, modelGlinerBio,
         #https://data.bioontology.org/documentation#nav_annotator
         #https://bioportal.bioontology.org/annotatorplus
-        #key_bioportal = ""
-        #if args.bioportalkey_filename:
-        #    fkeyname = args.bioportalkey_filename
-        #    with open(fkeyname) as f:
-        #        key_bioportal = f.read()
-        key_bioportal = os.environ['key_bioportal']
         df_annot = pd.DataFrame()
         for drm_idx, row in tqdm(df.iterrows()):
@@ -941,13 +1076,13 @@ def getUrlBioAndAllOtherBioConcepts(word, args, key_virtuoso, cache_map_virtuoso
     entityBioeUrl = None
     ALLURIScontext = []
-    #key_bioportal = ""
-    #if args.bioportalkey_filename:
-    #    fkeyname = args.bioportalkey_filename
-    #    with open(fkeyname) as f:
-    #        key_bioportal = f.read()
-    key_bioportal = os.environ['key_bioportal']
     # Check if args.KG_restriction exists and is not empty
     if getattr(args, 'KG_restriction', None):
@@ -1225,7 +1360,7 @@ def getUrlBioAndAllOtherBioConcepts(word, args, key_virtuoso, cache_map_virtuoso
-def getLinearTextualContextFromTriples(word,labelTriplesLIST, text_splitter, args, map_query_input_output, cleanInput=True):
     # trial
     #return None, map_query_input_output
@@ -1233,93 +1368,160 @@ def getLinearTextualContextFromTriples(word,labelTriplesLIST, text_splitter, arg
     word = word.lower()
     word = word.capitalize()
-    labelTriples = ". ".join(" ".join(element.capitalize() for element in triple) for triple in labelTriplesLIST)
     if token_counter(labelTriples, args.model_name) > args.tokens_max:  # THE CONTEXT IS TOO BIG, BIGGER THAN tokens_max, I need to split
         texts = text_splitter.create_documents([labelTriples])
         labelTriples = texts[0].page_content
-    #Can you elaborate and express better the following notes, delimited by triple backticks, about "{word}"?
-    #Don't add explanations for your answer. Do not invent. Don't use a structure or indenting. Be concise. Don't discard relevant information.
-    #made of RDF-like statements,
     contextText = ""
-    # myPromt = f"""
-    # Can you elaborate and express better the given notes below, delimited by triple backticks, about "{word}"?
-    # Don't add explanations for your answer.
-    # Do not invent.
-    # Don't use a structure or indenting.
-    # Be concise but exhaustive. Don't discard information reported in the notes.
-    # """
-    myPromt = f"""
-    Can you reformulate the following notes, provided between triple backticks, into clear and complete sentences about "{word}"?
-    Ensure the rewriting is human-readable and easily interpretable. Maintain conciseness and exhaustiveness, including all information from the notes.
-    Avoid using note formats or lists, and refrain from inventing additional information.
-    """
-    myDelimiter = "```"
-    if not(labelTriples) or labelTriples.strip=="":
-        logging.warning("No text or promt supplied! Skypping it!")
-        return contextText, map_query_input_output
-    if cleanInput==True:
-        labelTriples = cleanInputText(labelTriples)
-    # try to read cache
-    if map_query_input_output is not None:
-        key = args.model_name + "__" + str(args.temperature) + "__" + myPromt
-        if key in map_query_input_output:
-            if labelTriples in map_query_input_output[key]:
-                output = map_query_input_output[key][labelTriples]
-                # if input_text.strip() == "":
-                #     print("here")
-                # if handler == api_call_dglc:
-                #     output = clean_gpt_out(output) #clean output
-                if strtobool(args.debug):
-                    print("RETRIEVED CACHED RESULT FOR:\n", myPromt, "\n", myDelimiter, word, myDelimiter, "\n=>\n", output, "\n")
-                return output, map_query_input_output
-    #  call
-    try:
-        contextText = ""
-        # if args.service_provider == "gptjrc":
-        #     contextText = call_model(input_text=labelTriples, prompt=myPromt, model=args.model_name,
-        #                       temperature=args.temperature, delimiter=myDelimiter,
-        #                       InContextExamples=[],
-        #                       handler=api_call_gptjrc,
-        #                       verbose=True, args=args)
-        if contextText:
-            if not isinstance(contextText, str):
-                contextText = contextText['choices'][0]['message']['content']
-        if map_query_input_output is not None:
-            if not key in map_query_input_output:
-                map_query_input_output[key] = {}
             if contextText:
-                if contextText != "":
-                    map_query_input_output[key][labelTriples] = contextText
-    except Exception as err:
-        return None, map_query_input_output
     return contextText, map_query_input_output
 #@mem.cache
-def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output, id=None, iALLURIScontextFromNCBO=None,UseBioportalForLinking=True):
     if strtobool(args.debug):
         print(f"\n----- Starting virtuoso_api_call for {word}")
@@ -1374,7 +1576,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
     else:
         try:
-            entityBioeUrl, ALLURIScontext, cache_map_virtuoso =  getUrlBioAndAllOtherBioConcepts(word, args, key_virtuoso, cache_map_virtuoso, endpoint, VirtuosoUsername, contextWordVirtuoso, UseBioportalForLinking=UseBioportalForLinking )
             if ALLURIScontext and isinstance(ALLURIScontext, list):
                 ALLURIScontext = list(set(ALLURIScontext))
         except Exception as err:
@@ -1404,7 +1606,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                         unique_listLabelTriples = cache_map_virtuoso[entityBioeUrl]["LabelTriples"]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", entityBioeUrl, " => ", "LabelTriples", "\n")
-                    if "SingleContext" in cache_map_virtuoso[entityBioeUrl]:
                         singleContext = cache_map_virtuoso[entityBioeUrl]["SingleContext"]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", entityBioeUrl, " => ", "SingleContext", "\n")
@@ -1414,7 +1616,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                 if unique_listLabelTriples:
                     singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(word, unique_listLabelTriples,
                                                                                                     text_splitter, args,
-                                                                                                    load_map_query_input_output)
                 else:
                     query = f"""
@@ -1491,13 +1693,13 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                                         cache_map_virtuoso[entityBioeUrl] = {}
                                     cache_map_virtuoso[entityBioeUrl]["LabelTriples"] = unique_listLabelTriples
-                                singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(word, unique_listLabelTriples, text_splitter, args, load_map_query_input_output)
                     except Exception as err:
                         singleContext = None
-                if singleContext:
                     if cache_map_virtuoso is not None:
                         if not entityBioeUrl in cache_map_virtuoso:
                             cache_map_virtuoso[entityBioeUrl] = {}
@@ -1518,7 +1720,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                         unique_listGlobalTriples = cache_map_virtuoso[word][("GlobalTriples"+" "+contextWordVirtuoso).strip()]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", word, " => ", ("GlobalTriples"+" "+contextWordVirtuoso).strip(), "\n")
-                    if ("GlobalContext"+" "+contextWordVirtuoso).strip() in cache_map_virtuoso[word]:
                         globalContext = cache_map_virtuoso[word][("GlobalContext"+" "+contextWordVirtuoso).strip()]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", word, " => ", ("GlobalContext"+" "+contextWordVirtuoso).strip(), "\n")
@@ -1528,7 +1730,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                 if unique_listGlobalTriples:
                     globalContext, load_map_query_input_output = getLinearTextualContextFromTriples(word, unique_listGlobalTriples,
                                                                                                     text_splitter, args,
-                                                                                                    load_map_query_input_output)
                 else:
                     if not ALLURIScontext:
@@ -1554,7 +1756,8 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                                                                                                                 endpoint,
                                                                                                                 VirtuosoUsername,
                                                                                                                 contextWordVirtuoso,
-                                                                                                                UseBioportalForLinking=UseBioportalForLinking)
                             if ALLURIScontext and isinstance(ALLURIScontext, list):
                                 ALLURIScontext = list(set(ALLURIScontext))
@@ -1588,7 +1791,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                                         if strtobool(args.debug):
                                             print("RETRIEVED CACHED RESULT FOR:\n", xxUrl, " => ",
                                                   "LabelTriples", "\n")
-                                    # if "SingleContext" in cache_map_virtuoso[xxUrl]:
                                     #     singleContext = cache_map_virtuoso[xxUrl]["SingleContext"]
                                     #     if strtobool(args.debug):
                                     #         print("RETRIEVED CACHED RESULT FOR:\n", xxUrl, " => ",
@@ -1599,7 +1802,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                             #         singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(
                             #             word, unique_listLabelTriples,
                             #             text_splitter, args,
-                            #             load_map_query_input_output)
                             #     else:
                             if not unique_listLabelTriples:
@@ -1681,9 +1884,9 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                                                     "LabelTriples"] = unique_listLabelTriples
                                             # singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(
-                                            #     word, unique_listLabelTriples, text_splitter, args, load_map_query_input_output)
                                             #
-                                            # if singleContext:
                                             #     if cache_map_virtuoso is not None:
                                             #         if not xxUrl in cache_map_virtuoso:
                                             #             cache_map_virtuoso[xxUrl] = {}
@@ -1715,9 +1918,9 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
                         globalContext, load_map_query_input_output = getLinearTextualContextFromTriples(word,
                                                                                                         unique_listGlobalTriples,
                                                                                                         text_splitter, args,
-                                                                                                        load_map_query_input_output)
-                if globalContext:
                     if cache_map_virtuoso is not None:
                         if not word in cache_map_virtuoso:
                             cache_map_virtuoso[word] = {}
@@ -1725,7 +1928,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
     if unique_listLabelTriples:
         sssingleTriples = " ,., ".join(
-            " ,,, ".join(element.capitalize() for element in triple) for triple in unique_listLabelTriples)
         while "\\n" in sssingleTriples:
             sssingleTriples = sssingleTriples.replace("\\n", " ")
             sssingleTriples = sssingleTriples.strip()
@@ -1735,7 +1938,7 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
     if unique_listGlobalTriples:
         ggglobalTriples = " ,., ".join(
-            " ,,, ".join(element.capitalize() for element in triple) for triple in unique_listGlobalTriples)
         while "\\n" in ggglobalTriples:
             ggglobalTriples = ggglobalTriples.replace("\\n", " ")
             ggglobalTriples = ggglobalTriples.strip()
@@ -1747,8 +1950,6 @@ def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuos
 def process_row4Linking(row, text_splitter, args, key_geonames, cache_map_geonames, key_virtuoso, cache_map_virtuoso, load_map_query_input_output):
     result = None
@@ -1790,7 +1991,7 @@ def process_row4Linking(row, text_splitter, args, key_geonames, cache_map_geonam
                 if strtobool(args.debug):
                     print(f"\n----- isBio COMPUTING ... {row['word']} IN THE TEXT:")
                     print(row[args.source_column])
-                result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output, id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO, UseBioportalForLinking=True)
         else:
             if row['model'] == "Forced":
@@ -1815,12 +2016,12 @@ def process_row4Linking(row, text_splitter, args, key_geonames, cache_map_geonam
                 result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(
                     row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output,
-                    id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO,UseBioportalForLinking=True)
                 if not result:  #try annotation without bioportal
                     result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(
                         row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output,
-                        id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO, UseBioportalForLinking=False)
     else:
         if (row['IsBio'] == 1) or ( (pd.isnull(row["IsBio"]) or row["IsBio"] == '' or row['IsBio'] == 0 or row["IsBio"] is None) and (row['entity_group'] == "MISC") ):
@@ -1844,7 +2045,7 @@ def process_row4Linking(row, text_splitter, args, key_geonames, cache_map_geonam
                         iiiALLURIScontextFromNCBO = list(set(iiiALLURIScontextFromNCBO))
             result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(
-                row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output, id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO,UseBioportalForLinking=True)
     return result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_geonames, cache_map_virtuoso, load_map_query_input_output, row.name
@@ -1981,6 +2182,8 @@ def nerBio(text, ModelsSelection, CategoriesSelection, ScoreFilt, EntityLinking,
                         help="whether to extract a readable context from the extracted triples for the concept")
     parser.add_argument("--computeEntityGlobalContext", type=str, default="False",
                         help="whether to extract a readable context from the extracted triples of all the entities extracted from the endpoint for the concept")
     parser.add_argument("--service_provider", type=str, default="no", help="llm service provider")
     parser.add_argument("--model_name", type=str, default="no", help="llm to use")
@@ -2107,12 +2310,12 @@ def nerBio(text, ModelsSelection, CategoriesSelection, ScoreFilt, EntityLinking,
                 else:
                     cache_map_geonames = {}
-            #key_geonames = ""
-            #if args.geonameskey_filename:
-            #    fkeyname = args.geonameskey_filename
-            #    with open(fkeyname) as f:
-            #        key_geonames = f.read()
-            key_geonames = os.environ['key_geonames']
             cache_map_virtuoso = None
             if strtobool(args.USE_CACHE):
@@ -2123,12 +2326,12 @@ def nerBio(text, ModelsSelection, CategoriesSelection, ScoreFilt, EntityLinking,
                 else:
                     cache_map_virtuoso = {}
-            #key_virtuoso = ""
-            #if args.virtuosokey_filename:
-            #    fkeyname = args.virtuosokey_filename
-            #    with open(fkeyname) as f:
-            #        key_virtuoso = f.read()
-            key_virtuoso = os.environ['key_virtuoso']
             # Here for the EXACT MATCHING "" - if the desired term has not been identified in the NER, add to the dataframe:

 import os
 from transformers import file_utils
 print(file_utils.default_cache_path)
 import time
+import sys
+from transformers import pipeline, AutoTokenizer, AutoModel
 from transformers.pipelines.pt_utils import KeyDataset
+from sentence_transformers.util import cos_sim
+from typing import Dict
 from concurrent.futures import ThreadPoolExecutor, as_completed
 from collections import Counter
+#os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:512"
+#os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'
 import torch
+#torch.cuda.empty_cache()  # Clear cache ot torch
 device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 print(f"Device: {device}...")
                 modelGliner = GLiNER.from_pretrained(modelName, map_location=device)
+# 1. Load the model and tokenizer
+model_id_Retriever = 'mixedbread-ai/mxbai-embed-large-v1'
+tokenizer_Retriever = AutoTokenizer.from_pretrained(model_id_Retriever)
+modelRetriever = AutoModel.from_pretrained(model_id_Retriever)
+def RAG_retrieval_Base(queryText, passages, min_threshold=0.0, max_num_passages=None):
+    similarities = retrievePassageSimilarities(queryText, passages)
+    # Create a DataFrame
+    df = pd.DataFrame({
+        'Passage': passages,
+        'Similarity': similarities.flatten()  # Flatten the similarity tensor/array to ensure compatibility
+    })
+    # Filter the DataFrame based on the similarity threshold
+    df_filtered = df[df['Similarity'] >= min_threshold]
+    # If max_num_passages is specified, limit the number of passages returned
+    if max_num_passages is not None:
+        df_filtered = df_filtered.nlargest(max_num_passages, 'Similarity')
+    df_filtered = df_filtered.sort_values(by='Similarity', ascending=False)
+    # Return the filtered DataFrame
+    return df_filtered
+def RAG_retrieval_Percentile(queryText, passages, percentile=90, max_num_passages=None, min_threshold=0.5):
+    # Encoding and similarity computation remains the same
+    similarities = retrievePassageSimilarities(queryText, passages)
+    # Determine threshold based on percentile
+    threshold = np.percentile(similarities.flatten(), percentile)
+    # Create a DataFrame
+    df = pd.DataFrame({
+        'Passage': passages,
+        'Similarity': similarities.flatten()
+    })
+    # Filter using percentile threshold
+    df_filtered = df[df['Similarity'] >= threshold]
+    if min_threshold:
+        # Filter the DataFrame also on min similarity threshold
+        df_filtered = df[df['Similarity'] >= min_threshold]
+    # If max_num_passages is specified, limit the number of passages returned
+    if max_num_passages is not None:
+        df_filtered = df_filtered.nlargest(max_num_passages, 'Similarity')
+    # Sort by similarity
+    df_filtered = df_filtered.sort_values(by='Similarity', ascending=False)
+    return df_filtered
+def RAG_retrieval_TopK(queryText, passages, top_fraction=0.1, max_num_passages=None, min_threshold=0.5):
+    # Encoding and similarity computation remains the same
+    similarities = retrievePassageSimilarities(queryText, passages)
+    # Calculate the number of passages to select based on top fraction
+    num_passages_TopFraction = max(1, int(top_fraction * len(passages)))
+    # Create a DataFrame
+    df = pd.DataFrame({
+        'Passage': passages,
+        'Similarity': similarities.flatten()
+    })
+    # Select the top passages dynamically
+    df_filtered = df.nlargest(num_passages_TopFraction, 'Similarity')
+    if min_threshold:
+        # Filter the DataFrame also on min similarity threshold
+        df_filtered = df[df['Similarity'] >= min_threshold]
+    # If max_num_passages is specified, limit the number of passages returned
+    if max_num_passages is not None:
+        df_filtered = df_filtered.nlargest(max_num_passages, 'Similarity')
+    # Sort by similarity
+    df_filtered = df_filtered.sort_values(by='Similarity', ascending=False)
+    return df_filtered
+# Define the transform_query function
+def transform_query(queryText: str) -> str:
+    """For retrieval, add the prompt for queryText (not for documents)."""
+    return f'Represent this sentence for searching relevant passages: {queryText}'
+# Define the pooling function
+def pooling(outputs: torch.Tensor, inputs: Dict, strategy: str = 'cls') -> np.ndarray:
+    if strategy == 'cls':
+        outputs = outputs[:, 0]
+    elif strategy == 'mean':
+        outputs = torch.sum(
+            outputs * inputs["attention_mask"][:, :, None], dim=1
+        ) / torch.sum(inputs["attention_mask"], dim=1, keepdim=True)
+    else:
+        raise NotImplementedError
+    return outputs.detach().cpu().numpy()
+def retrievePassageSimilarities(queryText, passages):
+    # Create the docs list by adding the transformed queryText and then the passages
+    docs = [transform_query(queryText)] + passages
+    # 2. Encode the inputs
+    inputs = tokenizer_Retriever(docs, padding=True, return_tensors='pt')
+    # Move inputs to the right device using accelerator
+    inputs = {k: v.to(device) for k, v in inputs.items()}
+    outputs = modelRetriever(**inputs).last_hidden_state
+    embeddings = pooling(outputs, inputs, 'cls')
+    similarities = cos_sim(embeddings[0], embeddings[1:])
+    # print('similarities:', similarities)
+    return similarities
 def process_row_Gliner(args, tokenizerGliner, modelGlinerBio, modelGliner, glinerlabels, row):
     context_to_annotate = row[args.source_column]
         #https://data.bioontology.org/documentation#nav_annotator
         #https://bioportal.bioontology.org/annotatorplus
+        key_bioportal = ""
+        if args.bioportalkey_filename:
+            fkeyname = args.bioportalkey_filename
+            with open(fkeyname) as f:
+                key_bioportal = f.read()
+        #key_bioportal = os.environ['key_bioportal']
         df_annot = pd.DataFrame()
         for drm_idx, row in tqdm(df.iterrows()):
     entityBioeUrl = None
     ALLURIScontext = []
+    key_bioportal = ""
+    if args.bioportalkey_filename:
+        fkeyname = args.bioportalkey_filename
+        with open(fkeyname) as f:
+            key_bioportal = f.read()
+    #key_bioportal = os.environ['key_bioportal']
     # Check if args.KG_restriction exists and is not empty
     if getattr(args, 'KG_restriction', None):
+def getLinearTextualContextFromTriples(word,labelTriplesLIST, text_splitter, args, map_query_input_output, cleanInput=True, questionText=""):
     # trial
     #return None, map_query_input_output
     word = word.lower()
     word = word.capitalize()
+    if (strtobool(args.UseRetrieverForContextCreation)==True):
+        labelTriples = ""
+        passages = []
+        nn=200
+        for i, triple in enumerate(labelTriplesLIST, start=1):
+        #for triple in labelTriplesLIST:
+            TriplesString = (" ".join(str(element).capitalize() for element in triple))
+            passages.append(TriplesString)
+            # Check if the current index is a multiple of nn
+            if i % nn == 0:
+                #print("elaborate RAG triples")
+                #df_retrieved_Base = RAG_retrieval_Base(questionText, passages, min_threshold=0.7, max_num_passages=50)
+                #df_retrievedZscore = RAG_retrieval_Z_scores(questionText, passages, z_threshold=1.0,  max_num_passages=50, min_threshold=0.65)
+                #df_retrievedPercentile = RAG_retrieval_Percentile(questionText, passages, percentile=90,  max_num_passages=50, min_threshold=0.65)
+                df_retrievedtopk = RAG_retrieval_TopK(questionText, passages, top_fraction=0.1, max_num_passages=50, min_threshold=0.65)
+                passages = []
+                df_retrieved = df_retrievedtopk.copy()
+                if not df_retrieved.empty:
+                    labelTriplesLIST_RAGGED = df_retrieved.to_records(index=False).tolist()
+                    labelTriplesAPP = ". ".join(" ".join(str(element).capitalize() for element in triple) for triple in labelTriplesLIST_RAGGED)
+                    if not labelTriples:
+                        labelTriples =labelTriplesAPP
+                    else:
+                        labelTriples = labelTriples + ". " + labelTriplesAPP
+        if passages:
+            df_retrievedtopk = RAG_retrieval_TopK(questionText, passages, top_fraction=0.1, max_num_passages=50, min_threshold=0.65)
+            df_retrieved = df_retrievedtopk.copy()
+            if not df_retrieved.empty:
+                labelTriplesLIST_RAGGED = df_retrieved.to_records(index=False).tolist()
+                labelTriplesAPP = ". ".join(" ".join(str(element).capitalize() for element in triple) for triple in labelTriplesLIST_RAGGED)
+                if not labelTriples:
+                    labelTriples = labelTriplesAPP
+                else:
+                    labelTriples = labelTriples + ". " + labelTriplesAPP
+        if labelTriples:
+            labelTriples.strip().replace("..",".").strip()
+    else:
+        labelTriples = ". ".join(" ".join(str(element).capitalize() for element in triple) for triple in labelTriplesLIST)
+    if not(labelTriples) or labelTriples.strip=="":
+        logging.warning("No text or prompt supplied! Skypping it!")
+        return "", map_query_input_output
     if token_counter(labelTriples, args.model_name) > args.tokens_max:  # THE CONTEXT IS TOO BIG, BIGGER THAN tokens_max, I need to split
         texts = text_splitter.create_documents([labelTriples])
         labelTriples = texts[0].page_content
+        if not (labelTriples) or labelTriples.strip == "":
+            logging.warning("after splitting ...No text or prompt supplied! Skypping it!")
+            return "", map_query_input_output
     contextText = ""
+    if (strtobool(args.UseRetrieverForContextCreation) == True):
+        contextText = labelTriples
+    else:  #USE the LLM for summarise the triples
+        # Can you elaborate and express better the following notes, delimited by triple backticks, about "{word}"?
+        # Don't add explanations for your answer. Do not invent. Don't use a structure or indenting. Be concise. Don't discard relevant information.
+        # made of RDF-like statements,
+        # myPromt = f"""
+        # Can you elaborate and express better the given notes below, delimited by triple backticks, about "{word}"?
+        # Don't add explanations for your answer.
+        # Do not invent.
+        # Don't use a structure or indenting.
+        # Be concise but exhaustive. Don't discard information reported in the notes.
+        # """
+        myPromt = f"""
+        Can you reformulate the following notes, provided between triple backticks, into clear and complete sentences about "{word}"?
+        Ensure the rewriting is human-readable and easily interpretable. Maintain conciseness and exhaustiveness, including all information from the notes.
+        Avoid using note formats or lists, and refrain from inventing additional information.
+        """
+        myDelimiter = "```"
+        if cleanInput==True:
+            labelTriples = cleanInputText(labelTriples)
+        # try to read cache
+        if map_query_input_output is not None:
+            key = args.model_name + "__" + str(args.temperature) + "__" + myPromt
+            if key in map_query_input_output:
+                if labelTriples in map_query_input_output[key]:
+                    output = map_query_input_output[key][labelTriples]
+                    # if input_text.strip() == "":
+                    #     print("here")
+                    # if handler == api_call_dglc:
+                    #     output = clean_gpt_out(output) #clean output
+                    if strtobool(args.debug):
+                        print("RETRIEVED CACHED RESULT FOR:\n", myPromt, "\n", myDelimiter, word, myDelimiter, "\n=>\n", output, "\n")
+                    return output, map_query_input_output
+        #  call
+        try:
+            contextText = ""
+            # if args.service_provider == "gptjrc":
+            #     contextText = call_model(input_text=labelTriples, prompt=myPromt, model=args.model_name,
+            #                       temperature=args.temperature, delimiter=myDelimiter,
+            #                       InContextExamples=[],
+            #                       handler=api_call_gptjrc,
+            #                       verbose=True, args=args)
+            # elif args.service_provider == "HFonPremises":
+            #     contextText = call_model(input_text=labelTriples, prompt=myPromt, model=args.model_name,
+            #                              temperature=args.temperature, delimiter=myDelimiter,
+            #                              InContextExamples=[],
+            #                              handler=api_call_HFonPremises,
+            #                              verbose=True, args=args)
             if contextText:
+                if not isinstance(contextText, str):
+                    contextText = contextText['choices'][0]['message']['content']
+            if map_query_input_output is not None:
+                if not key in map_query_input_output:
+                    map_query_input_output[key] = {}
+                if contextText:
+                    if contextText != "":
+                        map_query_input_output[key][labelTriples] = contextText
+        except Exception as err:
+            return None, map_query_input_output
     return contextText, map_query_input_output
 #@mem.cache
+def virtuoso_api_call(word, text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output, id=None, iALLURIScontextFromNCBO=None,UseBioportalForLinking=True,questionText=""):
     if strtobool(args.debug):
         print(f"\n----- Starting virtuoso_api_call for {word}")
     else:
         try:
+            entityBioeUrl, ALLURIScontext, cache_map_virtuoso =  getUrlBioAndAllOtherBioConcepts(word, args, key_virtuoso, cache_map_virtuoso, endpoint, VirtuosoUsername, contextWordVirtuoso, UseBioportalForLinking=UseBioportalForLinking, questionText=questionText )
             if ALLURIScontext and isinstance(ALLURIScontext, list):
                 ALLURIScontext = list(set(ALLURIScontext))
         except Exception as err:
                         unique_listLabelTriples = cache_map_virtuoso[entityBioeUrl]["LabelTriples"]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", entityBioeUrl, " => ", "LabelTriples", "\n")
+                    if ("SingleContext" in cache_map_virtuoso[entityBioeUrl]) and (strtobool(args.UseRetrieverForContextCreation)==False):
                         singleContext = cache_map_virtuoso[entityBioeUrl]["SingleContext"]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", entityBioeUrl, " => ", "SingleContext", "\n")
                 if unique_listLabelTriples:
                     singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(word, unique_listLabelTriples,
                                                                                                     text_splitter, args,
+                                                                                                    load_map_query_input_output,cleanInput=True,questionText=questionText)
                 else:
                     query = f"""
                                         cache_map_virtuoso[entityBioeUrl] = {}
                                     cache_map_virtuoso[entityBioeUrl]["LabelTriples"] = unique_listLabelTriples
+                                singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(word, unique_listLabelTriples, text_splitter, args, load_map_query_input_output,cleanInput=True,questionText=questionText)
                     except Exception as err:
                         singleContext = None
+                if singleContext and (strtobool(args.UseRetrieverForContextCreation)==False):
                     if cache_map_virtuoso is not None:
                         if not entityBioeUrl in cache_map_virtuoso:
                             cache_map_virtuoso[entityBioeUrl] = {}
                         unique_listGlobalTriples = cache_map_virtuoso[word][("GlobalTriples"+" "+contextWordVirtuoso).strip()]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", word, " => ", ("GlobalTriples"+" "+contextWordVirtuoso).strip(), "\n")
+                    if (("GlobalContext"+" "+contextWordVirtuoso).strip() in cache_map_virtuoso[word]) and (strtobool(args.UseRetrieverForContextCreation)==False):
                         globalContext = cache_map_virtuoso[word][("GlobalContext"+" "+contextWordVirtuoso).strip()]
                         if strtobool(args.debug):
                             print("RETRIEVED CACHED RESULT FOR:\n", word, " => ", ("GlobalContext"+" "+contextWordVirtuoso).strip(), "\n")
                 if unique_listGlobalTriples:
                     globalContext, load_map_query_input_output = getLinearTextualContextFromTriples(word, unique_listGlobalTriples,
                                                                                                     text_splitter, args,
+                                                                                                    load_map_query_input_output,cleanInput=True,questionText=questionText)
                 else:
                     if not ALLURIScontext:
                                                                                                                 endpoint,
                                                                                                                 VirtuosoUsername,
                                                                                                                 contextWordVirtuoso,
+                                                                                                                UseBioportalForLinking=UseBioportalForLinking,
+                                                                                                                questionText=questionText)
                             if ALLURIScontext and isinstance(ALLURIScontext, list):
                                 ALLURIScontext = list(set(ALLURIScontext))
                                         if strtobool(args.debug):
                                             print("RETRIEVED CACHED RESULT FOR:\n", xxUrl, " => ",
                                                   "LabelTriples", "\n")
+                                    # if "SingleContext" in cache_map_virtuoso[xxUrl] and (strtobool(args.UseRetrieverForContextCreation)==False):
                                     #     singleContext = cache_map_virtuoso[xxUrl]["SingleContext"]
                                     #     if strtobool(args.debug):
                                     #         print("RETRIEVED CACHED RESULT FOR:\n", xxUrl, " => ",
                             #         singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(
                             #             word, unique_listLabelTriples,
                             #             text_splitter, args,
+                            #             load_map_query_input_output, cleanInput=True, questionText=questionText)
                             #     else:
                             if not unique_listLabelTriples:
                                                     "LabelTriples"] = unique_listLabelTriples
                                             # singleContext, load_map_query_input_output = getLinearTextualContextFromTriples(
+                                            #     word, unique_listLabelTriples, text_splitter, args, load_map_query_input_output, cleanInput=True, questionText=questionText)
                                             #
+                                            # if singleContext and (strtobool(args.UseRetrieverForContextCreation)==False):
                                             #     if cache_map_virtuoso is not None:
                                             #         if not xxUrl in cache_map_virtuoso:
                                             #             cache_map_virtuoso[xxUrl] = {}
                         globalContext, load_map_query_input_output = getLinearTextualContextFromTriples(word,
                                                                                                         unique_listGlobalTriples,
                                                                                                         text_splitter, args,
+                                                                                                        load_map_query_input_output, cleanInput=True, questionText=questionText)
+                if globalContext and (strtobool(args.UseRetrieverForContextCreation)==False):
                     if cache_map_virtuoso is not None:
                         if not word in cache_map_virtuoso:
                             cache_map_virtuoso[word] = {}
     if unique_listLabelTriples:
         sssingleTriples = " ,., ".join(
+            " ,,, ".join(str(element).capitalize() for element in triple) for triple in unique_listLabelTriples)
         while "\\n" in sssingleTriples:
             sssingleTriples = sssingleTriples.replace("\\n", " ")
             sssingleTriples = sssingleTriples.strip()
     if unique_listGlobalTriples:
         ggglobalTriples = " ,., ".join(
+            " ,,, ".join(str(element).capitalize() for element in triple) for triple in unique_listGlobalTriples)
         while "\\n" in ggglobalTriples:
             ggglobalTriples = ggglobalTriples.replace("\\n", " ")
             ggglobalTriples = ggglobalTriples.strip()
 def process_row4Linking(row, text_splitter, args, key_geonames, cache_map_geonames, key_virtuoso, cache_map_virtuoso, load_map_query_input_output):
     result = None
                 if strtobool(args.debug):
                     print(f"\n----- isBio COMPUTING ... {row['word']} IN THE TEXT:")
                     print(row[args.source_column])
+                result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output, id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO, UseBioportalForLinking=True, questionText=row[args.source_column])
         else:
             if row['model'] == "Forced":
                 result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(
                     row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output,
+                    id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO,UseBioportalForLinking=True,questionText=row[args.source_column])
                 if not result:  #try annotation without bioportal
                     result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(
                         row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output,
+                        id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO, UseBioportalForLinking=False,questionText=row[args.source_column])
     else:
         if (row['IsBio'] == 1) or ( (pd.isnull(row["IsBio"]) or row["IsBio"] == '' or row['IsBio'] == 0 or row["IsBio"] is None) and (row['entity_group'] == "MISC") ):
                         iiiALLURIScontextFromNCBO = list(set(iiiALLURIScontextFromNCBO))
             result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_virtuoso, load_map_query_input_output = virtuoso_api_call(
+                row['word'], text_splitter, args, key_virtuoso, cache_map_virtuoso, load_map_query_input_output, id=iiid, iALLURIScontextFromNCBO=iiiALLURIScontextFromNCBO,UseBioportalForLinking=True,questionText=row[args.source_column])
     return result, ALLURIScontext, singleContext, globalContext, singleTriples, globalTriples, cache_map_geonames, cache_map_virtuoso, load_map_query_input_output, row.name
                         help="whether to extract a readable context from the extracted triples for the concept")
     parser.add_argument("--computeEntityGlobalContext", type=str, default="False",
                         help="whether to extract a readable context from the extracted triples of all the entities extracted from the endpoint for the concept")
+    parser.add_argument("--UseRetrieverForContextCreation", type=str, default="True",
+                        help="whether to use a retriever for the creation of the context of the entities from the triples coming from the KGs")
     parser.add_argument("--service_provider", type=str, default="no", help="llm service provider")
     parser.add_argument("--model_name", type=str, default="no", help="llm to use")
                 else:
                     cache_map_geonames = {}
+            key_geonames = ""
+            if args.geonameskey_filename:
+                fkeyname = args.geonameskey_filename
+                with open(fkeyname) as f:
+                    key_geonames = f.read()
+            #key_geonames = os.environ['key_geonames']
             cache_map_virtuoso = None
             if strtobool(args.USE_CACHE):
                 else:
                     cache_map_virtuoso = {}
+            key_virtuoso = ""
+            if args.virtuosokey_filename:
+                fkeyname = args.virtuosokey_filename
+                with open(fkeyname) as f:
+                    key_virtuoso = f.read()
+            #key_virtuoso = os.environ['key_virtuoso']
             # Here for the EXACT MATCHING "" - if the desired term has not been identified in the NER, add to the dataframe: