genmod / application_neo4j /app_algorithms.py
Quentin Lhoest
add app
f0806e2
# Importation des bibliothèques nécessaires
from graphdatascience import GraphDataScience
from typing import Dict, List, Any
import pandas as pd
def run_gds_bfs(gds: GraphDataScience, natural_graph_name: str, reverse_graph_name: str, source_name: str, max_depth: int = None, expert = False) -> Dict[str, Any]:
"""
Exécute un parcours en largeur (BFS) directionnel à l'aide de GDS pour trouver les descendants et les ascendants.
Cette fonction nécessite deux graphes pré-projetés en mémoire GDS :
- Un graphe "naturel" pour trouver les descendants (relations dans le sens source -> cible).
- Un graphe "inversé" pour trouver les ascendants (relations dans le sens cible -> source).
Args:
gds: L'objet de connexion à la bibliothèque Graph Data Science.
natural_graph_name: Le nom du graphe GDS projeté avec une orientation NATURELLE.
reverse_graph_name: Le nom du graphe GDS projeté avec une orientation INVERSÉE.
source_name: La propriété 'name' du nœud de départ de la recherche.
max_depth: La profondeur maximale de recherche. Si None, la recherche est illimitée.
Returns:
Un dictionnaire contenant l'ID du nœud source et deux DataFrames pandas :
un pour les chemins des descendants et un pour les chemins des ascendants.
"""
# GDS fonctionne avec des identifiants de nœuds internes (des nombres), pas avec des noms.
# La première étape est donc de trouver l'ID numérique de notre nœud de départ à partir de son nom.
try:
source_id_result = gds.run_cypher(
"""
MATCH (n {name: $source_name})
RETURN id(n) AS id , labels(n) as label
LIMIT 1
""",
{"source_name": source_name}
)
if source_id_result.empty or (source_id_result["label"][0]==["Author"] and not expert):
print(f"Le modèle ou dataset avec le nom '{source_name}' n'a pas été trouvé.")
return None # Retourne des DataFrames vides
# On récupère l'ID de la première ligne du résultat.
source_node_id = source_id_result['id'][0]
except Exception as e:
print(f"Erreur lors de la recherche de l'ID du nœud source pour '{source_name}': {e}")
return {"source_label": source_id_result["label"][0][0],"descendant": pd.DataFrame(), "ascendant": pd.DataFrame()}
# Préparation des paramètres pour l'algorithme BFS.
bfs_params = {'sourceNode': source_node_id}
print(bfs_params)
# Si une profondeur maximale est spécifiée, on l'ajoute aux paramètres.
if max_depth is not None:
bfs_params['maxDepth'] = max_depth
# --- Exécution du BFS pour trouver les DESCENDANTS sur le graphe NATUREL ---
# On récupère l'objet graphe depuis GDS.
g_natural = gds.graph.get(natural_graph_name)
# On exécute l'algorithme BFS en mode `stream` pour obtenir les chemins.
desc_df = gds.bfs.stream(g_natural, **bfs_params)
print("BFS pour les descendants sur le graphe naturel terminé.")
# --- Exécution du BFS pour trouver les ASCENDANTS sur le graphe INVERSÉ ---
# Utiliser un graphe inversé est très efficace pour trouver les parents/ancêtres.
g_reverse = gds.graph.get(reverse_graph_name)
asc_df = gds.bfs.stream(g_reverse, **bfs_params)
print("BFS pour les ascendants sur le graphe inversé terminé.")
print("DESC",desc_df)
print("ASC",asc_df)
print(source_id_result["label"][0][0])
# Retourne les résultats sous forme d'un dictionnaire structuré.
return {
"source_node": source_node_id,"source_label": source_id_result["label"][0][0],
"descendant": desc_df,
"ascendant": asc_df
}
def get_genealogy_highlights(gds: "GraphDataScience", model_name: str, num_highlights: int = 2) -> Dict:
"""
Trouve les modèles clés dans l'ascendance et la descendance (1er/2e plus cités/téléchargés).
Args:
gds: L'instance de GraphDataScience.
model_name: Le nom du modèle de départ.
num_highlights: Le nombre de modèles à récupérer pour chaque catégorie (par défaut 2).
Returns:
Un dictionnaire contenant les listes de modèles unifiés pour l'affichage.
"""
highlights = {
"desc_unique_models": [],
"asc_unique_models": []
}
# --- DÉFINITION CENTRALE DES BADGES ---
# Centraliser les badges ici rend le code beaucoup plus facile à modifier.
# Les classes CSS sont directement des classes Bootstrap 5 pour simplifier le rendu dans le template HTML.
badges_info = {
'desc_cited_1': {
'text': '1er + cité',
'class': 'bg-success',
'title': "Ce modèle est le plus cité parmi les modèles de la descendance."
},
'desc_cited_2': {
'text': '2e + cité',
'class': 'bg-success bg-opacity-75',
'title': "Ce modèle est le deuxième plus cité parmi les modèles de la descendance."
},
'desc_downloaded_1': {
'text': '1er + téléchargé',
'class': 'beta',
'title': "Ce modèle est le plus téléchargé parmi les modèles de la descendance."
},
'desc_downloaded_2': {
'text': '2e + téléchargé',
'class': 'alpha',
'title': "Ce modèle est le deuxième plus téléchargé parmi les modèles de la descendance."
},
'asc_foundation': {
'text': 'Modèle racine',
'class': 'bg-warning text-dark',
'title': "Ce modèle n'a pas de parent connu."
},
'asc_cited_1': {
'text': '1er + cité',
'class': 'bg-success',
'title': "Ce modèle est le plus cité parmi les modèles de l'ascendance."
},
'asc_cited_2': {
'text': '2e + cité',
'class': 'bg-success bg-opacity-75',
'title': "Ce modèle est le deuxième plus cité parmi les modèles de l'ascendance."
},
'asc_downloaded_1': {
'text': '1er + téléchargé',
'class': 'beta',
'title': "Ce modèle est le plus téléchargé parmi les modèles de l'ascendance."
},
'asc_downloaded_2': {
'text': '2e + téléchargé',
'class': 'alpha',
'title': "Ce modèle est le deuxième plus téléchargé parmi les modèles de l'ascendance."
},
}
def process_and_assign_badges(
unified_dict: Dict,
model_list: List[Dict],
badge_keys: List[str]
):
"""
Fonction utilitaire pour ajouter des modèles et leurs badges à un dictionnaire unifié.
Cela évite la duplication de code pour chaque catégorie (cité, téléchargé, etc.).
"""
for i, model in enumerate(model_list):
if i < len(badge_keys): # S'assurer qu'on a un badge défini pour ce rang
model_name_key = model['name']
badge_key = badge_keys[i]
# Ajouter le modèle au dictionnaire s'il n'y est pas déjà
if model_name_key not in unified_dict:
unified_dict[model_name_key] = model.copy()
unified_dict[model_name_key]['badges'] = []
# Ajouter le badge correspondant
badge_to_add = badges_info[badge_key]
if badge_to_add not in unified_dict[model_name_key]['badges']:
unified_dict[model_name_key]['badges'].append(badge_to_add)
# ==========================================================================
# 1. GESTION DE LA DESCENDANCE
# ==========================================================================
desc_downloads_query = """
MATCH (start:Model {name: $model_name})-[:USED_IN*1..]->(descendant:Model)
WHERE start <> descendant
WITH descendant, size([(m:Model)<-[:USED_IN]-(descendant) | m]) AS citation_count
RETURN descendant.name AS name, citation_count, descendant.downloads AS downloads, descendant.task AS task, descendant.license AS license, descendant.likes AS likes, descendant.createdAt AS createdAt
ORDER BY descendant.downloads DESC, descendant.name ASC
LIMIT $limit
"""
desc_cited_query = """
MATCH (start:Model {name: $model_name})-[:USED_IN*1..]->(descendant:Model)
WHERE start <> descendant
WITH descendant, size([(m:Model)<-[:USED_IN]-(descendant) | m]) AS citation_count
RETURN descendant.name AS name, citation_count, descendant.task AS task, descendant.downloads AS downloads, descendant.license AS license, descendant.likes AS likes, descendant.createdAt AS createdAt
ORDER BY citation_count DESC, descendant.name ASC
LIMIT $limit
"""
try:
params = {"model_name": model_name, "limit": num_highlights}
desc_downloaded_list = gds.run_cypher(desc_downloads_query, params).to_dict('records')
desc_cited_list = gds.run_cypher(desc_cited_query, params).to_dict('records')
desc_unified_models = {}
process_and_assign_badges(desc_unified_models, desc_cited_list, ['desc_cited_1', 'desc_cited_2'])
process_and_assign_badges(desc_unified_models, desc_downloaded_list, ['desc_downloaded_1', 'desc_downloaded_2'])
highlights["desc_unique_models"] = list(desc_unified_models.values())
except Exception as e:
print(f"Erreur lors de la recherche des descendants: {e}")
# ==========================================================================
# 2. GESTION DE L'ASCENDANCE
# ==========================================================================
asc_downloads_query = """
MATCH (ascendant:Model)-[:USED_IN*1..]->(start:Model {name: $model_name})
WHERE start <> ascendant
WITH ascendant, size([(m:Model)<-[:USED_IN]-(ascendant) | m]) AS citation_count
RETURN ascendant.name AS name, citation_count, ascendant.downloads AS downloads, ascendant.task AS task,
ascendant.license AS license, ascendant.likes AS likes, ascendant.createdAt AS createdAt
ORDER BY ascendant.downloads DESC
LIMIT 1 // On ne veut que LE plus téléchargé
"""
asc_cited_query = """
MATCH (ascendant:Model)-[:USED_IN*1..]->(start:Model {name: $model_name})
WHERE start <> ascendant
WITH ascendant, size([(m:Model)<-[:USED_IN]-(ascendant) | m]) AS citation_count
RETURN ascendant.name AS name, citation_count, ascendant.downloads AS downloads, ascendant.task AS task,
ascendant.license AS license, ascendant.likes AS likes, ascendant.createdAt AS createdAt
ORDER BY citation_count DESC
LIMIT 1 // On ne veut que LE plus cité
"""
foundation_query = """
MATCH (foundation:Model)-[:USED_IN*1..]->(start:Model {name: $model_name})
WHERE NOT EXISTS( (:Model)-[:USED_IN]->(foundation) )
WITH foundation, size([(m:Model)<-[:USED_IN]-(foundation) | m]) AS citation_count
RETURN DISTINCT foundation.name AS name, citation_count, foundation.downloads AS downloads, foundation.task AS task,
foundation.license AS license, foundation.likes AS likes, foundation.createdAt AS createdAt
LIMIT $limit
"""
try:
params = {"model_name": model_name, "limit": num_highlights}
asc_foundation_list = gds.run_cypher(foundation_query, params).to_dict('records')
asc_downloaded_list = gds.run_cypher(asc_downloads_query, params).to_dict('records')
asc_cited_list = gds.run_cypher(asc_cited_query, params).to_dict('records')
asc_unified_models = {}
# Ordre de priorité : Racine > Cité > Téléchargé
process_and_assign_badges(asc_unified_models, asc_foundation_list, ['asc_foundation'] * num_highlights) # Le badge racine s'applique à tous
process_and_assign_badges(asc_unified_models, asc_cited_list, ['asc_cited_1', 'asc_cited_2'])
process_and_assign_badges(asc_unified_models, asc_downloaded_list, ['asc_downloaded_1', 'asc_downloaded_2'])
highlights["asc_unique_models"] = list(asc_unified_models.values())
except Exception as e:
print(f"Erreur lors de la recherche des ascendants: {e}")
return highlights
def create_node_data(node_props, label):
"""
Construit un dictionnaire de données pour chaque noeud
à afficher dans le graphe front-end.
"""
base_data = {
"id": node_props.get("name", "")
}
if label == "Author":
return {
**base_data,
"label": node_props.get("type", "Unknown"),
"followers": node_props.get("followers", 1)
}
elif label == "Model":
licens_ =str(node_props.get("license", "Inconnue")).strip("[]")
if licens_ =="\'other\'" or pd.isna(licens_) or licens_ =="nan":
licens_ = "Autre"
tache = node_props.get("task", "")
if tache =="unknown":
tache = "Inconnue"
return {
**base_data,
"label": "Modèle",
"downloads": node_props.get("downloads", 1),
"likes": node_props.get("likes", 0),
"license": licens_,
"createdAt": node_props.get("createdAt", "inconnue"),
"createdAt_dataset": node_props.get("createdAt_dataset", "inconnue"),
"task": tache,
"author": node_props.get("author", ""),"dataset": node_props.get("dataset", ""),
"ascendantsCount": node_props.get("ascendantsCount", 0),"descendantsCount": node_props.get("descendantsCount", 0),
"citationCount": node_props.get("citationCount", 0), "distance":node_props.get("distance", 0)
}
else: # Dataset or other
return {
**base_data,
"label": "Dataset",
"downloads": node_props.get("downloads", 1),
"createdAt_dataset": node_props.get("createdAt_dataset", "inconnue")
}
return { "id": node_props['name'], "label": label, **node_props }