Spaces:

NextGenTech
/

AutomatedSemanticDiscovery

Sleeping

App Files Files Community

GaetanoParente commited on Mar 30

Commit

2fe50b2

1 Parent(s): 2e93420

aggiornato file readme.md

Browse files

Files changed (1) hide show

README.md +7 -6

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ short_description: Neurosymbolic prototype for automatic semantic discovery
 ![Neo4j](https://img.shields.io/badge/graphdb-Neo4j-green)
 ![Status](https://img.shields.io/badge/status-advanced%20prototype-orange)
-Questo repository contiene un **prototipo avanzato per la scoperta semantica automatica (Automated Semantic Discovery)**. Il sistema agisce come un microservizio finalizzato alla generazione di **ontologie leggere** e **vocabolari semantici** a partire da testo non strutturato.
 Il progetto è progettato con una doppia interfaccia:
 1. **API REST (Headless):** Ideale per l'integrazione asincrona e l'orchestrazione da parte di backend esterni ad alte prestazioni.
@@ -42,8 +42,9 @@ La pipeline elabora i dati esclusivamente in memoria ed è orchestrata in **modu
 - Segmentazione del testo basata su **similarità semantica vettoriale** (`sentence-transformers`), garantendo la coerenza tematica dei frammenti elaborati senza scritture su disco.
 ### 2. Neuro-Symbolic Extraction (`extractor.py`)
-- Estrazione dinamica (Dynamic Few-Shot) di entità e relazioni tramite **LLM (Llama 3 / Groq / HF)**.
-- Forzatura dell'output in strutture dati tipizzate tramite validazione **Pydantic**, con recupero di concetti isolati.
 ### 3. Stateful Entity Resolution & Linking (`entity_resolver.py`)
 - Deduplica locale in RAM tramite clustering spaziale (**DBSCAN** su embedding cosine-similarity).
@@ -51,7 +52,7 @@ La pipeline elabora i dati esclusivamente in memoria ed è orchestrata in **modu
 - **Entity Linking** asincrono tramite chiamate REST all'API di **Wikidata** per l'ancoraggio semantico (`owl:sameAs`).
 ### 4. Semantic Validation (`validator.py`)
-- Validazione topologica e qualitativa dei dati estratti applicando vincoli ontologici deterministici (**SHACL**) tramite `pyshacl`.
 ### 5. Knowledge Graph Persistence (`graph_loader.py`)
 - Salvataggio massivo e transazionale (`UNWIND` Cypher) su database a grafo **Neo4j**, includendo gli embedding vettoriali per le ricerche future.
@@ -65,7 +66,7 @@ prototipo/
 │   └── style.css
 │
 ├── data/
-│   └── gold_standard/      # Esempi (JSON) per il prompt dinamico dell'LLM
 │
 ├── src/
 │   ├── ingestion/
@@ -167,7 +168,7 @@ Il sistema produce una risposta JSON strutturata contenente:
 ## Limiti noti
 - **Rate Limiting Wikidata**: Le chiamate di Entity Linking dipendono dai tempi di risposta dell'API pubblica di Wikidata; per ingestion intensive è consigliato l'uso di cache locali stratificate.
-- **Dipendenza da LLM**: L'accuratezza dell'estrazione (confidence) fluttua in base al modello configurato e necessita di continui affinamenti del file `examples.json` (Gold Standard).
 ## Possibili estensioni future

 ![Neo4j](https://img.shields.io/badge/graphdb-Neo4j-green)
 ![Status](https://img.shields.io/badge/status-advanced%20prototype-orange)
+Questo repository contiene un **prototipo avanzato per la scoperta semantica automatica (Automated Semantic Discovery)**. Il sistema agisce come un microservizio finalizzato alla generazione di **ontologie leggere** e **vocabolari semantici** a partire da testo non strutturato, ponendosi come strumento abilitante per l'estrazione dati su larga scala in scenari aziendali e di BPO.
 Il progetto è progettato con una doppia interfaccia:
 1. **API REST (Headless):** Ideale per l'integrazione asincrona e l'orchestrazione da parte di backend esterni ad alte prestazioni.
 - Segmentazione del testo basata su **similarità semantica vettoriale** (`sentence-transformers`), garantendo la coerenza tematica dei frammenti elaborati senza scritture su disco.
 ### 2. Neuro-Symbolic Extraction (`extractor.py`)
+- Architettura **Schema-RAG**: iniezione dinamica nel prompt dell'LLM delle definizioni ontologiche (es. ArCo) più pertinenti al frammento di testo, recuperate tramite vector search.
+- Implementazione di meccanismi di **Graceful Degradation** e fallback semantici per azzerare le allucinazioni ontologiche su entità orfane.
+- Forzatura dell'output in strutture dati tipizzate tramite validazione **Pydantic**.
 ### 3. Stateful Entity Resolution & Linking (`entity_resolver.py`)
 - Deduplica locale in RAM tramite clustering spaziale (**DBSCAN** su embedding cosine-similarity).
 - **Entity Linking** asincrono tramite chiamate REST all'API di **Wikidata** per l'ancoraggio semantico (`owl:sameAs`).
 ### 4. Semantic Validation (`validator.py`)
+- Validazione topologica e qualitativa dei dati estratti applicando vincoli ontologici deterministici (**SHACL**) tramite `pyshacl`, garantendo la coerenza del grafo prima della persistenza.
 ### 5. Knowledge Graph Persistence (`graph_loader.py`)
 - Salvataggio massivo e transazionale (`UNWIND` Cypher) su database a grafo **Neo4j**, includendo gli embedding vettoriali per le ricerche future.
 │   └── style.css
 │
 ├── data/
+│   └── arco_schema.json      # Dizionario ontologico indicizzato per lo Schema-RAG
 │
 ├── src/
 │   ├── ingestion/
 ## Limiti noti
 - **Rate Limiting Wikidata**: Le chiamate di Entity Linking dipendono dai tempi di risposta dell'API pubblica di Wikidata; per ingestion intensive è consigliato l'uso di cache locali stratificate.
+- **Dipendenza da Vocabolari**: L'accuratezza dell'estrazione semantica tramite Schema-RAG fluttua in base alla ricchezza descrittiva del dizionario JSON ontologico fornito in ingresso.
 ## Possibili estensioni future