Spaces:

DomLoyer
/

syscred

Running

App Files Files Community

D Ф m i И i q ц e L Ф y e r commited on Mar 31

Commit

aa4eca6

1 Parent(s): 4105cdc

Update: RDF import script, documentation and light requirements

Browse files

Files changed (3) hide show

SysCRED_Documentation.md +659 -0
import_rdf_to_supabase.py +8 -3
requirements-light.txt +25 -0

SysCRED_Documentation.md ADDED Viewed

	@@ -0,0 +1,659 @@

+# 🔬 SysCRED - Documentation Complète
+## Système Neuro-Symbolique de Vérification de Crédibilité
+> **Version:** 2.0
+> **Auteur:** Dominique S. Loyer
+> **Citation Key:** `loyerModelingHybridSystem2025`
+> **DOI:** [10.5281/zenodo.17943226](https://doi.org/10.5281/zenodo.17943226)
+> **Dernière mise à jour:** Janvier 2026
+---
+## 📋 Table des Matières
+1. [Vue d'ensemble](#vue-densemble)
+2. [Architecture du système](#architecture-du-système)
+3. [Modules et fichiers](#modules-et-fichiers)
+4. [Installation et configuration](#installation-et-configuration)
+5. [Commandes et utilisation](#commandes-et-utilisation)
+6. [Choix de conception](#choix-de-conception)
+7. [Améliorations réalisées](#améliorations-réalisées)
+8. [Améliorations futures](#améliorations-futures)
+9. [API Reference](#api-reference)
+10. [Ontologie OWL](#ontologie-owl)
+---
+## Vue d'ensemble
+### Qu'est-ce que SysCRED?
+SysCRED (System for CREdibility Detection) est un **système hybride neuro-symbolique** conçu pour évaluer automatiquement la crédibilité des informations en ligne. Il combine:
+- **Approche symbolique** (règles explicites, transparentes et explicables)
+- **Approche neuronale** (modèles NLP pour sentiment, biais, entités)
+- **Ontologie OWL** (traçabilité et raisonnement sémantique)
+### Philosophie du projet
+Le système est conçu comme **prototype de recherche doctorale** avec ces principes:
+1. **Explicabilité (xAI)**: Chaque décision peut être tracée et justifiée
+2. **Hybridité**: Combine le meilleur des règles et du ML
+3. **Reproductibilité**: Code open-source, documentation complète
+4. **Modularité**: Chaque composant est indépendant et testable
+---
+## Architecture du système
+```
+┌─────────────────────────────────────────────────────────────────┐
+│                        SysCRED v2.0                              │
+├─────────────────────────────────────────────────────────────────┤
+│  ┌───────────────┐  ┌───────────────┐  ┌───────────────┐        │
+│  │   INPUT       │  │   APIs        │  │   OUTPUT      │        │
+│  │  URL / Texte  │──│  Externes     │──│   Rapport     │        │
+│  └───────────────┘  └───────────────┘  └───────────────┘        │
+│         │                  │                  ▲                  │
+│         ▼                  ▼                  │                  │
+│  ┌─────────────────────────────────────────────────────┐        │
+│  │            VERIFICATION SYSTEM                       │        │
+│  │  ┌─────────────────┐  ┌─────────────────┐           │        │
+│  │  │ RULE-BASED      │  │ NLP ANALYSIS    │           │        │
+│  │  │ • Réputation    │  │ • Sentiment     │           │        │
+│  │  │ • Âge domaine   │  │ • NER           │           │        │
+│  │  │ • Fact-check    │  │ • Biais         │           │        │
+│  │  │ • Marqueurs     │  │ • Cohérence     │           │        │
+│  │  └─────────────────┘  └─────────────────┘           │        │
+│  │                    ↓                                 │        │
+│  │         ┌─────────────────────────┐                 │        │
+│  │         │  SCORE CALCULATION      │                 │        │
+│  │         │  (pondération hybride)  │                 │        │
+│  │         └─────────────────────────┘                 │        │
+│  └─────────────────────────────────────────────────────┘        │
+│         │                                                        │
+│         ▼                                                        │
+│  ┌─────────────────────────────────────────────────────┐        │
+│  │            ONTOLOGY MANAGER (OWL/RDF)               │        │
+│  │         Traçabilité et raisonnement                 │        │
+│  └─────────────────────────────────────────────────────┘        │
+└─────────────────────────────────────────────────────────────────┘
+```
+### Flux de traitement
+1. **Entrée** → URL ou texte brut
+2. **Récupération** → Contenu web (si URL)
+3. **Prétraitement** → Nettoyage du texte
+4. **Données externes** → WHOIS, fact-check APIs
+5. **Analyse règles** → Marqueurs linguistiques, réputation
+6. **Analyse NLP** → Sentiment, biais, entités
+7. **Calcul score** → Pondération hybride (0-1)
+8. **Génération rapport** → JSON structuré
+9. **Sauvegarde ontologie** → Triplets RDF
+---
+## Modules et fichiers
+### Structure du projet
+```
+syscred/
+├── __init__.py              # Package init
+├── config.py                # Configuration centralisée
+├── verification_system.py   # Système principal
+├── api_clients.py           # Clients APIs externes
+├── ontology_manager.py      # Gestion OWL/RDF
+├── seo_analyzer.py          # Analyse SEO/PageRank
+├── backend_app.py           # API Flask REST
+├── eval_metrics.py          # Métriques d'évaluation
+├── ir_engine.py             # Moteur de recherche
+├── requirements.txt         # Dépendances Python
+├── setup.py                 # Installation package
+├── syscred_kaggle.ipynb     # Notebook Kaggle
+├── syscred_colab.ipynb      # Notebook Colab (avec Drive)
+└── kaggle_to_gdrive_backup.ipynb  # Backup notebooks
+```
+### Description des modules
+#### `config.py` - Configuration centralisée
+**But:** Centraliser tous les paramètres du système dans un seul fichier.
+**Classes:**
+- `Config` - Configuration de base
+- `DevelopmentConfig` - Pour développement local
+- `ProductionConfig` - Pour production
+- `TestingConfig` - Pour tests (ML désactivé)
+**Paramètres clés:**
+| Paramètre | Description | Valeur par défaut |
+|-----------|-------------|-------------------|
+| `HOST` | Adresse du serveur | `0.0.0.0` |
+| `PORT` | Port du serveur | `5000` |
+| `DEBUG` | Mode debug | `true` |
+| `LOAD_ML_MODELS` | Charger les modèles ML | `true` |
+| `WEB_FETCH_TIMEOUT` | Timeout HTTP (sec) | `10` |
+**Pondérations des scores:**
+```python
+SCORE_WEIGHTS = {
+    'source_reputation': 0.25,  # Réputation de la source
+    'domain_age': 0.10,         # Âge du domaine
+    'sentiment_neutrality': 0.15, # Neutralité du ton
+    'entity_presence': 0.15,    # Présence d'entités vérifiables
+    'coherence': 0.15,          # Cohérence textuelle
+    'fact_check': 0.20          # Résultats fact-check
+}
+```
+**Variables d'environnement:**
+```bash
+export SYSCRED_ENV=production      # Environnement (dev/prod/testing)
+export SYSCRED_PORT=8080           # Port personnalisé
+export SYSCRED_GOOGLE_API_KEY=xxx  # Clé Google Fact Check
+export SYSCRED_LOAD_ML=false       # Désactiver ML
+```
+---
+#### `verification_system.py` - Système principal
+**But:** Pipeline principal de vérification de crédibilité.
+**Classe principale:** `CredibilityVerificationSystem`
+**Méthodes principales:**
+| Méthode | Description |
+|---------|-------------|
+| `__init__()` | Initialise le système, charge les modèles |
+| `verify_information(input)` | Pipeline principal de vérification |
+| `rule_based_analysis(text, data)` | Analyse symbolique |
+| `nlp_analysis(text)` | Analyse NLP (ML) |
+| `calculate_overall_score()` | Calcule le score final |
+| `generate_report()` | Génère le rapport JSON |
+**Modèles ML utilisés:**
+| Modèle | Usage |
+|--------|-------|
+| `distilbert-base-uncased-finetuned-sst-2-english` | Sentiment |
+| `dbmdz/bert-large-cased-finetuned-conll03-english` | NER |
+| `bert-base-uncased` | Détection de biais (placeholder) |
+| `LIME` | Explication des prédictions |
+---
+#### `api_clients.py` - Clients APIs externes
+**But:** Abstraire toutes les interactions avec les APIs externes.
+**Classe principale:** `ExternalAPIClients`
+**APIs intégrées:**
+| API | Méthode | Description |
+|-----|---------|-------------|
+| Web Content | `fetch_web_content()` | Récupère et parse le HTML |
+| WHOIS | `whois_lookup()` | Âge et registrar du domaine |
+| Google Fact Check | `google_fact_check()` | Vérification des faits |
+| Source Reputation | `get_source_reputation()` | Base de données interne |
+| CommonCrawl | `estimate_backlinks()` | Estimation backlinks |
+**Data classes:**
+- `WebContent` - Contenu web parsé
+- `DomainInfo` - Informations WHOIS
+- `FactCheckResult` - Résultat fact-check
+- `ExternalData` - Données agrégées
+---
+#### `ontology_manager.py` - Gestion OWL/RDF
+**But:** Traçabilité sémantique avec ontologie OWL.
+**Fonctionnalités:**
+- Chargement d'ontologie de base (.ttl)
+- Ajout de triplets RDF pour chaque évaluation
+- Sauvegarde des données accumulées
+- Requêtes SPARQL
+**Ontologie utilisée:**
+- Format: Turtle (.ttl)
+- Namespace: `http://syscred.uqam.ca/ontology#`
+- Concepts: `Evaluation`, `Source`, `CredibilityScore`, `Evidence`
+---
+#### `backend_app.py` - API Flask
+**But:** Exposer SysCRED via API REST.
+**Endpoints:**
+| Endpoint | Méthode | Description |
+|----------|---------|-------------|
+| `/api/verify` | POST | Vérification principale |
+| `/api/seo` | POST | Analyse SEO uniquement |
+| `/api/ontology/stats` | GET | Statistiques ontologie |
+| `/api/health` | GET | Vérification santé |
+| `/api/config` | GET | Configuration actuelle |
+**Exemple requête:**
+```bash
+curl -X POST http://localhost:5000/api/verify \
+  -H "Content-Type: application/json" \
+  -d '{"input_data": "https://example.com/article"}'
+```
+---
+## Installation et configuration
+### Prérequis
+- Python 3.8+
+- pip
+- Git
+### Installation locale
+```bash
+# Cloner le repository
+git clone https://github.com/DominiqueLoyer/syscred.git
+cd syscred
+# Créer environnement virtuel
+python -m venv venv
+source venv/bin/activate  # Linux/Mac
+# ou: venv\Scripts\activate  # Windows
+# Installer les dépendances
+pip install -r requirements.txt
+# Installer le package en mode développement
+pip install -e .
+```
+### Installation des dépendances
+```bash
+# Dépendances principales
+pip install transformers torch numpy
+pip install flask flask-cors
+pip install rdflib owlrl
+pip install requests beautifulsoup4
+# Dépendances optionnelles
+pip install python-whois  # Pour WHOIS
+pip install lime          # Pour explications ML
+```
+### Fichier requirements.txt
+```
+transformers>=4.30.0
+torch>=2.0.0
+numpy>=1.24.0
+flask>=2.3.0
+flask-cors>=4.0.0
+rdflib>=6.3.0
+owlrl>=6.0.0
+requests>=2.31.0
+beautifulsoup4>=4.12.0
+python-whois>=0.8.0
+lime>=0.2.0
+```
+---
+## Commandes et utilisation
+### Démarrer l'API Flask
+```bash
+# Mode développement
+cd /path/to/syscred
+python backend_app.py
+# Avec variables d'environnement
+SYSCRED_PORT=8080 SYSCRED_DEBUG=true python backend_app.py
+# Mode production
+SYSCRED_ENV=production python backend_app.py
+```
+### Tester le système en ligne de commande
+```bash
+# Test direct du module
+python -m syscred.verification_system
+# Test avec entrée personnalisée
+python -c "
+from syscred.verification_system import CredibilityVerificationSystem
+sys = CredibilityVerificationSystem(load_ml_models=False)
+result = sys.verify_information('https://www.lemonde.fr')
+print(result['scoreCredibilite'])
+"
+```
+### Utilisation dans Kaggle/Colab
+Ouvrez le notebook `syscred_kaggle.ipynb` ou `syscred_colab.ipynb`:
+```python
+# Cellule 1: Installation
+!pip install transformers torch rdflib requests beautifulsoup4
+# Cellule 2: Importer et tester
+from syscred import CredibilityVerificationSystem
+sys = CredibilityVerificationSystem()
+result = sys.verify_information("https://example.com")
+```
+### API REST - Exemples
+```bash
+# Vérifier une URL
+curl -X POST http://localhost:5000/api/verify \
+  -H "Content-Type: application/json" \
+  -d '{"input_data": "https://www.bbc.com/article"}'
+# Vérifier du texte
+curl -X POST http://localhost:5000/api/verify \
+  -H "Content-Type: application/json" \
+  -d '{"input_data": "This is a verified news report."}'
+# Vérifier la santé
+curl http://localhost:5000/api/health
+# Obtenir la configuration
+curl http://localhost:5000/api/config
+```
+---
+## Choix de conception
+### Pourquoi approche hybride neuro-symbolique?
+| Approche | Forces | Faiblesses |
+|----------|--------|------------|
+| **Règles** | Transparent, explicable, rapide | Rigide, couverture limitée |
+| **ML/NLP** | Flexible, patterns complexes | Boîte noire, besoin données |
+| **Hybride** | Combine les deux! | Plus complexe |
+**Décision:** Utiliser les règles pour les cas clairs (réputation connue, marqueurs linguistiques) et le ML pour les nuances (sentiment, biais).
+### Pourquoi ces pondérations?
+Les poids par défaut reflètent l'importance relative de chaque facteur selon la littérature:
+```python
+SCORE_WEIGHTS = {
+    'source_reputation': 0.25,  # Le plus important: source connue
+    'fact_check': 0.20,         # Vérification externe
+    'sentiment_neutrality': 0.15,
+    'entity_presence': 0.15,
+    'coherence': 0.15,
+    'domain_age': 0.10          # Moins important seul
+}
+```
+### Pourquoi LIME pour l'explicabilité?
+- **Local Interpretable Model-agnostic Explanations**
+- Fonctionne avec n'importe quel modèle
+- Génère des explications compréhensibles
+- Standard académique reconnu
+### Pourquoi OWL/RDF?
+- **Traçabilité**: Chaque évaluation est enregistrée
+- **Raisonnement**: Inférences automatiques possibles (OWL-RL)
+- **Interopérabilité**: Standard W3C, compatible SPARQL
+- **Publication**: Données linked data
+---
+## Améliorations réalisées
+### Version 2.0 (Janvier 2026)
+1. **Configuration centralisée** (`config.py`)
+   - Variables d'environnement
+   - Profils dev/prod/testing
+   - Pondérations configurables
+2. **API Clients refactorisés** (`api_clients.py`)
+   - Data classes typées
+   - Gestion d'erreurs robuste
+   - WHOIS lookup réel
+3. **Notebooks Kaggle/Colab**
+   - `syscred_kaggle.ipynb` - Version Kaggle
+   - `syscred_colab.ipynb` - Version avec Google Drive
+   - Badges "Open in" pour facilité
+4. **Fix du bug `NameError: result`**
+   - Variable locale dans section RDF
+   - Fallback si aucun résultat
+5. **README professionnel**
+   - Badge DOI Zenodo
+   - Quick start
+   - API endpoints documentés
+6. **Notebook backup Kaggle→Drive**
+   - `kaggle_to_gdrive_backup.ipynb`
+   - Sauvegarde automatique
+---
+## Améliorations futures
+### Court terme (Prochains mois)
+- [ ] **Google Fact Check API réel** - Intégrer la clé API
+- [ ] **CommonCrawl backlinks** - Analyse réelle des backlinks
+- [ ] **Plus de sources** - Étendre `SOURCE_REPUTATIONS`
+- [ ] **Tests unitaires** - Couverture >80%
+### Moyen terme (6-12 mois)
+- [ ] **Modèle de biais fine-tuné** - Entraîner sur donées réelles
+- [ ] **Cache Redis** - Mise en cache des résultats
+- [ ] **Interface web moderne** - React/Vue frontend
+- [ ] **Docker** - Conteneurisation
+### Long terme (Thèse)
+- [ ] **Évaluation formelle** - Dataset de benchmark
+- [ ] **Multi-langue** - Support français natif
+- [ ] **Graphe de connaissances** - Neo4j intégration
+- [ ] **Apprentissage continu** - Feedback loop
+---
+## API Reference
+### Classe `CredibilityVerificationSystem`
+```python
+class CredibilityVerificationSystem:
+    def __init__(
+        self,
+        google_api_key: Optional[str] = None,
+        ontology_base_path: Optional[str] = None,
+        ontology_data_path: Optional[str] = None,
+        load_ml_models: bool = True
+    ):
+        """
+        Initialize the credibility verification system.
+        Args:
+            google_api_key: API key for Google Fact Check
+            ontology_base_path: Path to base ontology TTL
+            ontology_data_path: Path to store data
+            load_ml_models: Whether to load ML models
+        """
+    def verify_information(self, input_data: str) -> Dict[str, Any]:
+        """
+        Main pipeline to verify credibility.
+        Args:
+            input_data: URL or text to verify
+        Returns:
+            Complete evaluation report with:
+            - idRapport: Unique report ID
+            - scoreCredibilite: 0.0-1.0
+            - resumeAnalyse: French summary
+            - detailsScore: Score breakdown
+            - reglesAppliquees: Rule-based results
+            - analyseNLP: NLP analysis results
+        """
+```
+### Classe `Config`
+```python
+class Config:
+    # Chemins
+    BASE_DIR: Path
+    ONTOLOGY_BASE_PATH: Path
+    ONTOLOGY_DATA_PATH: Path
+    # Serveur
+    HOST: str = "0.0.0.0"
+    PORT: int = 5000
+    DEBUG: bool = True
+    # API Keys
+    GOOGLE_FACT_CHECK_API_KEY: Optional[str]
+    # Modèles ML
+    LOAD_ML_MODELS: bool = True
+    SENTIMENT_MODEL: str
+    NER_MODEL: str
+    # Pondérations
+    SCORE_WEIGHTS: Dict[str, float]
+    CREDIBILITY_THRESHOLDS: Dict[str, float]
+    SOURCE_REPUTATIONS: Dict[str, str]
+    @classmethod
+    def load_external_reputations(cls, filepath: str) -> None:
+        """Charger réputations depuis fichier JSON."""
+    @classmethod
+    def update_weights(cls, new_weights: Dict[str, float]) -> None:
+        """Mettre à jour les pondérations."""
+    @classmethod
+    def to_dict(cls) -> Dict:
+        """Exporter configuration en dictionnaire."""
+```
+---
+## Ontologie OWL
+### Structure conceptuelle
+```
+syscred:Evaluation
+  └── syscred:evaluates → syscred:Information
+  └── syscred:hasScore → xsd:float
+  └── syscred:hasEvidence → syscred:Evidence
+  └── syscred:generatedAt → xsd:dateTime
+syscred:Information
+  └── syscred:hasSource → syscred:Source
+  └── syscred:hasContent → xsd:string
+syscred:Source
+  └── syscred:hasDomain → xsd:string
+  └── syscred:hasReputation → syscred:ReputationLevel
+  └── syscred:hasDomainAge → xsd:integer
+syscred:Evidence
+  └── syscred:type → xsd:string (Linguistic, FactCheck, etc.)
+  └── syscred:value → xsd:string
+  └── syscred:impact → xsd:float
+```
+### Exemple de triplets générés
+```turtle
+@prefix syscred: <http://syscred.uqam.ca/ontology#> .
+@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
+syscred:eval_1705890000 a syscred:Evaluation ;
+    syscred:evaluates syscred:info_lemonde_article ;
+    syscred:hasScore "0.85"^^xsd:float ;
+    syscred:generatedAt "2026-01-21T13:40:00"^^xsd:dateTime ;
+    syscred:hasEvidence syscred:evidence_1 .
+syscred:evidence_1 a syscred:Evidence ;
+    syscred:type "SourceReputation" ;
+    syscred:value "High" ;
+    syscred:impact "0.25"^^xsd:float .
+```
+---
+## Scripts utilitaires
+### Script de backup vers Obsidian/Notion
+Créez ce script dans `/Users/bk280625/documents041025/MonCode/`:
+```bash
+#!/bin/bash
+# save_syscred_docs.sh
+# Usage: ./save_syscred_docs.sh
+DOC_SOURCE="/Users/bk280625/documents041025/MonCode/syscred/SysCRED_Documentation.md"
+OBSIDIAN_VAULT="/Users/bk280625/Documents/Obsidian/PhD"
+DATE=$(date +%Y%m%d)
+# Copier vers Obsidian
+cp "$DOC_SOURCE" "$OBSIDIAN_VAULT/SysCRED_Documentation_$DATE.md"
+echo "✅ Copié vers Obsidian: $OBSIDIAN_VAULT"
+# Ouvrir dans Obsidian (Mac)
+open "obsidian://open?vault=PhD&file=SysCRED_Documentation_$DATE"
+# Pour Notion: utiliser l'API ou copier manuellement
+# Notion n'a pas d'import direct de fichiers locaux
+echo "📋 Pour Notion: Copiez le contenu de $DOC_SOURCE"
+echo "   Ou utilisez: https://notion.so/import"
+```
+---
+## Références
+- Loyer, D. S. (2025). *Modeling and Hybrid System for Verification of Sources Credibility*. UQAM.
+- Loyer, D. S. (2025). *Ontology of a Verification System for Liability of the Information*. DIC-9335.
+---
+*Documentation générée le 21 janvier 2026*
+*SysCRED v2.0 - Dominique S. Loyer - UQAM*

import_rdf_to_supabase.py CHANGED Viewed

@@ -6,9 +6,14 @@ import requests
 from rdflib import Graph, Literal, URIRef, Namespace
 from pathlib import Path
-SUPABASE_URL = "https://zmluirvqfkmfazqitqgi.supabase.co"
-# Use service role key for insert operations
-SUPABASE_KEY = "sb_secret_2CWvKTeiJ-gbQn5AGCI8YQ_vOujwVnt"
 headers = {
     'apikey': SUPABASE_KEY,

 from rdflib import Graph, Literal, URIRef, Namespace
 from pathlib import Path
+# APRÈS (sécurisé)
+import os
+from dotenv import load_dotenv
+load_dotenv()
+SUPABASE_URL = os.environ.get("SUPABASE_URL")
+SUPABASE_KEY = os.environ.get("SUPABASE_SECRET_KEY")
 headers = {
     'apikey': SUPABASE_KEY,

requirements-light.txt ADDED Viewed

	@@ -0,0 +1,25 @@

+# SysCRED - Requirements LIGHT (sans ML local)
+# Pour Render (512MB) et test local sans PyTorch
+# === Core Dependencies ===
+requests>=2.28.0
+beautifulsoup4>=4.11.0
+python-whois>=0.8.0
+lxml>=4.9.0
+# === RDF/Ontology ===
+rdflib>=6.0.0
+# === Web Backend ===
+flask>=2.3.0
+flask-cors>=4.0.0
+python-dotenv>=1.0.0
+pandas>=2.0.0
+# === Production/Database ===
+gunicorn>=20.1.0
+psycopg2-binary>=2.9.0
+flask-sqlalchemy>=3.0.0
+# === Development/Testing ===
+pytest>=7.0.0