--- title: Scrap-Dji - Base de Connaissance Panafricaine emoji: 🌍 colorFrom: green colorTo: blue sdk: docker app_file: app.py pinned: false license: mit --- # 🌍 Scrap-Dji - Base de Connaissance Panafricaine Système de scraping et de recherche de contenus africains (Togo, Bénin, Afrique). ## 🚀 Fonctionnalités ### 🔍 Recherche Intelligente - **Recherche permissive** avec tolérance aux fautes de frappe (fuzzy matching) - **Filtres avancés** par pays, langue, date - **Scoring de pertinence** pour des résultats optimaux - **API REST complète** pour intégration frontend ### 📰 Scraping Multi-Sources - Collecte automatique depuis sources togolaises et béninoises - Extraction intelligente de contenu (titre, texte, métadonnées) - Déduplication automatique - Stockage persistant ### 📊 Statistiques - Répartition par pays, langue, source - Visualisation des données collectées - Métriques en temps réel ## 🔌 API Endpoints ### Recherche ```bash # POST avec JSON curl -X POST "https://YOUR_SPACE.hf.space/api/search" \ -H "Content-Type: application/json" \ -d '{"query": "économie togo", "limit": 10, "fuzzy": true}' # GET simple curl "https://YOUR_SPACE.hf.space/api/search?q=politique&pays=Togo&limit=20" ``` ### Statistiques ```bash curl "https://YOUR_SPACE.hf.space/api/stats" ``` ### Documents ```bash # Liste paginée curl "https://YOUR_SPACE.hf.space/api/documents?skip=0&limit=10" # Document par ID curl "https://YOUR_SPACE.hf.space/api/documents/{id}" ``` ### Health Check ```bash curl "https://YOUR_SPACE.hf.space/api/health" ``` ## 📖 Documentation Interactive Une fois déployé, accédez à la documentation Swagger interactive : - **Swagger UI** : `https://YOUR_SPACE.hf.space/docs` - **ReDoc** : `https://YOUR_SPACE.hf.space/redoc` ## 🛠️ Technologies - **Backend** : FastAPI + Gradio - **Scraping** : newspaper3k, BeautifulSoup, lxml - **NLP** : NLTK, langdetect - **Recherche** : Moteur local avec fuzzy matching ## 📝 Utilisation ### Interface Web Accédez directement à l'interface Gradio pour : 1. Effectuer des recherches 2. Lancer le scraping 3. Consulter les statistiques ### Intégration Frontend ```javascript // Exemple de recherche depuis votre frontend const response = await fetch('https://YOUR_SPACE.hf.space/api/search', { method: 'POST', headers: { 'Content-Type': 'application/json' }, body: JSON.stringify({ query: 'économie togo', pays: 'Togo', limit: 20, fuzzy: true }) }); const data = await response.json(); console.log(data.results); ``` ## 🌍 Sources Couvertes ### Togo - TogoFirst - 27septembre - IciLome - TogoBreakingNews - RepublicOfTogo - TogoActualite - LomeInfo - TogoSite ### Bénin - BeninWebTV - La Nouvelle République - (Plus de sources à venir) ## 📄 License MIT License - Libre d'utilisation et de modification ## 👨‍💻 Développement Pour contribuer ou déployer localement : ```bash # Cloner le projet git clone https://huggingface.co/spaces/YOUR_USERNAME/scrap-dji # Installer les dépendances pip install -r requirements.txt # Lancer l'application python app.py ``` L'application sera accessible sur `http://localhost:7860` --- **Développé avec ❤️ pour l'Afrique**