Spaces:
Sleeping
Sleeping
| title: Scrap-Dji - Base de Connaissance Panafricaine | |
| emoji: 🌍 | |
| colorFrom: green | |
| colorTo: blue | |
| sdk: docker | |
| app_file: app.py | |
| pinned: false | |
| license: mit | |
| # 🌍 Scrap-Dji - Base de Connaissance Panafricaine | |
| Système de scraping et de recherche de contenus africains (Togo, Bénin, Afrique). | |
| ## 🚀 Fonctionnalités | |
| ### 🔍 Recherche Intelligente | |
| - **Recherche permissive** avec tolérance aux fautes de frappe (fuzzy matching) | |
| - **Filtres avancés** par pays, langue, date | |
| - **Scoring de pertinence** pour des résultats optimaux | |
| - **API REST complète** pour intégration frontend | |
| ### 📰 Scraping Multi-Sources | |
| - Collecte automatique depuis sources togolaises et béninoises | |
| - Extraction intelligente de contenu (titre, texte, métadonnées) | |
| - Déduplication automatique | |
| - Stockage persistant | |
| ### 📊 Statistiques | |
| - Répartition par pays, langue, source | |
| - Visualisation des données collectées | |
| - Métriques en temps réel | |
| ## 🔌 API Endpoints | |
| ### Recherche | |
| ```bash | |
| # POST avec JSON | |
| curl -X POST "https://YOUR_SPACE.hf.space/api/search" \ | |
| -H "Content-Type: application/json" \ | |
| -d '{"query": "économie togo", "limit": 10, "fuzzy": true}' | |
| # GET simple | |
| curl "https://YOUR_SPACE.hf.space/api/search?q=politique&pays=Togo&limit=20" | |
| ``` | |
| ### Statistiques | |
| ```bash | |
| curl "https://YOUR_SPACE.hf.space/api/stats" | |
| ``` | |
| ### Documents | |
| ```bash | |
| # Liste paginée | |
| curl "https://YOUR_SPACE.hf.space/api/documents?skip=0&limit=10" | |
| # Document par ID | |
| curl "https://YOUR_SPACE.hf.space/api/documents/{id}" | |
| ``` | |
| ### Health Check | |
| ```bash | |
| curl "https://YOUR_SPACE.hf.space/api/health" | |
| ``` | |
| ## 📖 Documentation Interactive | |
| Une fois déployé, accédez à la documentation Swagger interactive : | |
| - **Swagger UI** : `https://YOUR_SPACE.hf.space/docs` | |
| - **ReDoc** : `https://YOUR_SPACE.hf.space/redoc` | |
| ## 🛠️ Technologies | |
| - **Backend** : FastAPI + Gradio | |
| - **Scraping** : newspaper3k, BeautifulSoup, lxml | |
| - **NLP** : NLTK, langdetect | |
| - **Recherche** : Moteur local avec fuzzy matching | |
| ## 📝 Utilisation | |
| ### Interface Web | |
| Accédez directement à l'interface Gradio pour : | |
| 1. Effectuer des recherches | |
| 2. Lancer le scraping | |
| 3. Consulter les statistiques | |
| ### Intégration Frontend | |
| ```javascript | |
| // Exemple de recherche depuis votre frontend | |
| const response = await fetch('https://YOUR_SPACE.hf.space/api/search', { | |
| method: 'POST', | |
| headers: { 'Content-Type': 'application/json' }, | |
| body: JSON.stringify({ | |
| query: 'économie togo', | |
| pays: 'Togo', | |
| limit: 20, | |
| fuzzy: true | |
| }) | |
| }); | |
| const data = await response.json(); | |
| console.log(data.results); | |
| ``` | |
| ## 🌍 Sources Couvertes | |
| ### Togo | |
| - TogoFirst | |
| - 27septembre | |
| - IciLome | |
| - TogoBreakingNews | |
| - RepublicOfTogo | |
| - TogoActualite | |
| - LomeInfo | |
| - TogoSite | |
| ### Bénin | |
| - BeninWebTV | |
| - La Nouvelle République | |
| - (Plus de sources à venir) | |
| ## 📄 License | |
| MIT License - Libre d'utilisation et de modification | |
| ## 👨💻 Développement | |
| Pour contribuer ou déployer localement : | |
| ```bash | |
| # Cloner le projet | |
| git clone https://huggingface.co/spaces/YOUR_USERNAME/scrap-dji | |
| # Installer les dépendances | |
| pip install -r requirements.txt | |
| # Lancer l'application | |
| python app.py | |
| ``` | |
| L'application sera accessible sur `http://localhost:7860` | |
| --- | |
| **Développé avec ❤️ pour l'Afrique** |