Spaces:
Sleeping
Sleeping
| # Guide de démarrage rapide - Scrap-Dji | |
| ## 🚀 Démarrage en 5 minutes | |
| ### 1. Installation rapide | |
| ```bash | |
| # Activer l'environnement virtuel | |
| venv\Scripts\activate # Windows | |
| # ou | |
| source venv/bin/activate # Linux/Mac | |
| # Installer les dépendances | |
| pip install -r requirements.txt | |
| ``` | |
| ### 2. Configuration automatique | |
| ```bash | |
| # Lance la configuration automatique | |
| python setup.py | |
| ``` | |
| ### 3. Configuration manuelle (si nécessaire) | |
| ```bash | |
| # Copier les fichiers de configuration | |
| copy config.env.example .env | |
| copy sources.json.example sources.json | |
| # Éditer .env avec vos paramètres | |
| notepad .env | |
| # Éditer sources.json avec vos sources | |
| notepad sources.json | |
| ``` | |
| ### 4. Test rapide | |
| ```bash | |
| # Test sans sauvegarde | |
| python run_scraper.py --dry-run | |
| # Lancement complet | |
| python run_scraper.py | |
| ``` | |
| ## 📋 Configuration minimale | |
| ### Fichier .env minimal | |
| ```env | |
| POSTGRES_URI=postgresql://user:password@localhost:5432/scrapdji | |
| MONGO_URI=mongodb://localhost:27017 | |
| MONGO_DB=scrapdji | |
| STORAGE_PATH=./storage_data | |
| ``` | |
| ### Fichier sources.json minimal | |
| ```json | |
| { | |
| "sources": [ | |
| { | |
| "name": "test_site", | |
| "type": "news", | |
| "url": "https://example.com", | |
| "selectors": { | |
| "title": "h1", | |
| "content": "p" | |
| }, | |
| "pays": "Test", | |
| "langue": "fr", | |
| "active": true | |
| } | |
| ] | |
| } | |
| ``` | |
| ## 🔧 Services requis | |
| ### PostgreSQL | |
| ```bash | |
| # Installation Windows | |
| # Télécharger depuis https://www.postgresql.org/download/windows/ | |
| # Créer la base | |
| createdb scrapdji | |
| ``` | |
| ### MongoDB | |
| ```bash | |
| # Installation Windows | |
| # Télécharger depuis https://www.mongodb.com/try/download/community | |
| # Démarrer le service | |
| net start MongoDB | |
| ``` | |
| ## 🐛 Dépannage | |
| ### Erreur de connexion PostgreSQL | |
| - Vérifiez que PostgreSQL est installé et démarré | |
| - Vérifiez les paramètres de connexion dans .env | |
| ### Erreur de connexion MongoDB | |
| - Vérifiez que MongoDB est installé et démarré | |
| - Vérifiez l'URI dans .env | |
| ### Erreur d'import | |
| ```bash | |
| # Réinstaller les dépendances | |
| pip install -r requirements.txt --force-reinstall | |
| ``` | |
| ### Erreur de scraping | |
| - Vérifiez que les URLs dans sources.json sont accessibles | |
| - Vérifiez les sélecteurs CSS | |
| - Testez avec --dry-run d'abord | |
| ## 📊 Monitoring | |
| ### Logs | |
| ```bash | |
| # Consulter les logs | |
| tail -f logs/scrapdji.log | |
| ``` | |
| ### Base de données | |
| ```bash | |
| # Connexion PostgreSQL | |
| psql -d scrapdji | |
| # Connexion MongoDB | |
| mongosh scrapdji | |
| ``` | |
| ## 🎯 Prochaines étapes | |
| 1. **Configurer vos sources** : Modifiez `sources.json` avec vos sites cibles | |
| 2. **Optimiser les sélecteurs** : Ajustez les sélecteurs CSS pour chaque site | |
| 3. **Configurer l'indexation** : Activez Typesense/Qdrant pour la recherche | |
| 4. **Déployer l'API** : Lancez l'API FastAPI pour l'interface web | |
| 5. **Automatiser** : Configurez des tâches cron pour le scraping régulier |