# Guide de dĂ©marrage rapide - Scrap-Dji ## 🚀 DĂ©marrage en 5 minutes ### 1. Installation rapide ```bash # Activer l'environnement virtuel venv\Scripts\activate # Windows # ou source venv/bin/activate # Linux/Mac # Installer les dĂ©pendances pip install -r requirements.txt ``` ### 2. Configuration automatique ```bash # Lance la configuration automatique python setup.py ``` ### 3. Configuration manuelle (si nĂ©cessaire) ```bash # Copier les fichiers de configuration copy config.env.example .env copy sources.json.example sources.json # Éditer .env avec vos paramĂštres notepad .env # Éditer sources.json avec vos sources notepad sources.json ``` ### 4. Test rapide ```bash # Test sans sauvegarde python run_scraper.py --dry-run # Lancement complet python run_scraper.py ``` ## 📋 Configuration minimale ### Fichier .env minimal ```env POSTGRES_URI=postgresql://user:password@localhost:5432/scrapdji MONGO_URI=mongodb://localhost:27017 MONGO_DB=scrapdji STORAGE_PATH=./storage_data ``` ### Fichier sources.json minimal ```json { "sources": [ { "name": "test_site", "type": "news", "url": "https://example.com", "selectors": { "title": "h1", "content": "p" }, "pays": "Test", "langue": "fr", "active": true } ] } ``` ## 🔧 Services requis ### PostgreSQL ```bash # Installation Windows # TĂ©lĂ©charger depuis https://www.postgresql.org/download/windows/ # CrĂ©er la base createdb scrapdji ``` ### MongoDB ```bash # Installation Windows # TĂ©lĂ©charger depuis https://www.mongodb.com/try/download/community # DĂ©marrer le service net start MongoDB ``` ## 🐛 DĂ©pannage ### Erreur de connexion PostgreSQL - VĂ©rifiez que PostgreSQL est installĂ© et dĂ©marrĂ© - VĂ©rifiez les paramĂštres de connexion dans .env ### Erreur de connexion MongoDB - VĂ©rifiez que MongoDB est installĂ© et dĂ©marrĂ© - VĂ©rifiez l'URI dans .env ### Erreur d'import ```bash # RĂ©installer les dĂ©pendances pip install -r requirements.txt --force-reinstall ``` ### Erreur de scraping - VĂ©rifiez que les URLs dans sources.json sont accessibles - VĂ©rifiez les sĂ©lecteurs CSS - Testez avec --dry-run d'abord ## 📊 Monitoring ### Logs ```bash # Consulter les logs tail -f logs/scrapdji.log ``` ### Base de donnĂ©es ```bash # Connexion PostgreSQL psql -d scrapdji # Connexion MongoDB mongosh scrapdji ``` ## 🎯 Prochaines Ă©tapes 1. **Configurer vos sources** : Modifiez `sources.json` avec vos sites cibles 2. **Optimiser les sĂ©lecteurs** : Ajustez les sĂ©lecteurs CSS pour chaque site 3. **Configurer l'indexation** : Activez Typesense/Qdrant pour la recherche 4. **DĂ©ployer l'API** : Lancez l'API FastAPI pour l'interface web 5. **Automatiser** : Configurez des tĂąches cron pour le scraping rĂ©gulier