Spaces:
Sleeping
Sleeping
Guide de démarrage rapide - Scrap-Dji
🚀 Démarrage en 5 minutes
1. Installation rapide
# Activer l'environnement virtuel
venv\Scripts\activate # Windows
# ou
source venv/bin/activate # Linux/Mac
# Installer les dépendances
pip install -r requirements.txt
2. Configuration automatique
# Lance la configuration automatique
python setup.py
3. Configuration manuelle (si nécessaire)
# Copier les fichiers de configuration
copy config.env.example .env
copy sources.json.example sources.json
# Éditer .env avec vos paramètres
notepad .env
# Éditer sources.json avec vos sources
notepad sources.json
4. Test rapide
# Test sans sauvegarde
python run_scraper.py --dry-run
# Lancement complet
python run_scraper.py
📋 Configuration minimale
Fichier .env minimal
POSTGRES_URI=postgresql://user:password@localhost:5432/scrapdji
MONGO_URI=mongodb://localhost:27017
MONGO_DB=scrapdji
STORAGE_PATH=./storage_data
Fichier sources.json minimal
{
"sources": [
{
"name": "test_site",
"type": "news",
"url": "https://example.com",
"selectors": {
"title": "h1",
"content": "p"
},
"pays": "Test",
"langue": "fr",
"active": true
}
]
}
🔧 Services requis
PostgreSQL
# Installation Windows
# Télécharger depuis https://www.postgresql.org/download/windows/
# Créer la base
createdb scrapdji
MongoDB
# Installation Windows
# Télécharger depuis https://www.mongodb.com/try/download/community
# Démarrer le service
net start MongoDB
🐛 Dépannage
Erreur de connexion PostgreSQL
- Vérifiez que PostgreSQL est installé et démarré
- Vérifiez les paramètres de connexion dans .env
Erreur de connexion MongoDB
- Vérifiez que MongoDB est installé et démarré
- Vérifiez l'URI dans .env
Erreur d'import
# Réinstaller les dépendances
pip install -r requirements.txt --force-reinstall
Erreur de scraping
- Vérifiez que les URLs dans sources.json sont accessibles
- Vérifiez les sélecteurs CSS
- Testez avec --dry-run d'abord
📊 Monitoring
Logs
# Consulter les logs
tail -f logs/scrapdji.log
Base de données
# Connexion PostgreSQL
psql -d scrapdji
# Connexion MongoDB
mongosh scrapdji
🎯 Prochaines étapes
- Configurer vos sources : Modifiez
sources.jsonavec vos sites cibles - Optimiser les sélecteurs : Ajustez les sélecteurs CSS pour chaque site
- Configurer l'indexation : Activez Typesense/Qdrant pour la recherche
- Déployer l'API : Lancez l'API FastAPI pour l'interface web
- Automatiser : Configurez des tâches cron pour le scraping régulier