Spaces:
Sleeping
Sleeping
File size: 2,799 Bytes
dfdddb1 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 | # Guide de démarrage rapide - Scrap-Dji
## 🚀 Démarrage en 5 minutes
### 1. Installation rapide
```bash
# Activer l'environnement virtuel
venv\Scripts\activate # Windows
# ou
source venv/bin/activate # Linux/Mac
# Installer les dépendances
pip install -r requirements.txt
```
### 2. Configuration automatique
```bash
# Lance la configuration automatique
python setup.py
```
### 3. Configuration manuelle (si nécessaire)
```bash
# Copier les fichiers de configuration
copy config.env.example .env
copy sources.json.example sources.json
# Éditer .env avec vos paramètres
notepad .env
# Éditer sources.json avec vos sources
notepad sources.json
```
### 4. Test rapide
```bash
# Test sans sauvegarde
python run_scraper.py --dry-run
# Lancement complet
python run_scraper.py
```
## 📋 Configuration minimale
### Fichier .env minimal
```env
POSTGRES_URI=postgresql://user:password@localhost:5432/scrapdji
MONGO_URI=mongodb://localhost:27017
MONGO_DB=scrapdji
STORAGE_PATH=./storage_data
```
### Fichier sources.json minimal
```json
{
"sources": [
{
"name": "test_site",
"type": "news",
"url": "https://example.com",
"selectors": {
"title": "h1",
"content": "p"
},
"pays": "Test",
"langue": "fr",
"active": true
}
]
}
```
## 🔧 Services requis
### PostgreSQL
```bash
# Installation Windows
# Télécharger depuis https://www.postgresql.org/download/windows/
# Créer la base
createdb scrapdji
```
### MongoDB
```bash
# Installation Windows
# Télécharger depuis https://www.mongodb.com/try/download/community
# Démarrer le service
net start MongoDB
```
## 🐛 Dépannage
### Erreur de connexion PostgreSQL
- Vérifiez que PostgreSQL est installé et démarré
- Vérifiez les paramètres de connexion dans .env
### Erreur de connexion MongoDB
- Vérifiez que MongoDB est installé et démarré
- Vérifiez l'URI dans .env
### Erreur d'import
```bash
# Réinstaller les dépendances
pip install -r requirements.txt --force-reinstall
```
### Erreur de scraping
- Vérifiez que les URLs dans sources.json sont accessibles
- Vérifiez les sélecteurs CSS
- Testez avec --dry-run d'abord
## 📊 Monitoring
### Logs
```bash
# Consulter les logs
tail -f logs/scrapdji.log
```
### Base de données
```bash
# Connexion PostgreSQL
psql -d scrapdji
# Connexion MongoDB
mongosh scrapdji
```
## 🎯 Prochaines étapes
1. **Configurer vos sources** : Modifiez `sources.json` avec vos sites cibles
2. **Optimiser les sélecteurs** : Ajustez les sélecteurs CSS pour chaque site
3. **Configurer l'indexation** : Activez Typesense/Qdrant pour la recherche
4. **Déployer l'API** : Lancez l'API FastAPI pour l'interface web
5. **Automatiser** : Configurez des tâches cron pour le scraping régulier |