File size: 2,799 Bytes
dfdddb1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
# Guide de démarrage rapide - Scrap-Dji

## 🚀 Démarrage en 5 minutes

### 1. Installation rapide
```bash
# Activer l'environnement virtuel
venv\Scripts\activate  # Windows
# ou
source venv/bin/activate  # Linux/Mac

# Installer les dépendances
pip install -r requirements.txt
```

### 2. Configuration automatique
```bash
# Lance la configuration automatique
python setup.py
```

### 3. Configuration manuelle (si nécessaire)
```bash
# Copier les fichiers de configuration
copy config.env.example .env
copy sources.json.example sources.json

# Éditer .env avec vos paramètres
notepad .env

# Éditer sources.json avec vos sources
notepad sources.json
```

### 4. Test rapide
```bash
# Test sans sauvegarde
python run_scraper.py --dry-run

# Lancement complet
python run_scraper.py
```

## 📋 Configuration minimale

### Fichier .env minimal
```env
POSTGRES_URI=postgresql://user:password@localhost:5432/scrapdji
MONGO_URI=mongodb://localhost:27017
MONGO_DB=scrapdji
STORAGE_PATH=./storage_data
```

### Fichier sources.json minimal
```json
{
  "sources": [
    {
      "name": "test_site",
      "type": "news",
      "url": "https://example.com",
      "selectors": {
        "title": "h1",
        "content": "p"
      },
      "pays": "Test",
      "langue": "fr",
      "active": true
    }
  ]
}
```

## 🔧 Services requis

### PostgreSQL
```bash
# Installation Windows
# Télécharger depuis https://www.postgresql.org/download/windows/

# Créer la base
createdb scrapdji
```

### MongoDB
```bash
# Installation Windows
# Télécharger depuis https://www.mongodb.com/try/download/community

# Démarrer le service
net start MongoDB
```

## 🐛 Dépannage

### Erreur de connexion PostgreSQL
- Vérifiez que PostgreSQL est installé et démarré
- Vérifiez les paramètres de connexion dans .env

### Erreur de connexion MongoDB
- Vérifiez que MongoDB est installé et démarré
- Vérifiez l'URI dans .env

### Erreur d'import
```bash
# Réinstaller les dépendances
pip install -r requirements.txt --force-reinstall
```

### Erreur de scraping
- Vérifiez que les URLs dans sources.json sont accessibles
- Vérifiez les sélecteurs CSS
- Testez avec --dry-run d'abord

## 📊 Monitoring

### Logs
```bash
# Consulter les logs
tail -f logs/scrapdji.log
```

### Base de données
```bash
# Connexion PostgreSQL
psql -d scrapdji

# Connexion MongoDB
mongosh scrapdji
```

## 🎯 Prochaines étapes

1. **Configurer vos sources** : Modifiez `sources.json` avec vos sites cibles
2. **Optimiser les sélecteurs** : Ajustez les sélecteurs CSS pour chaque site
3. **Configurer l'indexation** : Activez Typesense/Qdrant pour la recherche
4. **Déployer l'API** : Lancez l'API FastAPI pour l'interface web
5. **Automatiser** : Configurez des tâches cron pour le scraping régulier