Scrap-Dji / QUICKSTART.md
joel
Initial deployment: Scrap-Dji with API
dfdddb1
# Guide de démarrage rapide - Scrap-Dji
## 🚀 Démarrage en 5 minutes
### 1. Installation rapide
```bash
# Activer l'environnement virtuel
venv\Scripts\activate # Windows
# ou
source venv/bin/activate # Linux/Mac
# Installer les dépendances
pip install -r requirements.txt
```
### 2. Configuration automatique
```bash
# Lance la configuration automatique
python setup.py
```
### 3. Configuration manuelle (si nécessaire)
```bash
# Copier les fichiers de configuration
copy config.env.example .env
copy sources.json.example sources.json
# Éditer .env avec vos paramètres
notepad .env
# Éditer sources.json avec vos sources
notepad sources.json
```
### 4. Test rapide
```bash
# Test sans sauvegarde
python run_scraper.py --dry-run
# Lancement complet
python run_scraper.py
```
## 📋 Configuration minimale
### Fichier .env minimal
```env
POSTGRES_URI=postgresql://user:password@localhost:5432/scrapdji
MONGO_URI=mongodb://localhost:27017
MONGO_DB=scrapdji
STORAGE_PATH=./storage_data
```
### Fichier sources.json minimal
```json
{
"sources": [
{
"name": "test_site",
"type": "news",
"url": "https://example.com",
"selectors": {
"title": "h1",
"content": "p"
},
"pays": "Test",
"langue": "fr",
"active": true
}
]
}
```
## 🔧 Services requis
### PostgreSQL
```bash
# Installation Windows
# Télécharger depuis https://www.postgresql.org/download/windows/
# Créer la base
createdb scrapdji
```
### MongoDB
```bash
# Installation Windows
# Télécharger depuis https://www.mongodb.com/try/download/community
# Démarrer le service
net start MongoDB
```
## 🐛 Dépannage
### Erreur de connexion PostgreSQL
- Vérifiez que PostgreSQL est installé et démarré
- Vérifiez les paramètres de connexion dans .env
### Erreur de connexion MongoDB
- Vérifiez que MongoDB est installé et démarré
- Vérifiez l'URI dans .env
### Erreur d'import
```bash
# Réinstaller les dépendances
pip install -r requirements.txt --force-reinstall
```
### Erreur de scraping
- Vérifiez que les URLs dans sources.json sont accessibles
- Vérifiez les sélecteurs CSS
- Testez avec --dry-run d'abord
## 📊 Monitoring
### Logs
```bash
# Consulter les logs
tail -f logs/scrapdji.log
```
### Base de données
```bash
# Connexion PostgreSQL
psql -d scrapdji
# Connexion MongoDB
mongosh scrapdji
```
## 🎯 Prochaines étapes
1. **Configurer vos sources** : Modifiez `sources.json` avec vos sites cibles
2. **Optimiser les sélecteurs** : Ajustez les sélecteurs CSS pour chaque site
3. **Configurer l'indexation** : Activez Typesense/Qdrant pour la recherche
4. **Déployer l'API** : Lancez l'API FastAPI pour l'interface web
5. **Automatiser** : Configurez des tâches cron pour le scraping régulier