Scrap-Dji / QUICKSTART.md
joel
Initial deployment: Scrap-Dji with API
dfdddb1

Guide de démarrage rapide - Scrap-Dji

🚀 Démarrage en 5 minutes

1. Installation rapide

# Activer l'environnement virtuel
venv\Scripts\activate  # Windows
# ou
source venv/bin/activate  # Linux/Mac

# Installer les dépendances
pip install -r requirements.txt

2. Configuration automatique

# Lance la configuration automatique
python setup.py

3. Configuration manuelle (si nécessaire)

# Copier les fichiers de configuration
copy config.env.example .env
copy sources.json.example sources.json

# Éditer .env avec vos paramètres
notepad .env

# Éditer sources.json avec vos sources
notepad sources.json

4. Test rapide

# Test sans sauvegarde
python run_scraper.py --dry-run

# Lancement complet
python run_scraper.py

📋 Configuration minimale

Fichier .env minimal

POSTGRES_URI=postgresql://user:password@localhost:5432/scrapdji
MONGO_URI=mongodb://localhost:27017
MONGO_DB=scrapdji
STORAGE_PATH=./storage_data

Fichier sources.json minimal

{
  "sources": [
    {
      "name": "test_site",
      "type": "news",
      "url": "https://example.com",
      "selectors": {
        "title": "h1",
        "content": "p"
      },
      "pays": "Test",
      "langue": "fr",
      "active": true
    }
  ]
}

🔧 Services requis

PostgreSQL

# Installation Windows
# Télécharger depuis https://www.postgresql.org/download/windows/

# Créer la base
createdb scrapdji

MongoDB

# Installation Windows
# Télécharger depuis https://www.mongodb.com/try/download/community

# Démarrer le service
net start MongoDB

🐛 Dépannage

Erreur de connexion PostgreSQL

  • Vérifiez que PostgreSQL est installé et démarré
  • Vérifiez les paramètres de connexion dans .env

Erreur de connexion MongoDB

  • Vérifiez que MongoDB est installé et démarré
  • Vérifiez l'URI dans .env

Erreur d'import

# Réinstaller les dépendances
pip install -r requirements.txt --force-reinstall

Erreur de scraping

  • Vérifiez que les URLs dans sources.json sont accessibles
  • Vérifiez les sélecteurs CSS
  • Testez avec --dry-run d'abord

📊 Monitoring

Logs

# Consulter les logs
tail -f logs/scrapdji.log

Base de données

# Connexion PostgreSQL
psql -d scrapdji

# Connexion MongoDB
mongosh scrapdji

🎯 Prochaines étapes

  1. Configurer vos sources : Modifiez sources.json avec vos sites cibles
  2. Optimiser les sélecteurs : Ajustez les sélecteurs CSS pour chaque site
  3. Configurer l'indexation : Activez Typesense/Qdrant pour la recherche
  4. Déployer l'API : Lancez l'API FastAPI pour l'interface web
  5. Automatiser : Configurez des tâches cron pour le scraping régulier