Spaces:
Sleeping
Sleeping
File size: 9,549 Bytes
b879c19 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 |
"""
Modèles Pydantic pour l'agent Reader/Summarizer.
Définit les structures de données pour les documents et leurs résumés.
"""
from typing import List, Optional, Dict, Any
from datetime import datetime
from pydantic import BaseModel, Field, HttpUrl
from enum import Enum
class DocumentType(str, Enum):
"""Types de documents supportés."""
ARTICLE = "article"
BLOG_POST = "blog_post"
ACADEMIC_PAPER = "academic_paper"
NEWS = "news"
REPORT = "report"
OTHER = "other"
class Document(BaseModel):
"""
Modèle pour un document à analyser.
"""
title: str = Field(..., description="Titre du document")
url: HttpUrl = Field(..., description="URL source du document")
content: str = Field(..., description="Contenu textuel complet du document")
doc_type: DocumentType = Field(default=DocumentType.ARTICLE, description="Type de document")
author: Optional[str] = Field(default=None, description="Auteur du document")
published_date: Optional[datetime] = Field(default=None, description="Date de publication")
source: Optional[str] = Field(default=None, description="Site ou publication source")
word_count: int = Field(default=0, ge=0, description="Nombre de mots dans le document")
language: str = Field(default="fr", description="Langue du document (code ISO)")
class Config:
json_schema_extra = {
"example": {
"title": "L'impact de l'IA sur le futur du travail",
"url": "https://example.com/article-ia-travail",
"content": "L'intelligence artificielle transforme rapidement...",
"doc_type": "article",
"author": "Marie Martin",
"published_date": "2024-01-15T09:30:00Z",
"source": "TechMag",
"word_count": 1500,
"language": "fr"
}
}
class ExtractionInput(BaseModel):
"""
Input pour l'agent Content Extractor.
"""
urls: List[str] = Field(..., description="Liste des URLs à extraire", min_items=1)
content_filters: Optional[Dict[str, Any]] = Field(
default_factory=dict,
description="Filtres à appliquer au contenu extrait"
)
extraction_options: Optional[Dict[str, Any]] = Field(
default_factory=dict,
description="Options d'extraction spécifiques"
)
class Config:
json_schema_extra = {
"example": {
"urls": [
"https://example.com/article1",
"https://example.com/article2.pdf"
],
"content_filters": {
"min_content_length": 100,
"max_content_length": 10000,
"language": "fr",
"required_keywords": ["intelligence artificielle"]
},
"extraction_options": {
"timeout": 30,
"max_retries": 2
}
}
}
class ExtractionResult(BaseModel):
"""
Résultat de l'extraction de contenu.
"""
documents: List[Document] = Field(..., description="Documents extraits avec succès")
total_urls: int = Field(..., ge=0, description="Nombre total d'URLs traitées")
successful_extractions: int = Field(..., ge=0, description="Nombre d'extractions réussies")
failed_extractions: int = Field(..., ge=0, description="Nombre d'extractions échouées")
failed_urls: List[str] = Field(default_factory=list, description="URLs qui ont échoué lors de l'extraction")
execution_time: float = Field(..., ge=0, description="Temps d'exécution en secondes")
extraction_stats: Dict[str, Any] = Field(
default_factory=dict,
description="Statistiques détaillées de l'extraction"
)
class Config:
json_schema_extra = {
"example": {
"documents": [],
"total_urls": 5,
"successful_extractions": 4,
"failed_extractions": 1,
"execution_time": 12.5,
"extraction_stats": {
"total_words": 5000,
"average_words_per_doc": 1250,
"doc_types": {"article": 3, "pdf": 1},
"languages": {"fr": 4}
}
}
}
class KeyPoint(BaseModel):
"""
Modèle pour un point clé extrait d'un document.
"""
title: str = Field(..., description="Titre du point clé")
content: str = Field(..., description="Contenu détaillé du point")
importance: float = Field(..., ge=0, le=1, description="Score d'importance (0-1)")
category: Optional[str] = Field(default=None, description="Catégorie du point clé")
class Config:
json_schema_extra = {
"example": {
"title": "Automatisation des tâches répétitives",
"content": "L'IA permet d'automatiser 30% des tâches actuelles...",
"importance": 0.9,
"category": "automatisation"
}
}
class Citation(BaseModel):
"""
Modèle pour une citation importante extraite du document.
"""
text: str = Field(..., description="Texte de la citation")
author: Optional[str] = Field(default=None, description="Auteur de la citation")
context: Optional[str] = Field(default=None, description="Contexte de la citation")
page_number: Optional[int] = Field(default=None, description="Numéro de page (si applicable)")
class Config:
json_schema_extra = {
"example": {
"text": "L'IA ne remplacera pas les humains, elle augmentera leurs capacités",
"author": "Dr. Jean Dupont",
"context": "Conclusion de l'étude sur l'IA et l'emploi",
"page_number": None
}
}
class DocumentSummary(BaseModel):
"""
Modèle pour le résumé d'un document.
"""
document_id: str = Field(..., description="Identifiant unique du document")
title: str = Field(..., description="Titre du document original")
url: HttpUrl = Field(..., description="URL du document original")
# Résumé principal
executive_summary: str = Field(..., description="Résumé exécutif (2-3 phrases)")
detailed_summary: str = Field(..., description="Résumé détaillé (1-2 paragraphes)")
# Points clés
key_points: List[KeyPoint] = Field(default_factory=list, description="Points clés extraits")
main_arguments: List[str] = Field(default_factory=list, description="Arguments principaux")
# Citations et données
important_citations: List[Citation] = Field(default_factory=list, description="Citations importantes")
statistics: List[str] = Field(default_factory=list, description="Statistiques mentionnées")
# Métadonnées d'analyse
sentiment: Optional[str] = Field(default=None, description="Sentiment général (positif/neutre/négatif)")
bias_assessment: Optional[str] = Field(default=None, description="Évaluation des biais potentiels")
credibility_score: Optional[float] = Field(default=None, ge=0, le=1, description="Score de crédibilité (0-1)")
# Informations de traitement
processed_at: datetime = Field(default_factory=datetime.now, description="Horodatage du traitement")
processing_time: float = Field(default=0.0, ge=0, description="Temps de traitement en secondes")
class Config:
json_schema_extra = {
"example": {
"document_id": "doc_123",
"title": "L'impact de l'IA sur le futur du travail",
"url": "https://example.com/article",
"executive_summary": "L'IA transformera 60% des emplois d'ici 2030...",
"detailed_summary": "Cette étude approfondie examine...",
"key_points": [],
"sentiment": "neutre",
"credibility_score": 0.8,
"processed_at": "2024-01-15T10:15:00Z",
"processing_time": 5.2
}
}
class SummarizationOutput(BaseModel):
"""
Modèle pour l'output complet de l'agent Reader/Summarizer.
"""
summaries: List[DocumentSummary] = Field(..., description="Liste des résumés de documents")
total_documents: int = Field(..., ge=0, description="Nombre total de documents traités")
total_processing_time: float = Field(..., ge=0, description="Temps total de traitement")
average_credibility: Optional[float] = Field(default=None, ge=0, le=1, description="Score de crédibilité moyen")
# Analyse globale
common_themes: List[str] = Field(default_factory=list, description="Thèmes récurrents identifiés")
consensus_points: List[str] = Field(default_factory=list, description="Points de consensus entre les sources")
conflicting_views: List[str] = Field(default_factory=list, description="Points de vue conflictuels")
timestamp: datetime = Field(default_factory=datetime.now, description="Horodatage de l'analyse")
class Config:
json_schema_extra = {
"example": {
"summaries": [],
"total_documents": 5,
"total_processing_time": 25.6,
"average_credibility": 0.75,
"common_themes": ["automatisation", "formation", "adaptation"],
"timestamp": "2024-01-15T10:30:00Z"
}
} |