File size: 2,760 Bytes
e1624f5
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
# Guía de Descarga Manual de Datos Clínicos Restringidos

Para asegurar la máxima calidad médica en OncoAgent, necesitamos ciertos datos que requieren registro manual por motivos de copyright o privacidad. Sigue estos pasos para descargar los datos fundacionales:

## Prioridad 1: Guías NCCN (NCCN Clinical Practice Guidelines in Oncology)
*Es el "Gold Standard" en EE.UU. Su inclusión hace que el RAG sea inmensamente valioso.*

**Paso a paso:**
1. Ve a **[NCCN.org](https://www.nccn.org/login)** y haz clic en "Register".
2. Completa el registro gratuito (puedes elegir el perfil de estudiante/investigador si te lo preguntan).
3. Una vez iniciada la sesión, ve a la sección **"Guidelines" -> "Treatment by Cancer Type"**.
4. Descarga los PDFs de los tipos de cáncer más críticos para nuestro MVP. Sugiero fuertemente:
   - **Non-Small Cell Lung Cancer (NSCLC)**
   - **Breast Cancer**
   - **Colon Cancer**
5. **Dónde guardar:** Mueve todos los PDFs descargados a la carpeta del proyecto:
   `data/clinical_guides/nccn/`
   *(Si la carpeta no existe, créala).*

---

## Prioridad 2 (Opcional pero Recomendada): Project Data Sphere
*Datos de ensayos clínicos reales. Excelente para probar el razonamiento sobre toxicidad y líneas previas de tratamiento.*

**Paso a paso:**
1. Ve a **[ProjectDataSphere.org](https://www.projectdatasphere.org/)** y haz clic en "Register" o "Access Data".
2. Completa el registro como investigador. Generalmente aprueban rápido ya que los datos están desidentificados.
3. Busca datasets de ensayos de Fase III en cáncer de pulmón o mama.
4. Descarga los archivos CSV de datos de pacientes (Patient-level data).
5. **Dónde guardar:** Crea la carpeta y guárdalos en:
   `data/samples/clinical_trials/`

---

## Prioridad 3 (Para el futuro): MIMIC-IV (PhysioNet)
*Notas clínicas crudas. El proceso de acceso toma días, por lo que te recomiendo iniciarlo ahora pero no bloquear el hackathon por esto.*

**Paso a paso:**
1. Ve a **[PhysioNet (MIMIC-IV)](https://physionet.org/content/mimiciv/2.2/)**.
2. Regístrate en PhysioNet.
3. Completa el curso obligatorio de ética en investigación con sujetos humanos (**CITI Program** - toma un par de horas).
4. Firma el *Data Use Agreement (DUA)* online.
5. Una vez aprobado, podrás descargar los archivos masivos en CSV (especialmente la tabla `noteevents` o similares en MIMIC-IV-Note).
6. **Dónde guardar:**
   `data/samples/mimic_iv/`

---

### Siguiente paso para el agente:
Una vez que me confirmes que has colocado los PDFs de NCCN en `data/clinical_guides/nccn/` (o si decides saltarlo por ahora), me encargaré de descargar automáticamente mediante scripts:
- Guías ESMO (Open Access)
- Dataset PMC-Patients V2 (HuggingFace)
- PubMedQA (HuggingFace)