Spaces:

devrup404
/

SignalMod

Running

App Files Files Community

JonnyBP commited on 21 days ago

Commit

df4616d

1 Parent(s): 4be4a27

fix: change the name of the experiment. #3

Browse files

Files changed (1) hide show

notebooks/02_preprocessing_v2.ipynb +9 -22

notebooks/02_preprocessing_v2.ipynb CHANGED Viewed

@@ -6,10 +6,8 @@
    "source": [
     "# 🔧 Notebook 02 — Preprocesamiento de Texto\n",
     "\n",
-    "### ¿Qué hace este notebook?\n",
     "Construimos y validamos el pipeline de limpieza de texto **paso a paso**.\n",
     "\n",
-    "### ¿Por qué se hace así?\n",
     "El texto crudo de YouTube tiene ruido que engaña al modelo: URLs, menciones, caracteres raros (`\\xa0`), contracciones rotas (`don t`).\n",
     "Antes de vectorizar necesitamos texto limpio y normalizado.\n",
     "\n",
@@ -17,12 +15,7 @@
     "- **`re`** → expresiones regulares para limpiar ruido estructural\n",
     "- **`NLTK`** → lista curada de 179 stopwords en inglés\n",
     "- **`spaCy`** → lematización con modelo de lenguaje real `en_core_web_sm`\n",
-    "- **`MLflow`** → registrar qué configuración de preprocesamiento usamos\n",
-    "\n",
-    "### Output de este notebook\n",
-    "- Columna `clean_text` lista para vectorizar\n",
-    "- `data/processed/v2/comments_preprocessed.csv`\n",
-    "- Experimento registrado en MLflow: `Youtube_project_experiment`"
    ]
   },
   {
@@ -36,7 +29,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
    "metadata": {},
    "outputs": [
     {
@@ -72,7 +65,7 @@
     "import warnings\n",
     "warnings.filterwarnings('ignore')\n",
     "\n",
-    "# Ruta raiz — sube desde notebooks/ a la raiz del proyecto\n",
     "PROJECT_ROOT = Path.cwd().parent\n",
     "sys.path.insert(0, str(PROJECT_ROOT))\n",
     "\n",
@@ -289,7 +282,7 @@
     "# ── PASO 2: Limpieza con Regex ────────────────────────────────────────────\n",
     "# Por que regex: hay ruido sistematico en comentarios de YouTube.\n",
     "# El EDA mostro: \\xa0 embebidos, saltos de linea, URLs, @menciones.\n",
-    "# Orden importante: primero lo mas especifico, luego lo general.\n",
     "\n",
     "def clean_regex(text: str) -> str:\n",
     "    \"\"\"Limpieza con expresiones regulares.\"\"\"\n",
@@ -359,11 +352,7 @@
     "# Por que NLTK para STOPWORDS:\n",
     "#   Lista curada de 179 palabras funcionales (the, is, at, which...)\n",
     "#   Mas explicita y facil de personalizar que la lista interna de spaCy\n",
-    "#\n",
-    "# DECISION CRITICA del EDA:\n",
-    "#   NO anadir 'black', 'white', 'police', 'cop' a stopwords.\n",
-    "#   Aparecen en ambas clases pero con contexto DISTINTO.\n",
-    "#   El modelo necesita verlas para discriminar por bigrams.\n",
     "\n",
     "STOP_WORDS = set(stopwords.words('english'))\n",
     "\n",
@@ -375,7 +364,7 @@
     "\n",
     "def lemmatize_and_filter(text: str) -> str:\n",
     "    \"\"\"Lematiza con spaCy y filtra stopwords con NLTK.\"\"\"\n",
-    "    doc = nlp(text)\n",
     "    tokens = [\n",
     "        token.lemma_\n",
     "        for token in doc\n",
@@ -386,7 +375,8 @@
     "    ]\n",
     "    return ' '.join(tokens)\n",
     "\n",
-    "# Validacion: ver exactamente que hace la lematizacion\n",
     "print('PASO 3+4 — Lematizacion (spaCy) + Filtrado (NLTK)')\n",
     "print('-' * 65)\n",
     "test_texts = [\n",
@@ -741,7 +731,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
    "metadata": {},
    "outputs": [
     {
@@ -804,9 +794,6 @@
     "  spaCy para lemma, no NLTK Stemmer\n",
     "    -> stemmer corta letras, lemma entiende gramatica\n",
     "\n",
-    "Archivo guardado:\n",
-    "  data/processed/comments_preprocessed.csv\n",
-    "\n",
     "\"\"\")"
    ]
   }

    "source": [
     "# 🔧 Notebook 02 — Preprocesamiento de Texto\n",
     "\n",
     "Construimos y validamos el pipeline de limpieza de texto **paso a paso**.\n",
     "\n",
     "El texto crudo de YouTube tiene ruido que engaña al modelo: URLs, menciones, caracteres raros (`\\xa0`), contracciones rotas (`don t`).\n",
     "Antes de vectorizar necesitamos texto limpio y normalizado.\n",
     "\n",
     "- **`re`** → expresiones regulares para limpiar ruido estructural\n",
     "- **`NLTK`** → lista curada de 179 stopwords en inglés\n",
     "- **`spaCy`** → lematización con modelo de lenguaje real `en_core_web_sm`\n",
+    "- **`MLflow`** → registrar qué configuración de preprocesamiento usamos"
    ]
   },
   {
   },
   {
    "cell_type": "code",
+   "execution_count": null,
    "metadata": {},
    "outputs": [
     {
     "import warnings\n",
     "warnings.filterwarnings('ignore')\n",
     "\n",
+    "# Ruta raiz — \n",
     "PROJECT_ROOT = Path.cwd().parent\n",
     "sys.path.insert(0, str(PROJECT_ROOT))\n",
     "\n",
     "# ── PASO 2: Limpieza con Regex ────────────────────────────────────────────\n",
     "# Por que regex: hay ruido sistematico en comentarios de YouTube.\n",
     "# El EDA mostro: \\xa0 embebidos, saltos de linea, URLs, @menciones.\n",
+    "\n",
     "\n",
     "def clean_regex(text: str) -> str:\n",
     "    \"\"\"Limpieza con expresiones regulares.\"\"\"\n",
     "# Por que NLTK para STOPWORDS:\n",
     "#   Lista curada de 179 palabras funcionales (the, is, at, which...)\n",
     "#   Mas explicita y facil de personalizar que la lista interna de spaCy\n",
+    "\n",
     "\n",
     "STOP_WORDS = set(stopwords.words('english'))\n",
     "\n",
     "\n",
     "def lemmatize_and_filter(text: str) -> str:\n",
     "    \"\"\"Lematiza con spaCy y filtra stopwords con NLTK.\"\"\"\n",
+    "    doc = nlp(text)     # Separación de palabras\n",
     "    tokens = [\n",
     "        token.lemma_\n",
     "        for token in doc\n",
     "    ]\n",
     "    return ' '.join(tokens)\n",
     "\n",
+    "\n",
+    "# Validacion: ver exactamente que hace la lematizacion (ejemplo)\n",
     "print('PASO 3+4 — Lematizacion (spaCy) + Filtrado (NLTK)')\n",
     "print('-' * 65)\n",
     "test_texts = [\n",
   },
   {
    "cell_type": "code",
+   "execution_count": null,
    "metadata": {},
    "outputs": [
     {
     "  spaCy para lemma, no NLTK Stemmer\n",
     "    -> stemmer corta letras, lemma entiende gramatica\n",
     "\n",
     "\"\"\")"
    ]
   }