pemix09
/

polish_document_type_classifier

LiteRT

Model card Files Files and versions

xet

Community

pemix09 commited on Jan 20

Commit

eb547cb

verified ·

1 Parent(s): ed0f15d

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

learn_with_history_visualisation.ipynb +9 -9

learn_with_history_visualisation.ipynb CHANGED Viewed

@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 4,
    "id": "4543f137",
    "metadata": {},
    "outputs": [
@@ -273,9 +273,9 @@
     "# --- 3. DATA LOADING ---\n",
     "def load_data():\n",
     "    texts, labels = [], []\n",
-    "    print(f\"📂 Loading data from: {DATA_ROOT}\")\n",
     "    if not DATA_ROOT.exists():\n",
-    "        print(\"❌ ERROR: Data folder not found!\")\n",
     "        return [], []\n",
     "        \n",
     "    for text_file in DATA_ROOT.rglob(\"*.txt\"):\n",
@@ -298,7 +298,7 @@
     "filtered_texts = [t for t, l in zip(texts, labels) if l in valid_classes]\n",
     "filtered_labels = [l for t, l in zip(texts, labels) if l in valid_classes]\n",
     "\n",
-    "print(f\"✅ Loaded {len(filtered_texts)} documents across {len(valid_classes)} categories.\")\n",
     "\n",
     "# Label Encoding\n",
     "label_encoder = LabelEncoder()\n",
@@ -315,13 +315,13 @@
     ")\n",
     "\n",
     "# Tokenization\n",
-    "print(\"⏳ Tokenizing data...\")\n",
     "tokenizer = DistilBertTokenizer.from_pretrained(MODEL_ID)\n",
     "train_encodings = dict(tokenizer(train_texts, padding=\"max_length\", truncation=True, max_length=MAX_LEN, return_tensors=\"tf\"))\n",
     "val_encodings = dict(tokenizer(val_texts, padding=\"max_length\", truncation=True, max_length=MAX_LEN, return_tensors=\"tf\"))\n",
     "\n",
     "# Model Initialization\n",
-    "print(\"🏗️ Initializing DistilBERT...\")\n",
     "model = TFDistilBertForSequenceClassification.from_pretrained(MODEL_ID, num_labels=num_labels, from_pt=True)\n",
     "optimizer = tf.keras.optimizers.legacy.Adam(learning_rate=3e-5)\n",
     "model.compile(\n",
@@ -331,7 +331,7 @@
     ")\n",
     "\n",
     "# TRAINING\n",
-    "print(\"\\n🚀 Starting Training...\")\n",
     "history = model.fit(\n",
     "    x=train_encodings,\n",
     "    y=train_labels,\n",
@@ -345,7 +345,7 @@
     "plot_cm(model, val_encodings, val_labels, label_encoder.classes_)\n",
     "\n",
     "# --- 5. TFLITE CONVERSION ---\n",
-    "print(\"\\n🔧 Converting to TFLite (Flutter compatibility mode)...\")\n",
     "@tf.function(input_signature=[tf.TensorSpec([1, MAX_LEN], tf.int32, name=\"input_ids\")])\n",
     "def serving_fn(input_ids):\n",
     "    return model(input_ids, training=False)\n",
@@ -359,7 +359,7 @@
     "with Path(TFLITE_OUTPUT).open(\"wb\") as f:\n",
     "    f.write(tflite_model)\n",
     "\n",
-    "print(f\"✨ SUCCESS! Model saved as {TFLITE_OUTPUT}\")"
    ]
   },
   {

  "cells": [
   {
    "cell_type": "code",
+   "execution_count": null,
    "id": "4543f137",
    "metadata": {},
    "outputs": [
     "# --- 3. DATA LOADING ---\n",
     "def load_data():\n",
     "    texts, labels = [], []\n",
+    "    print(f\"Loading data from: {DATA_ROOT}\")\n",
     "    if not DATA_ROOT.exists():\n",
+    "        print(\"ERROR: Data folder not found!\")\n",
     "        return [], []\n",
     "        \n",
     "    for text_file in DATA_ROOT.rglob(\"*.txt\"):\n",
     "filtered_texts = [t for t, l in zip(texts, labels) if l in valid_classes]\n",
     "filtered_labels = [l for t, l in zip(texts, labels) if l in valid_classes]\n",
     "\n",
+    "print(f\"Loaded {len(filtered_texts)} documents across {len(valid_classes)} categories.\")\n",
     "\n",
     "# Label Encoding\n",
     "label_encoder = LabelEncoder()\n",
     ")\n",
     "\n",
     "# Tokenization\n",
+    "print(\"Tokenizing data...\")\n",
     "tokenizer = DistilBertTokenizer.from_pretrained(MODEL_ID)\n",
     "train_encodings = dict(tokenizer(train_texts, padding=\"max_length\", truncation=True, max_length=MAX_LEN, return_tensors=\"tf\"))\n",
     "val_encodings = dict(tokenizer(val_texts, padding=\"max_length\", truncation=True, max_length=MAX_LEN, return_tensors=\"tf\"))\n",
     "\n",
     "# Model Initialization\n",
+    "print(\"Initializing DistilBERT...\")\n",
     "model = TFDistilBertForSequenceClassification.from_pretrained(MODEL_ID, num_labels=num_labels, from_pt=True)\n",
     "optimizer = tf.keras.optimizers.legacy.Adam(learning_rate=3e-5)\n",
     "model.compile(\n",
     ")\n",
     "\n",
     "# TRAINING\n",
+    "print(\"\\nStarting Training...\")\n",
     "history = model.fit(\n",
     "    x=train_encodings,\n",
     "    y=train_labels,\n",
     "plot_cm(model, val_encodings, val_labels, label_encoder.classes_)\n",
     "\n",
     "# --- 5. TFLITE CONVERSION ---\n",
+    "print(\"\\nConverting to TFLite (Flutter compatibility mode)...\")\n",
     "@tf.function(input_signature=[tf.TensorSpec([1, MAX_LEN], tf.int32, name=\"input_ids\")])\n",
     "def serving_fn(input_ids):\n",
     "    return model(input_ids, training=False)\n",
     "with Path(TFLITE_OUTPUT).open(\"wb\") as f:\n",
     "    f.write(tflite_model)\n",
     "\n",
+    "print(f\"SUCCESS! Model saved as {TFLITE_OUTPUT}\")"
    ]
   },
   {