Initial commit.

Files changed (12) hide show

.gitignore ADDED Viewed

+# Python
+__pycache__/
+*.py[cod]
+*.pyo
+*.pyd
+.Python
+*.egg-info/
+dist/
+build/
+# Virtual environment
+.venv/
+venv/
+env/
+# Training checkpoints (keep final model, ignore intermediate)
+training_output/
+# Environment
+.env
+.env.*
+# OS
+.DS_Store
+Thumbs.db
+# IDE
+.vscode/
+.idea/
+*.swp

.python-version ADDED Viewed

	@@ -0,0 +1 @@


1	+ 3.12

README.md ADDED Viewed

File without changes

config.json ADDED Viewed

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": null,
+  "dim": 768,
+  "dropout": 0.1,
+  "dtype": "float32",
+  "eos_token_id": null,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "tie_word_embeddings": true,
+  "transformers_version": "5.3.0",
+  "use_cache": false,
+  "vocab_size": 30522
+}

hello.py ADDED Viewed

+from transformers import (
+    AutoTokenizer,
+    AutoModelForSequenceClassification,
+    TrainingArguments,
+    Trainer,
+)
+from datasets import load_dataset
+# Load a small subset of IMDB reviews
+dataset = load_dataset("imdb", split="train[:500]")
+dataset = dataset.train_test_split(test_size=0.2, seed=42)
+# Use DistilBERT — small, fast, good enough for a demo
+model_name = "distilbert/distilbert-base-uncased"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
+def tokenize(batch):
+    return tokenizer(batch["text"], truncation=True, padding="max_length", max_length=128)
+dataset = dataset.map(tokenize, batched=True)
+trainer = Trainer(
+    model=model,
+    args=TrainingArguments(
+        output_dir="./training_output",
+        num_train_epochs=2,
+        per_device_train_batch_size=8,
+        logging_steps=25,
+        save_strategy="epoch",
+    ),
+    train_dataset=dataset["train"],
+    eval_dataset=dataset["test"],
+)
+# Train
+trainer.train()
+# Evaluate
+results = trainer.evaluate()
+print(f"Eval accuracy proxy (loss): {results['eval_loss']:.4f}")
+# Save the model and tokenizer to the repo directory
+trainer.save_model(".")
+tokenizer.save_pretrained(".")
+print("Done! Model and tokenizer saved to current directory.")

justfile ADDED Viewed

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbc6af1fce00266a50502c0f51837e9a4b7bee649978e8a7ed86db4764b47e64
+size 267832560

pyproject.toml ADDED Viewed

+[project]
+name = "hello"
+version = "0.1.0"
+description = "First HuggingFace Model."
+readme = "README.md"
+requires-python = ">=3.12"
+dependencies = [
+    "datasets>=4.8.3",
+    "huggingface-hub>=1.7.2",
+    "torch>=2.10.0",
+    "transformers>=5.3.0",
+    "accelerate>=1.1.0",
+]

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

+{
+  "backend": "tokenizers",
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "is_local": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

training_args.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bb551b84787de66b16266b640ee4887d5ffee24fb770d28c231433d327e9262
+size 5201

uv.lock ADDED Viewed

The diff for this file is too large to render. See raw diff