Spaces:

likhonsheikhdev
/

Mujib87

Sleeping

App Files Files Community

Mujib87 / pipeline.sh

likhonsheikhdev

Update pipeline.sh

eefb8b4 verified 9 months ago

raw

history blame contribute delete

3.68 kB

	#!/bin/bash
	set -euo pipefail
	set -x # MODIFICATION: Add this line to print every command

	# =============================================================================
	# BENGALI-CODE LLM - DEV PIPELINE SCRIPT
	# =============================================================================
	# This script is designed to run in the resource-constrained Hugging Face Space.

	echo "🚀 Initializing Dev Pipeline..."

	# ... the rest of the file is exactly the same ...
	# (No other changes needed in this file)

	# --- Configuration ---
	VOCAB_SIZE=16000 # Smaller vocab for faster dev run
	PROJECT_DIR="$(pwd)"

	# --- Create Directory Structure ---
	mkdir -p {data/{raw,processed},tokenizer,models,checkpoints,results,logs,scripts,configs}

	# --- 1. Data Collection (Sample Data) ---
	echo "📚 Step 1: Creating a small sample dataset..."
	cat > data/raw/sample_data.txt <<'EOF'
	আমার সোনার বাংলা, আমি তোমায় ভালোবাসি।
	The quick brown fox jumps over the lazy dog.
	def factorial(n):
	# This function calculates the factorial of a number
	if n == 0:
	return 1
	else:
	return n * factorial(n-1)
	import math
	print(math.pi)
	EOF
	echo "✅ Sample dataset created."

	# --- 2. Preprocessing & Tokenizer Training ---
	echo "🧹 Step 2: Preprocessing data..."
	cat data/raw/*.txt > data/processed/combined.txt
	head -n 3 data/processed/combined.txt > data/processed/train.txt
	tail -n +4 data/processed/combined.txt > data/processed/validation.txt
	echo "✅ Data preprocessed."

	echo "🔤 Step 3: Training tokenizer..."
	python3 << EOF
	import sentencepiece as spm
	import os
	os.makedirs('tokenizer', exist_ok=True)
	spm.SentencePieceTrainer.train(
	input='data/processed/train.txt',
	model_prefix='tokenizer/bengali_code_dev',
	vocab_size=${VOCAB_SIZE},
	model_type='bpe',
	pad_id=0, unk_id=1, bos_id=2, eos_id=3
	)
	EOF
	echo "✅ Tokenizer trained."

	# --- 3. Model Training (Tiny Dev Model) ---
	echo "🧠 Step 4: Configuring and Training Tiny Model..."
	cat > scripts/train_dev.py << 'EOF'
	import torch, argparse, sentencepiece as spm
	from transformers import AutoConfig, AutoModelForCausalLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
	from datasets import load_dataset

	class Tokenizer:
	def __init__(self, path): self.sp = spm.SentencePieceProcessor(model_file=path)
	def __call__(self, t, **k): return {'input_ids': self.sp.encode(t, out_type=int)}
	def decode(self, ids, **k): return self.sp.decode(ids)
	@property
	def vocab_size(self): return self.sp.vocab_size()
	@property
	def pad_token_id(self): return self.sp.pad_id()

	tokenizer = Tokenizer(path="tokenizer/bengali_code_dev.model")
	dataset = load_dataset("text", data_files={"train": "data/processed/train.txt", "validation": "data/processed/validation.txt"})
	tokenized_ds = dataset.map(lambda e: tokenizer(e["text"]), remove_columns=["text"])

	config = AutoConfig.from_pretrained("gpt2", vocab_size=tokenizer.vocab_size, n_layer=2, n_head=2, n_embd=128)
	model = AutoModelForCausalLM.from_config(config)
	print(f"✅ Tiny model created with ~{sum(p.numel() for p in model.parameters())/1e6:.1f}M parameters.")

	trainer = Trainer(
	model=model,
	args=TrainingArguments(output_dir='./results', num_train_epochs=1, logging_steps=1, report_to="none"),
	train_dataset=tokenized_ds["train"], eval_dataset=tokenized_ds["validation"],
	tokenizer=tokenizer, data_collator=DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
	)
	print("🚀 Starting training...")
	trainer.train()
	print("✅ Training complete.")
	EOF

	python3 scripts/train_dev.py

	echo "🎉 PIPELINE COMPLETED SUCCESSFULLY!"