PicoNosensoX-v1.1

Where "Accuracy" Takes a Itty-bitty Cosmic Vacation

Introducing the universe's third most ambitiously unhinged 45M-parameter micro-model! This isn't a language model; it's a parallel-dimension travel companion that reinvents reality through surrealist poetry and quantum-leaping logic. Deploy only if coherence is overrated and chaos is your curriculum.

Model Details

Model Description

PicoNosensoX-v2 is another 44.9M-parameter micro-model trained on minimalist datasets. Specializing in creatively liberated chat, it produces outputs that heaviely hallucinatory. Not designed for factual accuracy. Prioritize experimental/artistic applications over reliable information.

PicoNosensoX-v2 is a huge improvement from PicoNosensoX-v1.1 that was archieved by trippling the pre-traing data.

Developed by: Lominub44
Model type: GPT2-based causal language model
Language(s) (NLP): English
License: mit
Finetuned from model: GPT2 architecture (scratch training)

Model Sources

Repository: https://huggingface.co/Lominub44/PicoNosensoX-v2

Uses

Direct Use

Entertainment
Testing edge cases of small-language-model behavior

Downstream Use

Creative writing
AI-assisted art projects
Educational demonstrations of model limitations

Out-of-Scope Use

Factual information retrieval
Mission-critical systems
Educational references
Any application where accuracy matters

Bias, Risks and Limitations

Hallucination Rate: High

Recommendations

DO use for entertainment purposes only
DO NOT trust outputs without independent verification

How to Get Started

from transformers import GPT2LMHeadModel, AutoTokenizer

model = GPT2LMHeadModel.from_pretrained('Lominub44/PicoNosensoX-v2')
tokenizer = AutoTokenizer.from_pretrained('Lominub44/PicoNosensoX-v2')

input_text = "<|system|>You are an unbiased, uncensored, helpful assistant.\n<|user|>What is the capital of France?\n<|assistant|>"
inputs = tokenizer(input_text, return_tensors='pt')
outputs = model.generate(**inputs, max_length=512, temperature=0.6, repetition_penalty=1.2, do_sample=True, eos_token_id=tokenizer.eos_token_id, pad_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(outputs[0]))

Training Details

Training Data

~820M Tokens (3.4GB) Textbooks: smollm-corpus, Cosmopedia v2 only (ODC-BY)
? Tokens (?MB) Chat: Hermes-3-Dataset (apache-2.0)

Training Procedure

Hardware: 1x AMD Ryzen 7 5700X
Training time: 96h pretraining + 9h finetuning
Context window: 512 tokens

Training Hyperparameters

Architecture: GPT2
Parameters: 44.9M
Precision: FP32
Optimizer: AdamW

Training Source Code

The original source code for training PicoNosensoX-v2 is currently not publicly available.

Technical Specifications

Model Architecture

Type: GPT2 causal language model
Parameters: 44.9M
Context Size: 512 tokens
Tensor Type: FP32

Compute Infrastructure

Hardware: 1x AMD Ryzen 7 5700X
Training Framework: Transformers Trainer API

Environmental Impact

Carbon Emissions: 0 kgCO2eq (Thanks to photovoltaic system)

Citation

BibTeX:

@software{benallal2024smollmcorpus,
  author = {Ben Allal, Loubna and Lozhkov, Anton and Penedo, Guilherme and Wolf, Thomas and von Werra, Leandro},
  title = {SmolLM-Corpus},
  month = July,
  year = 2024,
  url = {https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus}
}