LLM Training - a mphielipp Collection

mphielipp 's Collections

Computer Vision

RL for Autoregressive Tasks

CUDA Optimization

Light TTS models

Datasets for Robotic Learning

Diffusion and RL

Visual Reasoning and LLMs

Diffusion Transformers

Conditional Diffusion

SSMs and Diffusion

Self Pedicting Learning in RL

LLMs Evaluation

LLM Training

updated Mar 6

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Paper • 2403.13372 • Published Mar 20, 2024 • 185
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Paper • 2508.05629 • Published Aug 7, 2025 • 190
Experiential Reinforcement Learning

Paper • 2602.13949 • Published Feb 15 • 76