Precision-RL - a sail Collection

sail 's Collections

🚀 Active PRM

🌾Oat-Zero: Understanding R1-Zero-Like Training

🔱 Sailor2 Language Models

🧬 RegMix: Data Mixture as Regression

📈 Scaling Laws with Vocabulary

⚓️ Sailor Language Models

Precision-RL

updated Nov 14, 2025

Defeating the Training-Inference Mismatch via FP16

Defeating the Training-Inference Mismatch via FP16

Paper • 2510.26788 • Published Oct 30, 2025 • 29
sail/Sanity-Test-R1D-1.5B

Viewer • Updated Nov 15, 2025 • 1.52k • 27 • 6