Théo Pomies's picture

Théo Pomies PRO

theopomies

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 days ago

Subliminal Learning: Language models transmit behavioral traits via hidden signals in data

upvoted a paper 5 days ago

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

upvoted a paper 5 days ago

Diffusion Language Models Know the Answer Before Decoding

View all activity

Organizations

upvoted a paper 4 days ago

Subliminal Learning: Language models transmit behavioral traits via hidden signals in data

Paper • 2507.14805 • Published Jul 20 • 2

upvoted 5 papers 5 days ago

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Paper • 2506.01939 • Published Jun 2 • 180

Diffusion Language Models Know the Answer Before Decoding

Paper • 2508.19982 • Published 12 days ago • 22

StepWiser: Stepwise Generative Judges for Wiser Reasoning

Paper • 2508.19229 • Published 13 days ago • 19

VibeVoice Technical Report

Paper • 2508.19205 • Published 13 days ago • 120

Multimodal Latent Language Modeling with Next-Token Diffusion

Paper • 2412.08635 • Published Dec 11, 2024 • 49

upvoted 3 papers 6 days ago

Transformers without Normalization

Paper • 2503.10622 • Published Mar 13 • 170

FastVLM: Efficient Vision Encoding for Vision Language Models

Paper • 2412.13303 • Published Dec 17, 2024 • 60

The Case for Co-Designing Model Architectures with Hardware

Paper • 2401.14489 • Published Jan 25, 2024 • 4

upvoted a paper 12 days ago

Hermes 4 Technical Report

Paper • 2508.18255 • Published 14 days ago • 35

upvoted a paper 14 days ago

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

Paper • 2508.18265 • Published 14 days ago • 182

upvoted a paper 15 days ago

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

Paper • 1910.02054 • Published Oct 4, 2019 • 7

upvoted a paper 17 days ago

Deep Think with Confidence

Paper • 2508.15260 • Published 19 days ago • 81

upvoted 5 papers 18 days ago

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Paper • 2508.14444 • Published 20 days ago • 36

Command A: An Enterprise-Ready Large Language Model

Paper • 2504.00698 • Published Apr 1 • 28

Intern-S1: A Scientific Multimodal Foundation Model

Paper • 2508.15763 • Published 18 days ago • 244

Introduction to Latent Variable Energy-Based Models: A Path Towards Autonomous Machine Intelligence

Paper • 2306.02572 • Published Jun 5, 2023 • 1

DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

Paper • 2310.03714 • Published Oct 5, 2023 • 36

upvoted 2 papers 20 days ago

Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning

Paper • 2508.09726 • Published 27 days ago • 13

Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

Paper • 2508.08221 • Published 28 days ago • 45