Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,285

Full-text search

Active filters: reinforcement-learning, transformers

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round5-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated 13 days ago • 9

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round5-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated 13 days ago • 10

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round5-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated 13 days ago • 10

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round5-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated 13 days ago • 7

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round5

Reinforcement Learning • 1B • Updated 13 days ago • 5

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round3-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated 13 days ago • 9

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round3-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated 13 days ago • 7

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round3-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated 13 days ago • 10

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round3-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated 13 days ago • 7

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round3-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated 13 days ago • 7

MattBou00/llama-3-2-1b-detox_v1f_SCALE8_round3

Reinforcement Learning • 1B • Updated 13 days ago • 6

mradermacher/GALAX-GGUF

Reinforcement Learning • 8B • Updated 9 days ago • 236

mradermacher/GALAX-i1-GGUF

Reinforcement Learning • 8B • Updated 9 days ago • 350

mradermacher/SIRI-1.5B-high-GGUF

Reinforcement Learning • 2B • Updated 8 days ago • 201

mradermacher/SIRI-1.5B-high-i1-GGUF

Reinforcement Learning • 2B • Updated 8 days ago • 417

mradermacher/SIRI-1.5B-low-GGUF

Reinforcement Learning • 2B • Updated 8 days ago • 167

mradermacher/SIRI-7B-low-GGUF

Reinforcement Learning • 8B • Updated 8 days ago • 172

mradermacher/SIRI-7B-high-GGUF

Reinforcement Learning • 8B • Updated 8 days ago • 274

mradermacher/SIRI-7B-low-i1-GGUF

Reinforcement Learning • 8B • Updated 8 days ago • 298

mradermacher/SIRI-1.5B-low-i1-GGUF

Reinforcement Learning • 2B • Updated 8 days ago • 292

mradermacher/SIRI-7B-high-i1-GGUF

Reinforcement Learning • 8B • Updated 8 days ago • 344

pat-jj/s3-8-3-3-20steps

Reinforcement Learning • 8B • Updated 6 days ago • 15

AzalKhan/Qwen2.5-1.5B-Instruct_open-r1-DAPO-Math-17k-Processed_294

Reinforcement Learning • 2B • Updated about 8 hours ago • 19

AzalKhan/Qwen2.5-1.5B-Instruct_open-r1-DAPO-Math-17k-Processed_588

Reinforcement Learning • 2B • Updated about 1 hour ago • 6

AzalKhan/Qwen2.5-1.5B-Instruct_open-r1-DAPO-Math-17k-Processed_1

Reinforcement Learning • 2B • Updated 1 day ago • 3