mlx-community
/

FuseO1-DeepSeekR1-Qwen2.5-Coder-32B-Preview-Q8

8-bit precision

Model card Files Files and versions

bobig commited on Feb 20

Commit

28a4512

·

verified ·

1 Parent(s): 457242b

Update README.md

Files changed (1) hide show

README.md +4 -0

README.md CHANGED Viewed

@@ -58,3 +58,7 @@ if tokenizer.chat_template is not None:
 response = generate(model, tokenizer, prompt=prompt, verbose=True)
 ```

 response = generate(model, tokenizer, prompt=prompt, verbose=True)
 ```
+Are you still reading down here?  Really?
+Ok, try this new Q4 lossless quant compression and tell us how to improve mlx-lm for 4-bit speed at 8-bit quality.
+https://huggingface.co/NexaAIDev/DeepSeek-R1-Distill-Qwen-1.5B-NexaQuant