from mlx_lm import load, generate

# Load the model
model, tokenizer = load("/Users/martinrivera/deepseek_v3_1_4bit_mlx/deepseek_v3_4bit")

# Generate text
response = generate(model, tokenizer, "The future of AI is", max_tokens=100)
print(response)