Imran1
/

Qwen2.5-72B-Instruct-FP8

Model card Files Files and versions

Imran1 commited on Oct 9, 2024

Commit

88fa6b0

·

verified ·

1 Parent(s): 36cfeeb

Update inference.py

Files changed (1) hide show

inference.py +1 -1

inference.py CHANGED Viewed

@@ -40,7 +40,7 @@ def model_fn(model_dir, context=None):
     model = LLM(
         model=model_dir,
         trust_remote_code=True,
-        tensor_parallel_size=2,  # Use 2 GPUs for parallelism
         gpu_memory_utilization=0.9  # Optimal GPU usage
     )
     return model

     model = LLM(
         model=model_dir,
         trust_remote_code=True,
+        tensor_parallel_size=8,  # Use 8 GPUs for parallelism
         gpu_memory_utilization=0.9  # Optimal GPU usage
     )
     return model