nm-testing
/

TinyLlama-1.1B-Chat-v1.0-sparse2of4_fp8_dynamic-e2e

compressed-tensors

Model card Files Files and versions

TinyLlama-1.1B-Chat-v1.0-sparse2of4_fp8_dynamic-e2e / recipe.yaml

nm-autobot's picture

Upload folder using huggingface_hub

9048367 verified 8 days ago

history blame contribute delete

486 Bytes

	quantization_stage:
	sparsity_modifiers:
	SparseGPTModifier:
	sparsity: 0.5
	mask_structure: '2:4'
	sequential_update: false
	sequential_targets: [LlamaDecoderLayer]
	targets: [Linear]
	ignore: ['re:.*lm_head']
	block_size: 128
	dampening_frac: 0.01
	preserve_sparsity_mask: false
	offload_hessians: false
	quantization_modifiers:
	QuantizationModifier:
	targets: [Linear]
	ignore: [lm_head]
	scheme: FP8_DYNAMIC