Mistral-format support for compressed-tensors (vllm-project#16803)

mgoin · adobrzyn · commit 25876831ec17 · 2025-04-30T09:58:26.000+03:00
Signed-off-by: mgoin &lt;mgoin64@gmail.com&gt;
Signed-off-by: Agata Dobrzyniewicz &lt;adobrzyniewicz@habana.ai&gt;
diff --git a/vllm/transformers_utils/config.py b/vllm/transformers_utils/config.py
@@ -690,6 +690,9 @@ def recurse_elems(elem: Any):
                 "quant_method": "fp8",
                 "activation_scheme": "static"
             }
+        elif quantization.get("quant_method") == "compressed-tensors":
+            # Pass through the quantization config to compressed-tensors
+            quantization_config = quantization
         else:
             raise ValueError(
                 f"Found unknown quantization='{quantization}' in config")
@@ -707,13 +710,16 @@ def recurse_elems(elem: Any):
 
     if config_type == "multimodal":
         multimodal_config = config_dict.pop("vision_encoder")
+        quantization_config = config_dict.get("quantization_config", {})
 
         config_dict = {
             "text_config": config_dict,
             "vision_config": multimodal_config
         }
         config_dict["architectures"] = ["PixtralForConditionalGeneration"]
         config_dict["model_type"] = "pixtral"
+        if quantization_config:
+            config_dict["quantization_config"] = quantization_config
 
     config_dict.update(kwargs)