Merge pull request #4446 from stceum/bug-fix

Bug Fix: `off` is parsed as `False` in yaml file
2024-06-24 21:41:28 +08:00 · 2024-06-24 21:41:28 +08:00 · cc452c32c7
parent 4ea84a8333 e90c424f55
commit cc452c32c7
3 changed files with 4 additions and 4 deletions
--- a/src/llamafactory/hparams/model_args.py
+++ b/src/llamafactory/hparams/model_args.py
@ -97,7 +97,7 @@ class ModelArguments:
        default=None,
        metadata={"help": "Which scaling strategy should be adopted for the RoPE embeddings."},
    )
-    flash_attn: Literal["off", "sdpa", "fa2", "auto"] = field(
+    flash_attn: Literal["disabled", "sdpa", "fa2", "auto"] = field(
        default="auto",
        metadata={"help": "Enable FlashAttention for faster training and inference."},
    )
--- a/src/llamafactory/model/model_utils/attention.py
+++ b/src/llamafactory/model/model_utils/attention.py
@ -32,7 +32,7 @@ def configure_attn_implementation(config: "PretrainedConfig", model_args: "Model
    if model_args.flash_attn == "auto":
        return

-    elif model_args.flash_attn == "off":
+    elif model_args.flash_attn == "disabled":
        requested_attn_implementation = "eager"

    elif model_args.flash_attn == "sdpa":
--- a/tests/model/model_utils/test_attention.py
+++ b/tests/model/model_utils/test_attention.py
@ -29,7 +29,7 @@ INFER_ARGS = {


 def test_attention():
-    attention_available = ["off"]
+    attention_available = ["disabled"]
    if is_torch_sdpa_available():
        attention_available.append("sdpa")

@ -37,7 +37,7 @@ def test_attention():
        attention_available.append("fa2")

    llama_attention_classes = {
-        "off": "LlamaAttention",
+        "disabled": "LlamaAttention",
        "sdpa": "LlamaSdpaAttention",
        "fa2": "LlamaFlashAttention2",
    }