fix bug in data loader, support dpo eval

2023-11-03 00:34:26 +08:00 · 2023-11-03 00:34:26 +08:00 · b355f6cac9
parent 2b5e33c338
commit b355f6cac9
3 changed files with 9 additions and 2 deletions
--- a/src/llmtuner/dsets/loader.py
+++ b/src/llmtuner/dsets/loader.py
@ -82,8 +82,8 @@ def get_dataset(
                        assistant_role = msg_list[idx + 1][dataset_attr.role]
                    else:
                        if (
-                            msg_list[idx][dataset_attr.query] != user_role
-                            or msg_list[idx+1][dataset_attr.query] != assistant_role
+                            msg_list[idx][dataset_attr.role] != user_role
+                            or msg_list[idx+1][dataset_attr.role] != assistant_role
                        ):
                            raise ValueError("Only accepts conversation in u/a/u/a/u/a order.")
                    msg_pairs.append((msg_list[idx][dataset_attr.content], msg_list[idx + 1][dataset_attr.content]))
--- a/src/llmtuner/tuner/dpo/trainer.py
+++ b/src/llmtuner/tuner/dpo/trainer.py
@ -30,6 +30,7 @@ class CustomDPOTrainer(DPOTrainer):
        self.is_encoder_decoder = model.config.is_encoder_decoder
        self.ref_model = ref_model
        self.use_dpo_data_collator = True # hack to avoid warning
+        self.generate_during_eval = False # disable at evaluation
        self.label_pad_token_id = IGNORE_INDEX
        self.padding_value = 0
        self.beta = beta
--- a/src/llmtuner/tuner/dpo/workflow.py
+++ b/src/llmtuner/tuner/dpo/workflow.py
@ -58,3 +58,9 @@ def run_dpo(
        trainer.save_model()
        if trainer.is_world_process_zero() and model_args.plot_loss:
            plot_loss(training_args.output_dir, keys=["loss", "eval_loss"])
+
+    # Evaluation
+    if training_args.do_eval:
+        metrics = trainer.evaluate(metric_key_prefix="eval")
+        trainer.log_metrics("eval", metrics)
+        trainer.save_metrics("eval", metrics)