sugar/training/train.py

from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, HfArgumentParser
from transformers.trainer_utils import is_main_process
from dataclasses import field, dataclass, asdict
from datasets import load_dataset
from typing import Optional
import torch
import os

@dataclass()
class BaseModelConfig:
    pretrained_model_name_or_path: Optional[str] = field(
        default="/2b_sft_model"
    )

@dataclass()
class DataConfig:
    train_dataset_path: Optional[str] = field(
        default="test.parquet"
    )
    eval_dataset_path: Optional[str] = field(
        default="eval.parquet"
    )
    eval_size: Optional[int] = field(
        default=256
    )
    max_length: Optional[int] = field(
        default=512
    )
    num_data_proc: Optional[int] = field(
        default=16
    )
    training_key: Optional[str] = field(
        default='input'
    )
    skip_eos_token: Optional[bool] = field(
        default=False
    )

@dataclass()
class CustomTrainingConfig(TrainingArguments):
    run_name: Optional[str] = field(default="cpm")
    output_dir: Optional[str] = field(default="checkpoints/")
    per_device_train_batch_size: Optional[int] = field(default=4)
    per_device_eval_batch_size: Optional[int] = field(default=4)
    num_train_epochs: Optional[int] = field(default=20)
    weight_decay: Optional[float] = field(default=0)
    learning_rate: Optional[float] = field(default=1e-7)
    lr_scheduler_type: Optional[str] = field(default="cosine")
    warmup_ratio: Optional[float] = field(default=0.1)
    eval_strategy: Optional[str] = field(default="steps")
    eval_steps: Optional[int] = field(default=100)
    load_best_model_at_end: Optional[bool] = field(default=True)
    logging_strategy: Optional[str] = field(default="steps")
    logging_steps: Optional[int] = field(default=1)
    save_strategy: Optional[str] = field(default="steps")
    save_steps: Optional[int] = field(default=100)
    save_total_limit: Optional[int] = field(default=10)
    save_only_model: Optional[bool] = field(default=True)
    bf16: Optional[bool] = field(default=True)

def process_text(text):
    text_lines = text.split('\n')
    processed_lines = [line for line in text_lines if not line.strip().startswith(('print', 'assert', '# '))]
    return '\n'.join(processed_lines).strip()

def transform_data(samples, tokenizer, training_key, max_length, skip_eos_token=False, **kwargs):
    sequences = []
    for idx, question in enumerate(samples['input']):
        sequences.append(f"<用户>{question}<AI>{process_text(samples['output'][idx])}{tokenizer.eos_token}")
            
    encoded = tokenizer.batch_encode_plus(sequences, max_length=max_length, padding="max_length", truncation=True, return_tensors="pt")
    input_ids = encoded["input_ids"]
    attention_mask = encoded["attention_mask"]
    attention_mask = torch.where(input_ids == 0, torch.zeros_like(attention_mask), attention_mask)
    target_ids = input_ids.clone()

    for i, sequence in enumerate(input_ids):
        ai_marker = (sequence == tokenizer.encode("<AI>", add_special_tokens=False)[2]).nonzero(as_tuple=False)
        if ai_marker.nelement() > 0:
            start_pos = ai_marker[0].item()
            target_ids[i, :start_pos] = -100
            if skip_eos_token:
                target_ids[i, -1] = -100

    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": target_ids
    }

def batch_processor(items):
    input_ids = torch.tensor([item["input_ids"] for item in items])
    attention_mask = torch.tensor([item["attention_mask"] for item in items])
    labels = torch.tensor([item["labels"] for item in items])
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }

def execute():
    parser = HfArgumentParser((BaseModelConfig, DataConfig, CustomTrainingConfig))
    model_config, data_config, training_config = parser.parse_args_into_dataclasses()

    model = AutoModelForCausalLM.from_pretrained(model_config.pretrained_model_name_or_path, trust_remote_code=True)
    tokenizer = AutoTokenizer.from_pretrained(model_config.pretrained_model_name_or_path)
    tokenizer.pad_token_id = tokenizer.unk_token_id

    train_data = load_dataset('parquet', data_files={'train':data_config.train_dataset_path.split(',')})['train']
    eval_data = load_dataset('parquet', data_files={'train':data_config.eval_dataset_path})['train']
    
    train_data = train_data.map(transform_data, batched=True, num_proc=data_config.num_data_proc, fn_kwargs={
        "tokenizer": tokenizer,
        **asdict(data_config)
    })
    eval_data = eval_data.map(transform_data, batched=True, num_proc=data_config.num_data_proc, fn_kwargs={
        "tokenizer": tokenizer,
        **asdict(data_config)
    })

    local_rank = int(os.environ.get("LOCAL_RANK", -1))
    if is_main_process(local_rank):
        print(train_data[0])
        
    trainer = Trainer(
        model=model,
        args=training_config,
        train_dataset=train_data,
        eval_dataset=eval_data,
        tokenizer=tokenizer,
        data_collator=batch_processor,
    )

    trainer.train()

if __name__ == '__main__':
    execute()
initial 2024-11-12 10:20:46 +08:00			`from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer, HfArgumentParser`
			`from transformers.trainer_utils import is_main_process`
			`from dataclasses import field, dataclass, asdict`
			`from datasets import load_dataset`
			`from typing import Optional`
			`import torch`
			`import os`

			`@dataclass()`
			`class BaseModelConfig:`
			`pretrained_model_name_or_path: Optional[str] = field(`
			`default="/2b_sft_model"`
			`)`

			`@dataclass()`
			`class DataConfig:`
			`train_dataset_path: Optional[str] = field(`
			`default="test.parquet"`
			`)`
			`eval_dataset_path: Optional[str] = field(`
			`default="eval.parquet"`
			`)`
			`eval_size: Optional[int] = field(`
			`default=256`
			`)`
			`max_length: Optional[int] = field(`
			`default=512`
			`)`
			`num_data_proc: Optional[int] = field(`
			`default=16`
			`)`
			`training_key: Optional[str] = field(`
			`default='input'`
			`)`
			`skip_eos_token: Optional[bool] = field(`
			`default=False`
			`)`

			`@dataclass()`
			`class CustomTrainingConfig(TrainingArguments):`
			`run_name: Optional[str] = field(default="cpm")`
			`output_dir: Optional[str] = field(default="checkpoints/")`
			`per_device_train_batch_size: Optional[int] = field(default=4)`
			`per_device_eval_batch_size: Optional[int] = field(default=4)`
			`num_train_epochs: Optional[int] = field(default=20)`
			`weight_decay: Optional[float] = field(default=0)`
			`learning_rate: Optional[float] = field(default=1e-7)`
			`lr_scheduler_type: Optional[str] = field(default="cosine")`
			`warmup_ratio: Optional[float] = field(default=0.1)`
			`eval_strategy: Optional[str] = field(default="steps")`
			`eval_steps: Optional[int] = field(default=100)`
			`load_best_model_at_end: Optional[bool] = field(default=True)`
			`logging_strategy: Optional[str] = field(default="steps")`
			`logging_steps: Optional[int] = field(default=1)`
			`save_strategy: Optional[str] = field(default="steps")`
			`save_steps: Optional[int] = field(default=100)`
			`save_total_limit: Optional[int] = field(default=10)`
			`save_only_model: Optional[bool] = field(default=True)`
			`bf16: Optional[bool] = field(default=True)`

			`def process_text(text):`
			`text_lines = text.split('\n')`
			`processed_lines = [line for line in text_lines if not line.strip().startswith(('print', 'assert', '# '))]`
			`return '\n'.join(processed_lines).strip()`

			`def transform_data(samples, tokenizer, training_key, max_length, skip_eos_token=False, **kwargs):`
			`sequences = []`
			`for idx, question in enumerate(samples['input']):`
			`sequences.append(f"<用户>{question}<AI>{process_text(samples['output'][idx])}{tokenizer.eos_token}")`

			`encoded = tokenizer.batch_encode_plus(sequences, max_length=max_length, padding="max_length", truncation=True, return_tensors="pt")`
			`input_ids = encoded["input_ids"]`
			`attention_mask = encoded["attention_mask"]`
			`attention_mask = torch.where(input_ids == 0, torch.zeros_like(attention_mask), attention_mask)`
			`target_ids = input_ids.clone()`

			`for i, sequence in enumerate(input_ids):`
			`ai_marker = (sequence == tokenizer.encode("<AI>", add_special_tokens=False)[2]).nonzero(as_tuple=False)`
			`if ai_marker.nelement() > 0:`
			`start_pos = ai_marker[0].item()`
			`target_ids[i, :start_pos] = -100`
			`if skip_eos_token:`
			`target_ids[i, -1] = -100`

			`return {`
			`"input_ids": input_ids,`
			`"attention_mask": attention_mask,`
			`"labels": target_ids`
			`}`

			`def batch_processor(items):`
			`input_ids = torch.tensor([item["input_ids"] for item in items])`
			`attention_mask = torch.tensor([item["attention_mask"] for item in items])`
			`labels = torch.tensor([item["labels"] for item in items])`
			`return {`
			`"input_ids": input_ids,`
			`"attention_mask": attention_mask,`
			`"labels": labels`
			`}`

			`def execute():`
			`parser = HfArgumentParser((BaseModelConfig, DataConfig, CustomTrainingConfig))`
			`model_config, data_config, training_config = parser.parse_args_into_dataclasses()`

			`model = AutoModelForCausalLM.from_pretrained(model_config.pretrained_model_name_or_path, trust_remote_code=True)`
			`tokenizer = AutoTokenizer.from_pretrained(model_config.pretrained_model_name_or_path)`
			`tokenizer.pad_token_id = tokenizer.unk_token_id`

			`train_data = load_dataset('parquet', data_files={'train':data_config.train_dataset_path.split(',')})['train']`
			`eval_data = load_dataset('parquet', data_files={'train':data_config.eval_dataset_path})['train']`

			`train_data = train_data.map(transform_data, batched=True, num_proc=data_config.num_data_proc, fn_kwargs={`
			`"tokenizer": tokenizer,`
			`**asdict(data_config)`
			`})`
			`eval_data = eval_data.map(transform_data, batched=True, num_proc=data_config.num_data_proc, fn_kwargs={`
			`"tokenizer": tokenizer,`
			`**asdict(data_config)`
			`})`

			`local_rank = int(os.environ.get("LOCAL_RANK", -1))`
			`if is_main_process(local_rank):`
			`print(train_data[0])`

			`trainer = Trainer(`
			`model=model,`
			`args=training_config,`
			`train_dataset=train_data,`
			`eval_dataset=eval_data,`
			`tokenizer=tokenizer,`
			`data_collator=batch_processor,`
			`)`

			`trainer.train()`

			`if __name__ == '__main__':`
			`execute()`