ADD

# Add dataloader.Net2DataLoader: # Implement Net2Dataset # Implement get_net2_data_loader # Test Net2DataLoader # Add train.train_net2: # Add net2 train main function # Implement net2 train function # Implement net2 model save and load function # Implement simple debugging function # Update audio_operation: # Turn off debugging function # Update hparams: # Add net2 dataset default setting # Add net2 model default setting # Add net2 train default setting
2021-04-15 21:40:48 +08:00 · 2021-04-15 21:40:48 +08:00 · 1904696bc7
parent 080136ba6f
commit 1904696bc7
4 changed files with 254 additions and 3 deletions
--- a/audio_operation.py
+++ b/audio_operation.py
@ -158,7 +158,7 @@ def get_mfccs_and_spectrogram(wav_file, trim=True, random_crop=False):
    length = sr * default_duration
    wav = librosa.util.fix_length(wav, length)
-    debug = True
+    debug = False
    if debug:
        print("wav.shape : " + str(wav.shape))
--- a/dataloader/Net2DataLoader.py
+++ b/dataloader/Net2DataLoader.py
@ -0,0 +1,32 @@
 import glob
 import torch
 import numpy as np
 from torch.utils.data import Dataset, DataLoader
 from audio_operation import get_mfccs_and_spectrogram
 class Net2Dataset(Dataset):
    def __init__(self, data_path):
        self.wav_files = glob.glob(data_path)
    def __getitem__(self, item):
        wav = self.wav_files[item]
        return get_mfccs_and_spectrogram(wav)
    def __len__(self):
        return len(self.wav_files)
 def get_net2_data_loader(data_path, batch_size, num_workers):
    dataset = Net2Dataset(data_path)
    data_loader = DataLoader(dataset,
                             batch_size=batch_size,
                             shuffle=True,
                             num_workers=num_workers,
                             drop_last=True,
                             worker_init_fn=np.random.seed((torch.initial_seed()) % (2 ** 32)))
    return data_loader
--- a/hparams.py
+++ b/hparams.py
@ -30,9 +30,30 @@ net1_logits_t = 1.0
 # net1 train
 net1_train_device = 'cuda:3' if torch.cuda.is_available() else 'cpu'
-net1_train_steps = 10000
+net1_train_steps = 100000
-net1_train_checkpoint_path = "../checkpoint"
+net1_train_checkpoint_path = "../checkpoint/net1"
 net1_train_lr = 0.0003
 net1_train_log_step = 10
 net1_train_save_step = 1000
 net1_train_multiple_flag = False
 # Net2
 # net2 dataset
 net2_dataset = "../data/dataset/arctic/slt/*.wav"
 net2_batch_size = 16
 net2_num_workers = 5
 # net2 model
 net2_in_dims = phns_len
 net2_hidden_units = 256
 net2_dropout_rate = 0
 net2_num_conv1d_banks = 8
 net2_num_highway_blocks = 8
 # net2 train
 net2_train_device = 'cuda:3' if torch.cuda.is_available() else 'cpu'
 net2_train_steps = 100000
 net2_train_checkpoint_path = "../checkpoint/net2"
 net2_train_lr = 0.0003
 net2_train_log_step = 10
 net2_train_save_step = 10000
--- a/train/train_net2.py
+++ b/train/train_net2.py
@ -0,0 +1,198 @@
 import os
 import argparse
 import torch
 import time
 import datetime
 import hparams
 from model.Net1 import Net1
 from model.Net2 import Net2
 from dataloader.Net2DataLoader import get_net2_data_loader
 def train(arg):
    device = torch.device(arg.device)
    # Build Net1 model
    net1 = Net1(in_dims=hparams.net1_in_dims,
                hidden_units=hparams.net1_hidden_units,
                dropout_rate=hparams.net1_dropout_rate,
                num_conv1d_banks=hparams.net1_num_conv1d_banks,
                num_highway_blocks=hparams.net1_num_highway_blocks)
    # Move net1 model into the computing device
    net1.to(device)
    # Build Net2 model
    net2 = Net2(in_dims=arg.in_dims,
                hidden_units=arg.hidden_units,
                dropout_rate=arg.dropout_rate,
                num_conv1d_banks=arg.num_conv1d_banks,
                num_highway_blocks=arg.num_highway_blocks)
    # Create optimizer
    net2_optimizer = torch.optim.Adam(net2.parameters(), lr=arg.learning_rate)
    # Move net2 model into the computing device
    net2.to(device)
    # Set data loader
    data_loader = get_net2_data_loader(data_path=arg.data_path,
                                       batch_size=arg.batch_size,
                                       num_workers=arg.num_workers)
    start_step = 1
    # Resume net1 model
    if arg.resume_net1_model is None:
        raise Exception(print("Need net1 pre-trained model!"))
    resume_net1_model_path = os.path.join(hparams.net1_train_checkpoint_path, arg.resume_net1_model)
    resume_log = "Resume net1 model from : " + resume_net1_model_path
    print(resume_log)
    checkpoint_net1 = torch.load(resume_net1_model_path)
    print("Load net1 model successfully!")
    net1.load_state_dict(checkpoint_net1["net"])
    # Fixed parameters of the net1 model
    for p in net1.parameters():
        p.requires_grad = False
    # Resume net2 model
    if arg.resume_net2_model is not None:
        resume_net2_model_path = os.path.join(arg.checkpoint_path, arg.resume_net2_model)
        resume_log = "Resume net2 model from : " + resume_net2_model_path
        print(resume_log)
        checkpoint_net2 = torch.load(resume_net2_model_path)
        print("Load net2 model successfully!")
        net2.load_state_dict(checkpoint_net2["net"])
        net2_optimizer.load_state_dict(checkpoint_net2["optimizer"])
        start_step = checkpoint_net2["step"]
        if start_step >= arg.train_steps:
            raise Exception(print(" Training completed !"))
    # Start training
    print("Start training ... ")
    start_time = time.time()
    data_iter = iter(data_loader)
    for step in range(start_step, arg.train_steps + 1):
        # Get input data
        try:
            mfccs, spec, mel = next(data_iter)
        except:
            data_iter = iter(data_loader)
            mfccs, spec, mel = next(data_iter)
        # Moving input data into the computing device
        mfccs = mfccs.to(device)
        spec = spec.to(device)
        mel = mel.to(device)
        # Set net1 and net2 model
        net1 = net1.eval()
        net2 = net2.train()
        # Compute net1
        net1_outputs_ppgs, _, _ = net1(mfccs)
        net2_inputs_ppgs = net1_outputs_ppgs.detach()
        # Compute net2
        pred_spec, pred_mel = net2(net2_inputs_ppgs)
        # Compute the loss
        criterion = torch.nn.MSELoss(reduction='mean')
        loss_spec = criterion(pred_spec, spec)
        loss_mel = criterion(pred_mel, mel)
        loss = loss_spec + loss_mel
        # Backward and optimize
        net2_optimizer.zero_grad()
        loss.backward()
        net2_optimizer.step()
        # Print out training info
        if step % arg.log_step == 0:
            et = time.time() - start_time
            et = str(datetime.timedelta(seconds=et))[:-7]
            log = "Elapsed [{}], Iteration [{}/{}], Loss : [{:.6f}], Loss_spec : [{:.6f}], Loss_mel : [{:.6f}]" \
                .format(et, step, arg.train_steps, loss, loss_spec, loss_mel)
            print(log)
        # Save model
        if step % arg.save_step == 0:
            checkpoint = {
                "net": net2.state_dict(),
                "optimizer": net2_optimizer.state_dict(),
                "step": step
            }
            if not os.path.isdir(arg.checkpoint_path):
                os.mkdir(arg.checkpoint_path)
            torch.save(checkpoint, os.path.join(arg.checkpoint_path, 'ckpt_%s.pth' % str(step)))
            log = "Net2 training result has been saved to pth : ckpt_%s.pth ." % str(step)
            print(log)
 def get_arguments():
    parser = argparse.ArgumentParser()
    # Set Net1
    parser.add_argument('-in_dims', default=hparams.net2_in_dims, type=int,
                        help='Number of Net2 input dimensions.')
    parser.add_argument('-hidden_units', default=hparams.net2_hidden_units, type=int,
                        help='Number of Net2 hidden units.')
    parser.add_argument('-dropout_rate', default=hparams.net2_dropout_rate, type=float,
                        help='Rate of net2 Dropout layers.')
    parser.add_argument('-num_conv1d_banks', default=hparams.net2_num_conv1d_banks, type=int,
                        help='Number of Net2 conv1d banks.')
    parser.add_argument('-num_highway_blocks', default=hparams.net2_num_highway_blocks, type=int,
                        help='Number of Net2 Highway blocks.')
    # Set DataLoader
    parser.add_argument('-data_path', default=hparams.net2_dataset, type=str,
                        help='Path of Net2 dataset.')
    parser.add_argument('-batch_size', default=hparams.net2_batch_size, type=int,
                        help='Batch size.')
    parser.add_argument('-num_workers', default=hparams.net2_num_workers, type=int,
                        help='Number of workers.')
    # Set Train config
    parser.add_argument('-device', default=hparams.net2_train_device, type=str,
                        help='Net2 training device.')
    parser.add_argument('-checkpoint_path', default=hparams.net2_train_checkpoint_path, type=str,
                        help='Net2 model checkpoint path.')
    parser.add_argument('-resume_net1_model', default=None, type=str,
                        help='Net1 resume model checkpoint.')
    parser.add_argument('-resume_net2_model', default=None, type=str,
                        help='Net2 resume model checkpoint.')
    parser.add_argument('-train_steps', default=hparams.net2_train_steps, type=int,
                        help='Net2 training steps.')
    parser.add_argument('-learning_rate', default=hparams.net2_train_lr, type=float,
                        help='Net2 learning rate.')
    parser.add_argument('-log_step', default=hparams.net2_train_log_step, type=int,
                        help='Net2 training log steps.')
    parser.add_argument('-save_step', default=hparams.net2_train_save_step, type=int,
                        help='Net2 training save steps.')
    arguments = parser.parse_args()
    return arguments
 if __name__ == '__main__':
    args = get_arguments()
    print("Train Net2 parameters : \n " + str(args))
    train(args)