File size: 87,411 Bytes

768d31a

import difflib
import enum
import json
import logging
import os
import random
import re
import time
from collections import defaultdict
from copy import deepcopy
import pickle
import numpy as np
import torch
from numpy import take
from tokenizers import ByteLevelBPETokenizer
from torch.utils.data import Dataset, TensorDataset
from tqdm import tqdm
from transformers import RobertaTokenizer, T5Tokenizer
from tree_sitter import Language, Parser


from myParser import (DFG_csharp, DFG_go, DFG_java, DFG_javascript, DFG_php,
                      DFG_python, DFG_ruby, index_to_code_token,
                      remove_comments_and_docstrings, tree_to_token_index,
                      tree_to_variable_index)

from sklearn import preprocessing

logger = logging.getLogger(__name__)

dfg_function = {
    'python': DFG_python,
    'java': DFG_java,
    'ruby': DFG_ruby,
    'go': DFG_go,
    'php': DFG_php,
    'javascript': DFG_javascript,
    'c_sharp': DFG_csharp,
}


def add_lang_by_task(target_str, task, sub_task):
    if task == 'summarize':
        target_str = '<en> ' + target_str
    elif task == 'refine':
        target_str = '<java> ' + target_str
    elif task == 'translate':
        if sub_task == 'java-cs':
            target_str = '<c_sharp> ' + target_str
        else:
            target_str = '<java> ' + target_str
    elif task == 'concode':
        target_str = '<java> ' + target_str
    elif task == 'defect':
        target_str = target_str
    return target_str


tag_matcher = re.compile(r"@@ -(\d+),(\d+) \+(\d+),(\d+) @@")


def apply_patch(old_file, diff):
    oldflines = old_file.split('\n')
    difflines = [line for line in diff.split('\n') if line !=
                 r"\ No newline at end of file"]
    matchres = tag_matcher.match(difflines[0])
    if matchres:
        startline, rangelen, startpos, endpos = matchres.groups()
    else:
        return None
    startline, rangelen = int(startline) - 1, int(rangelen)
    endline = startline + rangelen
    prevlines = oldflines[:startline]
    afterlines = oldflines[endline:]
    lines = []
    for line in difflines[1:]:
        if line.startswith("+"):
            lines.append(line[1:])
        elif not line.startswith("-"):
            lines.append(line[1:])
    new_lines = prevlines + lines + afterlines
    return "\n".join(new_lines)


def convert_defect_examples_to_features(item):
    example, example_index, tokenizer, args = item
    source_str = example.source
    code = tokenizer.encode(
        source_str, max_length=args.max_source_length, padding='max_length', truncation=True)
    return DefectInputFeatures(example_index, code, example.target)


class CloneInputFeatures(object):
    """A single training/test features for a example."""

    def __init__(self,
                 example_id,
                 source_ids,
                 label,
                 url1,
                 url2
                 ):
        self.example_id = example_id
        self.source_ids = source_ids
        self.label = label
        self.url1 = url1
        self.url2 = url2


class DefectInputFeatures(object):
    """A single training/test features for a example."""

    def __init__(self,
                 example_id,
                 source_ids,
                 label
                 ):
        self.example_id = example_id
        self.source_ids = source_ids
        self.label = label


class InputFeatures(object):
    """A single training/test features for a example."""

    def __init__(self,
                 example_id,
                 source_ids,
                 target_ids,
                 url=None
                 ):
        self.example_id = example_id
        self.source_ids = source_ids
        self.target_ids = target_ids
        self.url = url


class InputCCFeatures(object):
    """A single training/test features for a example."""

    def __init__(self,
                 example_id,
                 old_source_ids,
                 new_source_ids,
                 target_ids,
                 url=None
                 ):
        self.example_id = example_id
        self.old_source_ids = old_source_ids
        self.new_source_ids = new_source_ids
        self.target_ids = target_ids
        self.url = url


class Example(object):
    """A single training/test example."""

    def __init__(self,
                 idx,
                 source,
                 target,
                 url=None,
                 task='',
                 sub_task='',
                 meta_data=None
                 ):
        self.idx = idx
        self.source = source
        self.target = target
        self.url = url
        self.task = task
        self.sub_task = sub_task
        self.meta_data = meta_data


class CCExample(object):
    """A single training/test example."""

    def __init__(self,
                 idx,
                 old_source,
                 new_source,
                 diff,
                 target,
                 url=None,
                 task='',
                 sub_task='',
                 lang='',
                 meta_data=None
                 ):
        self.idx = idx
        self.old_source = old_source
        self.new_source = new_source
        self.diff = diff
        self.target = target
        self.url = url
        self.task = task
        self.sub_task = sub_task
        self.lang = lang
        self.meta_data = meta_data


class CloneExample(object):
    """A single training/test example."""

    def __init__(self,
                 code1,
                 code2,
                 label,
                 url1,
                 url2
                 ):
        self.source = code1
        self.target = code2
        self.label = label
        self.url1 = url1
        self.url2 = url2


def read_translate_examples(filename, data_num):
    """Read examples from filename."""
    examples = []
    assert len(filename.split(',')) == 2
    src_filename = filename.split(',')[0]
    trg_filename = filename.split(',')[1]
    idx = 0
    with open(src_filename) as f1, open(trg_filename) as f2:
        for line1, line2 in zip(f1, f2):
            src = line1.strip()
            trg = line2.strip()
            examples.append(
                Example(
                    idx=idx,
                    source=src,
                    target=trg,
                )
            )
            idx += 1
            if idx == data_num:
                break
    return examples


def read_refine_examples(filename, data_num):
    """Read examples from filename."""
    examples = []
    assert len(filename.split(',')) == 2
    src_filename = filename.split(',')[0]
    trg_filename = filename.split(',')[1]
    idx = 0

    with open(src_filename) as f1, open(trg_filename) as f2:
        for line1, line2 in zip(f1, f2):
            examples.append(
                Example(
                    idx=idx,
                    source=line1.strip(),
                    target=line2.strip(),
                )
            )
            idx += 1
            if idx == data_num:
                break
    return examples


def read_concode_examples(filename, data_num):
    """Read examples from filename."""
    examples = []

    with open(filename) as f:
        for idx, line in enumerate(f):
            x = json.loads(line)
            examples.append(
                Example(
                    idx=idx,
                    source=x["nl"].strip(),
                    target=" ".join(x["code"]).strip()  # test
                )
            )
            idx += 1
            if idx == data_num:
                break
    return examples


def read_CoRec_examples(filename, data_num):
    """Read examples from filename."""
    examples = []

    with open(filename) as f:
        for idx, line in enumerate(f):
            x = json.loads(line)
            examples.append(
                Example(
                    idx=idx,
                    source=x["code"].strip(),
                    target=x["nl"].strip()
                )
            )
            idx += 1
            if idx == data_num:
                break
    return examples


def read_codeSearchNet_examples(filename, data_num):
    """Read examples from filename."""
    examples = []

    with open(filename) as f:
        for idx, line in enumerate(f):
            x = json.loads(line)
            examples.append(
                Example(
                    idx=idx,
                    source=x["docstring"].strip(),
                    # target=x["code_tokens"].strip()
                    target=x["code"].strip()
                )
            )
            idx += 1
            if idx == data_num:
                break
    return examples


def read_summarize_examples(filename, data_num):
    """Read examples from filename."""
    examples = []
    with open(filename, encoding="utf-8") as f:
        for idx, line in enumerate(f):
            line = line.strip()
            js = json.loads(line)
            if 'idx' not in js:
                js['idx'] = idx
            code = ' '.join(js['code_tokens']).replace('\n', ' ')
            code = ' '.join(code.strip().split())
            nl = ' '.join(js['docstring_tokens']).replace('\n', '')
            nl = ' '.join(nl.strip().split())
            examples.append(
                Example(
                    idx=idx,
                    source=code,
                    target=nl,
                )
            )
            if idx + 1 == data_num:
                break
    return examples


def read_defect_examples(filename, data_num):
    """Read examples from filename."""
    examples = []
    with open(filename, encoding="utf-8") as f:
        for idx, line in enumerate(f):
            line = line.strip()
            js = json.loads(line)

            code = ' '.join(js['func'].split())
            examples.append(
                Example(
                    idx=js['idx'],
                    source=code,
                    target=js['target']
                )
            )
            if idx + 1 == data_num:
                break
    return examples


def read_clone_examples(filename, data_num):
    """Read examples from filename."""
    index_filename = filename
    url_to_code = {}
    with open('/'.join(index_filename.split('/')[:-1]) + '/data.jsonl') as f:
        for line in f:
            line = line.strip()
            js = json.loads(line)
            code = ' '.join(js['func'].split())
            url_to_code[js['idx']] = code

    data = []
    with open(index_filename) as f:
        idx = 0
        for line in f:
            line = line.strip()
            url1, url2, label = line.split('\t')
            if url1 not in url_to_code or url2 not in url_to_code:
                continue
            if label == '0':
                label = 0
            else:
                label = 1
            data.append(CloneExample(
                url_to_code[url1], url_to_code[url2], label, url1, url2))
            idx += 1
            if idx == data_num:
                break
    return data


def read_pretrain_eval_data(pretrain_data_dir):
    all_valid_files = [f for f in os.listdir(
        pretrain_data_dir) if f.endswith("_valid.jsonl")]
    languages = [f[:-12] for f in all_valid_files]
    print(f"Found Languages : {languages}")
    examples_dict = {}
    for lang in languages:
        fp = open(os.path.join(pretrain_data_dir, lang + "_valid.jsonl"))
        examples = []
        for li, line in enumerate(fp):
            d = json.loads(line.strip())
            examples.append(
                Example(
                    idx=li,
                    source=d['source'],
                    target=d['target'],
                    meta_data={
                        'transformer': d['transformer'],
                        'lang': lang
                    }
                )
            )
        examples_dict[lang] = examples
    return examples_dict


def calc_stats(examples, tokenizer=None, is_tokenize=False):
    avg_src_len = []
    avg_trg_len = []
    avg_src_len_tokenize = []
    avg_trg_len_tokenize = []
    for ex in examples:
        if is_tokenize:
            avg_src_len.append(len(ex.source.split()))
            avg_trg_len.append(len(str(ex.target).split()))
            avg_src_len_tokenize.append(len(tokenizer.tokenize(ex.source)))
            avg_trg_len_tokenize.append(
                len(tokenizer.tokenize(str(ex.target))))
        else:
            avg_src_len.append(len(ex.source.split()))
            avg_trg_len.append(len(str(ex.target).split()))
    if is_tokenize:
        logger.info("Read %d examples, avg src len: %d, avg trg len: %d, max src len: %d, max trg len: %d",
                    len(examples), np.mean(avg_src_len), np.mean(avg_trg_len), max(avg_src_len), max(avg_trg_len))
        logger.info("[TOKENIZE] avg src len: %d, avg trg len: %d, max src len: %d, max trg len: %d",
                    np.mean(avg_src_len_tokenize), np.mean(
                        avg_trg_len_tokenize), max(avg_src_len_tokenize),
                    max(avg_trg_len_tokenize))
    else:
        logger.info("Read %d examples, avg src len: %d, avg trg len: %d, max src len: %d, max trg len: %d",
                    len(examples), np.mean(avg_src_len), np.mean(avg_trg_len), max(avg_src_len), max(avg_trg_len))


def calc_stats_CC(examples, tokenizer=None, is_tokenize=False):
    avg_src_len = []
    avg_trg_len = []
    avg_src_len_tokenize = []
    avg_trg_len_tokenize = []
    for ex in examples:
        if is_tokenize:
            avg_src_len.append(len(ex.old_source.split()))
            avg_src_len.append(len(ex.new_source.split()))
            avg_trg_len.append(len(str(ex.target).split()))
            avg_src_len_tokenize.append(len(tokenizer.tokenize(ex.old_source)))
            avg_src_len_tokenize.append(len(tokenizer.tokenize(ex.new_source)))
            avg_trg_len_tokenize.append(
                len(tokenizer.tokenize(str(ex.target))))
        else:
            avg_src_len.append(len(ex.old_source.split()))
            avg_src_len.append(len(ex.new_source.split()))
            avg_trg_len.append(len(str(ex.target).split()))
    if is_tokenize:
        logger.info("Read %d examples, avg src len: %d, avg trg len: %d, max src len: %d, max trg len: %d",
                    len(examples), np.mean(avg_src_len), np.mean(avg_trg_len), max(avg_src_len), max(avg_trg_len))
        logger.info("[TOKENIZE] avg src len: %d, avg trg len: %d, max src len: %d, max trg len: %d",
                    np.mean(avg_src_len_tokenize), np.mean(
                        avg_trg_len_tokenize), max(avg_src_len_tokenize),
                    max(avg_trg_len_tokenize))
    else:
        logger.info("Read %d examples, avg src len: %d, avg trg len: %d, max src len: %d, max trg len: %d",
                    len(examples), np.mean(avg_src_len), np.mean(avg_trg_len), max(avg_src_len), max(avg_trg_len))


def get_elapse_time(t0):
    elapse_time = time.time() - t0
    if elapse_time > 3600:
        hour = int(elapse_time // 3600)
        minute = int((elapse_time % 3600) // 60)
        return "{}h{}m".format(hour, minute)
    else:
        minute = int((elapse_time % 3600) // 60)
        return "{}m".format(minute)


class ReviewFeatures(object):
    def __init__(self, example_id, source_ids, source_labels, target_ids, type):
        self.example_id = example_id
        self.source_ids = source_ids
        self.source_labels = source_labels
        self.target_ids = target_ids
        # assert type in ("label", "line", "genmsg", "daemsg")
        self.type = type

class ClsFeatures(object):
    def __init__(self, example_id, source_ids, y):
        self.example_id = example_id
        self.source_ids = source_ids
        self.y = y

class JITDPFeatures(object):
    def __init__(self, example_id, manual_feature, source_ids, y):
        self.example_id = example_id
        self.manual_feature = manual_feature
        self.source_ids = source_ids
        self.y = y  


class APCAFeatures(object):
    def __init__(self, example_id, source_ids, y, old_ids=None, new_ids=None):
        self.example_id = example_id
        self.source_ids = source_ids
        self.old_ids = old_ids
        self.new_ids = new_ids
        self.y = y 
        


class TextDataset(Dataset):

    def __init__(self, tokenizer, pool, args, file_path, samplenum=-1, random_sample_num=-1):
        self.cnt = 0
        self.tokenizer = tokenizer
        self.args = args
        if isinstance(tokenizer, T5Tokenizer):
            tokenizer_type = ""
        elif isinstance(tokenizer, RobertaTokenizer):
            tokenizer_type = "rb"
        else:
            tokenizer_type = "unk"

        savep = file_path.replace(".jsonl", tokenizer_type + ".exps")

        if os.path.exists(savep):
            logger.info("Loading examples from {}".format(savep))
            examples = torch.load(savep)
        else:
            logger.info("Reading examples from {}".format(file_path))
            start = time.time()
            # examples = read_review_examples(
            # args, file_path, samplenum, tokenizer=tokenizer)
            examples = read_CC_examples(
                args, file_path, samplenum, tokenizer=tokenizer)
            end = time.time()
            logger.info(f"Read examples time cost: {end-start}")
            logger.info(f"Tokenize examples: {file_path}")

            if args.debug:
                self.tokenize((examples[0], tokenizer, args))  # test

            examples = pool.map(self.tokenize,
                                [(example, tokenizer, args) for example in examples])
            torch.save(examples, savep)

        self.set_start_end_ids(examples)
        logger.info("Convert examples to features...")

        if random_sample_num != -1 and examples.__len__() > random_sample_num:
            examples = random.sample(examples, random_sample_num)
        else:
            examples = examples
        if args.debug:
            logger.info("Debug mode")
            logger.info(f"test random: {random.random()}")
            logger.info(f"Examples size: {examples.__len__()}")

        self.featss = pool.map(self.convert_examples_to_features,
                               [(example, tokenizer, args) for example in examples])
        logger.info(f"Examples converted")
        # expand the lists
        self.feats = [feat for feats in self.featss for feat in feats]

    def __len__(self):
        return len(self.feats)

    def __getitem__(self, i):
        return self.feats[i]

    def reset_len(self, data_len):
        assert len(self.feats) >= data_len
        self.feats = self.feats[:data_len]

    def set_start_end_ids(self, examples):
        for example in examples:
            labels = example.labels
            start_id = 0
            end_id = len(labels) - 1
            for i, label in enumerate(labels):
                if label != -100:               # find the first label
                    start_id = i
                    break
            for i in range(len(labels) - 1, -1, -1):
                label = labels[i]
                if label != -100:
                    end_id = i
                    break
            example.start_id = start_id
            example.end_id = end_id


    def tokenize(self, item):
        example, tokenizer, args = item
        # have disable the length limit or might cause mismatch between len(lables) and len(inputs)
        if example.tokenized is False:
            example.msg = self.encode_remove(tokenizer, example.msg, args)
            example.input = self.encode_remove(
                tokenizer, example.input, args, limit_length=False)
            e0id = tokenizer.special_dict["<e0>"]
            inputs = " ".join(str(id) for id in example.input)
            lines = inputs.split(" " + str(e0id) + " ")
            lines = [
                [int(v) for v in line.split(" ") if len(v) > 0] for line in lines
            ]  # just for integer the string
        else:
            lines = example.lines
        lens = [len(line) for line in lines]

        # assert [self.tokenizer.convert_tokens_to_ids(x) for x in example.encoded_lines] == lines # test
        lens = list(map(len, lines))
        curlen = len(lens) + sum(lens)  # \n + token ids
        left, right = 0, len(lines)
        # while curlen > args.max_source_length - 2:
        # compatibility for gen new code example. 22021027@Bo.
        while curlen > args.max_source_length - 2*len(lines) - example.msg.__len__() - 1:
            if left % 2 == 0:
                curlen -= 1 + len(lines[left])
                left += 1
            else:
                right -= 1
                curlen -= 1 + len(lines[right])
        lines = lines[left:right]
        labels = example.labels[left:right]
        assert len(lines) + sum(map(len, lines)) <= args.max_source_length - \
            2, "Too long inputs in TextDataset.tokenize."
        if len(lines) != len(labels):
            logger.info("Not equal length in TextDataset.tokenize.")
            lines = lines[:len(labels)]
            labels = labels[:len(lines)]
        example.lines = lines
        example.labels = labels

        return example

    def convert_examples_to_features(self, item):
        example, _, _ = item
        if len(example.msg) > 0:
            exs = []
            split_ratio = [20, 20, 20, 20, 20]
            for _ in range(4):  # up sampling
                if random.random() < (sum(split_ratio[:1])/sum(split_ratio)):
                    # MLM4CC
                    exs.append(self.gen_MLM4CC_example(item))

                elif random.random() < (sum(split_ratio[:2])/sum(split_ratio)):
                    # MLM4CM:
                    exs.append(self.gen_MLM4CM_example(item))

                elif random.random() < (sum(split_ratio[:3])/sum(split_ratio)):
                    # NL2PL
                    exs.append(self.gen_NL2PL_example(item))

                elif random.random() < (sum(split_ratio[:4])/sum(split_ratio)):
                    # PL2NL
                    exs.append(self.gen_PL2NL_example(item))
                else:
                    #CDG
                    tmp = self.gen_CDG_example(item)
                    if tmp is not None:
                        exs.append(tmp)
            return exs
    
        
    def get_DFG_parser(self, lang):
        tmp_parser = Parser()
        try:
            tmp_parser.set_language(Language(self.args.treesitter_path, lang))
        except Exception as e:
            print(e)
            return None
        return [tmp_parser, dfg_function[lang]]
                
            
        
    def gen_CDG_example(self, item):
        example, tokenizer, args = item
        lang = example.lang
        old_file = example.oldf
        ori_diff = example.diff
        
        cur_parser = self.get_DFG_parser(lang)
        new_file = apply_patch(old_file, ori_diff)
        try:
            old_file = remove_comments_and_docstrings(old_file, lang)
            new_file = remove_comments_and_docstrings(new_file, lang)
        except:
            return None
        diff = list(difflib.unified_diff(
            old_file.split('\n'), new_file.split('\n')))
        if diff.__len__() == 0:
            return None
        else:
            diff = diff[2:]
            diff[2] = diff[2].strip('\n')
        old_tokens, old_dfg, old_index_to_code = self.extract_dataflow(
        old_file, cur_parser, lang)  # index start from 0
        new_tokens, new_dfg, new_index_to_code = self.extract_dataflow(
            new_file, cur_parser, lang)
        if old_tokens.__len__() == 0:
            return None
        matchres = tag_matcher.match(diff[0])
        if matchres:
            source_start, source_length, target_start, target_length = matchres.groups()
            source_start, source_length, target_start, target_length = \
                int(source_start), int(source_length), int(
                    target_start), int(target_length)
        else:
            return None
        
        changed_old_dfg = self.filter_dfg(old_dfg, old_index_to_code, (
            source_start - 1, source_start + source_length))  # get the dfg within the line scope
        changed_new_dfg = self.filter_dfg(
            new_dfg, new_index_to_code, (target_start - 1, target_start + target_length))
        if self.is_equal_dfg(changed_old_dfg, changed_new_dfg):
            return None
        diff_str = ""
        sep = "<extra_id_0>"
        old_code_str = ""
        for line in diff[1:]:
            if line[0] == '+':
                diff_str += "<add>" + line[1:]
            elif line[0] == '-':
                diff_str += "<del>" + line[1:]
                old_code_str += "<del>" + line[1:]
            else:
                diff_str += "<keep>" + line[1:]
                
        tmp_dfg_str_list = []
        for edge in changed_old_dfg:
            for end_node in edge[3]:
                if edge[2] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[2] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
        old_dfg_str = sep.join(tmp_dfg_str_list)
        
        tmp_dfg_str_list = []
        for edge in changed_new_dfg:
            for end_node in edge[3]:
                if edge[2] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[2] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
        new_dfg_str = sep.join(tmp_dfg_str_list)
        
        # old data flow + new data flow + old code -> code diff
        input_str = old_dfg_str + sep + new_dfg_str + sep + old_code_str
        output_str = diff_str
        
        source_ids = self.encode_remove(tokenizer, input_str, args)
        target_ids = self.encode_remove(tokenizer, output_str, args)
        source_ids, target_ids = self.pad_assert(source_ids, target_ids, args, tokenizer)
        input_labels = [-100] * len(source_ids)
        
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="gendfg")
    
    def filter_dfg(self, dfg, index, scope):
        valid_dfg = []
        for edge in dfg:
            src_pos = index[edge[1]]
            if src_pos != -1:
                src_pos = src_pos[0][0]
            if scope[0] <= src_pos < scope[1]:
                valid_dfg.append(edge)
        return valid_dfg
    
    def extract_dataflow(self, code, parser, lang):
        """
        remove comments, tokenize code and extract dataflow
        Args:
            code (_type_): _description_
            parser (_type_): _description_
            lang (_type_): _description_

        Returns:
            _type_: dataflow of input code
        """
        # remove comments
        try:
            code = remove_comments_and_docstrings(code, lang)
        except:
            pass
        # obtain dataflow
        if lang == "php":
            code = "<?php"+code+"?>"
        try:
            code_tokens = []
            code_to_index = defaultdict(lambda: -1)
            tree = parser[0].parse(bytes(code, 'utf8'))
            root_node = tree.root_node
            tokens_index = tree_to_token_index(root_node)
            code = code.split('\n')
            code_tokens = [index_to_code_token(x, code) for x in tokens_index]
            index_to_code = {}
            
            for idx, (index, code) in enumerate(zip(tokens_index, code_tokens)):
                index_to_code[index] = (idx, code)
                code_to_index[idx] = index
            try:
                DFG, _ = parser[1](root_node, index_to_code, {})
            except:
                DFG = []
            DFG = sorted(DFG, key=lambda x: x[1])
            indexs = set()
            for d in DFG:
                if len(d[-1]) != 0:
                    indexs.add(d[1])
                for x in d[-1]:
                    indexs.add(x)
            new_DFG = []
            for d in DFG:
                if d[1] in indexs:
                    new_DFG.append(d)
            dfg = new_DFG
        except:
            dfg = []
        return code_tokens, dfg, code_to_index


    def is_equal_dfg(self, dfg_a, dfg_b):
        for edge_a, edge_b in zip(dfg_a, dfg_b):
            if edge_a[0] == edge_b[0] and edge_a[2] == edge_b[2] and edge_a[3] == edge_b[3]:
                continue
            else:
                return False
        return True
    
    def encoder_example(self, item):
        # Diff tag prediction
        # take added, keep, del line as label:
        example, tokenizer, args = item
        lines = example.lines
        labels = example.labels
        target_ids = [tokenizer.pad_id] * args.max_target_length
        source_ids, input_labels = [], []
        for i, (line, label) in enumerate(zip(lines, labels)):
            if i == example.start_id:
                source_ids.append(tokenizer.start_id)
                input_labels.append(-100)
            # only insert special tokens at diffs, not context (since it only for predict diff tag --Bo.)
            if label != -100:
                source_ids.append(tokenizer.mask_id)
                input_labels.append(label)
            source_ids.extend(line)
            input_labels.extend([-100] * len(line))
            if i == example.end_id:
                source_ids.append(tokenizer.end_id)
                input_labels.append(-100)
        assert len(input_labels) == len(source_ids), "Not equal length."
        assert len(
            input_labels) <= args.max_source_length, f"Too long inputs: {len(input_labels)}."
        source_ids = source_ids[:args.max_source_length - 2]
        input_labels = input_labels[:args.max_source_length - 2]
        source_ids = [tokenizer.bos_id] + source_ids + [tokenizer.eos_id]
        input_labels = [-100] + input_labels + [-100]
        pad_len = args.max_source_length - len(source_ids)
        source_ids += [tokenizer.pad_id] * pad_len
        input_labels += [-100] * pad_len

        new_input_labels = []
        map_dict = {0: tokenizer.del_id,
                    1: tokenizer.add_id, 2: tokenizer.keep_id}
        for label in input_labels:
            if label == -100:
                new_input_labels.append(-100)
            else:
                new_input_labels.append(map_dict[label])
        input_labels = new_input_labels
        assert len(source_ids) == args.max_source_length, "Not equal length."
        assert len(input_labels) == args.max_source_length, "Not equal length."
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="label")

    def gen_MLM4CC_example(self, item):
        example, tokenizer, args = item
        lines = example.lines
        labels = example.labels

        input_labels = [-100] * args.max_source_length
        source_ids, target_ids = [], []
        SPECIAL_ID = 0
        mask_idxs = random.choices(
            range(len(lines)), k=int(len(lines) * args.mask_rate))
        id_dict = {0: tokenizer.del_id,
                   1: tokenizer.add_id, 2: tokenizer.keep_id}
        for i, (line, label) in enumerate(zip(lines, labels)):
            if i == example.start_id:
                source_ids.append(tokenizer.start_id)
            if label in id_dict:
                source_ids.append(id_dict[label])
            if i in mask_idxs:
                source_ids.append(tokenizer.special_dict[f"<e{SPECIAL_ID}>"])
                target_ids.append(tokenizer.special_dict[f"<e{SPECIAL_ID}>"])
                target_ids.extend(line)
                if SPECIAL_ID < 99:     # only 0-99 ids in vocab
                    SPECIAL_ID += 1
            else:
                source_ids.extend(line)
            if i == example.end_id:
                source_ids.append(tokenizer.end_id)
        source_ids.append(tokenizer.msg_id)
        source_ids.extend(example.msg)
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="line")

    def decoder_example(self, item):
        example, tokenizer, args = item
        lines = example.lines
        labels = example.labels

        input_labels = [-100] * args.max_source_length
        source_ids, target_ids = [], []
        SPECIAL_ID = 0
        mask_idxs = random.choices(
            range(len(lines)), k=int(len(lines) * args.mask_rate))
        id_dict = {0: tokenizer.del_id,
                   1: tokenizer.add_id, 2: tokenizer.keep_id}
        for i, (line, label) in enumerate(zip(lines, labels)):
            if i == example.start_id:
                source_ids.append(tokenizer.start_id)
            if label in id_dict:
                source_ids.append(id_dict[label])
            if i in mask_idxs:
                source_ids.append(tokenizer.special_dict[f"<e{SPECIAL_ID}>"])
                target_ids.append(tokenizer.special_dict[f"<e{SPECIAL_ID}>"])
                target_ids.extend(line)
                if SPECIAL_ID < 99:     # only 0-99 ids in vocab
                    SPECIAL_ID += 1
            else:
                source_ids.extend(line)
            if i == example.end_id:
                source_ids.append(tokenizer.end_id)
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="line")

    def gen_NL2PL_example(self, item):
        example, tokenizer, args = item
        lines = example.lines
        labels = example.labels
        input_labels = [-100] * args.max_source_length
        source_ids, target_ids = [], []
        id_dict = {0: tokenizer.del_id,
                   1: tokenizer.add_id, 2: tokenizer.keep_id}

        for i, (line, label) in enumerate(zip(lines, labels)):
            if i == example.start_id:
                source_ids.append(tokenizer.start_id)
            if label == 0 or label == 2:
                source_ids.append(id_dict[label])
            elif label == 1:
                target_ids.append(tokenizer.add_id)
                target_ids.extend(line)
                continue
            source_ids.extend(line)
            if i == example.end_id:
                source_ids.append(tokenizer.end_id)
        source_ids.append(tokenizer.msg_id)
        source_ids.extend(example.msg)
        assert len(
            source_ids) <= args.max_source_length, f"Too long inputs: {len(source_ids)} in gen_NL2PL_example with example {example.idx}."
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="gen_new_code")

    def gen_PL2NL_example(self, item):
        """generate pretraining example for commit message generation tasks

        Args:
            item (_type_): _description_

        Returns:
            _type_: _description_
        """
        example, tokenizer, args = item
        lines = example.lines
        labels = example.labels
        input_labels = [-100] * args.max_source_length
        source_ids, target_ids = [], []
        id_dict = {0: tokenizer.del_id,
                   1: tokenizer.add_id, 2: tokenizer.keep_id}
        for i, (line, label) in enumerate(zip(lines, labels)):
            if i == example.start_id:
                source_ids.append(tokenizer.start_id)
            if label != -100:
                source_ids.append(id_dict[label])
            source_ids.extend(line)
            if i == example.end_id:
                source_ids.append(tokenizer.end_id)
        target_ids.append(tokenizer.msg_id)
        target_ids.extend(example.msg)
        assert len(
            source_ids) <= args.max_source_length, f"Too long inputs: {len(source_ids)}."
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="gen_msg")

    def gen_masked_ids(self, ids, mask_rate):

        source_ids, target_ids = [], []
        msg_ids = deepcopy(ids)
        masks = [random.random() < mask_rate for _ in range(len(msg_ids))]
        if sum(masks) == 0:
            idx = random.choice(range(len(msg_ids)))
            masks[idx] = True
        source_ids, target_ids = [], []
        i = 0
        SPECIAL_ID = 0
        while i < len(masks):
            j = i
            while j < len(masks) and not masks[j]:
                source_ids.append(msg_ids[j])
                j += 1
            if j == len(masks):
                break
            source_ids.append(self.tokenizer.special_dict[f"<e{SPECIAL_ID}>"])
            target_ids.append(self.tokenizer.special_dict[f"<e{SPECIAL_ID}>"])
            while j < len(masks) and masks[j]:
                target_ids.append(msg_ids[j])
                j += 1
            if SPECIAL_ID < 99:     # only 0-99 ids in vocab
                SPECIAL_ID += 1
            i = j

        return source_ids, target_ids

    def gen_MLM4CM_example(self, item):
        """
        Denoising Review Comment: masked message -> message, and 
        context + diff + context + masked message -> message

        Args:
            item (_type_): _description_

        Returns:
            _type_: _description_
        """
        example, tokenizer, args = item
        input_labels = [-100] * args.max_source_length
        if random.random() < 0.5:
            # update by 20221027@Bo.
            source_ids, target_ids = self.gen_masked_ids(example.msg, 0.2)
        else:
            source_ids, target_ids = [], []
            id_dict = {0: tokenizer.del_id,
                       1: tokenizer.add_id, 2: tokenizer.keep_id}
            for i, (line, label) in enumerate(zip(example.lines, example.labels)):
                if i == example.start_id:
                    source_ids.append(tokenizer.start_id)
                if label != -100:
                    # label 0 for <del>, 1 for <add>, 2 for context
                    source_ids.append(id_dict[label])
                source_ids.extend(line)
                if i == example.end_id:
                    # TODO: append end tag here or after the masked message ids
                    source_ids.append(tokenizer.end_id)

            masked_msg_ids, masked_msg_tgt_ids = self.gen_masked_ids(
                example.msg, 0.2)
            source_ids.extend(masked_msg_ids)
            target_ids.extend(masked_msg_tgt_ids)
            assert len(
                source_ids) <= args.max_source_length, f"Too long inputs: {len(source_ids)}."
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="daemsg")


    def daemsg_example_2(self, item):
        """_summary_
            context + diff + context + masked commit message -> commit message
        Args:
            item (_type_): _description_

        Returns:
            _type_: _description_
        """
        example, tokenizer, args = item
        lines = example.lines
        labels = example.labels
        input_labels = [-100] * args.max_source_length
        source_ids, target_ids = [], []
        id_dict = {0: tokenizer.del_id,
                   1: tokenizer.add_id, 2: tokenizer.keep_id}
        for i, (line, label) in enumerate(zip(lines, labels)):
            if i == example.start_id:
                source_ids.append(tokenizer.start_id)
            if label != -100:
                # label 0 for <del>, 1 for <add>, 2 for context
                source_ids.append(id_dict[label])
            source_ids.extend(line)
            if i == example.end_id:
                # TODO: end id in here or after the masked message ids
                source_ids.append(tokenizer.end_id)

        masked_msg_ids, masked_msg_tgt_ids = self.gen_masked_ids(
            example.msg, 0.2)
        source_ids.extend(masked_msg_ids)
        target_ids.extend(masked_msg_tgt_ids)
        assert len(
            source_ids) <= args.max_source_length, f"Too long inputs: {len(source_ids)}."
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        return ReviewFeatures(example.idx, source_ids, input_labels, target_ids, type="daemsg")

    def pad_assert(self, source_ids, target_ids, args, tokenizer):
        source_ids = source_ids[:args.max_source_length - 2]
        source_ids = [tokenizer.bos_id] + source_ids + [tokenizer.eos_id]
        pad_len = args.max_source_length - len(source_ids)
        source_ids += [tokenizer.pad_id] * pad_len
        target_ids = target_ids[:args.max_target_length - 1]
        target_ids = target_ids + [tokenizer.eos_id]
        pad_len = args.max_target_length - len(target_ids)
        target_ids += [tokenizer.pad_id] * pad_len
        assert len(source_ids) == args.max_source_length, "Not equal length."
        assert len(target_ids) == args.max_target_length, "Not equal length."
        return source_ids, target_ids

    def encode_remove(self, tokenizer, text, args, limit_length=True):
        if limit_length is True:
            text = tokenizer.encode(
                text, max_length=args.max_source_length - 2, truncation=True)
        else:
            text = tokenizer.encode(
                text)
        if type(tokenizer) == T5Tokenizer:
            return text[:-1]
        elif type(tokenizer) == RobertaTokenizer:
            return text[1:-1]
        else:
            raise NotImplementedError


class DFGGenDataset(TextDataset):

    def __init__(self, tokenizer, pool, args, file_path, samplenum=-1, random_sample_num=-1):
        self.tokenizer = tokenizer
        self.args = args
        self.language_parsers = self.construct_parsers(
            ['java', 'python', 'go', 'php', 'ruby', 'javascript','c_sharp'])
        if isinstance(tokenizer, T5Tokenizer):
            tokenizer_type = ""
        elif isinstance(tokenizer, RobertaTokenizer):
            tokenizer_type = "rb"
        else:
            tokenizer_type = "unk"
        savep = file_path.replace(".jsonl", tokenizer_type + ".dfggenexps")
        if os.path.exists(savep):
            logger.info("Loading examples from {}".format(savep))
            self.feats = torch.load(savep)
        else:
            data = read_jsonl(file_path)
            for i in range(len(data)):
                data[i]["idx"] = i
            logger.info(f"Tokenize examples: {file_path}")
            self.feats = [self.convert_examples_to_features_to_diff(
                (dic, tokenizer, args)) for dic in tqdm(data)]
            # self.feats = pool.map(self.convert_examples_to_features,
            #                     [(dic, tokenizer, args) for dic in data])
            self.feats = [x for x in self.feats if x]
            torch.save(self.feats, savep)
            
        if random_sample_num != -1 and self.feats.__len__() > random_sample_num:
            self.feats = random.sample(self.feats, random_sample_num)
            
            
    def construct_parsers(self, langs=['python']):
        local_parsers = {}
        for lang in langs:
            tmp_parser = Parser()
            try:
                tmp_parser.set_language(
                    Language(self.args.treesitter_path, lang))
                local_parsers[lang] = [tmp_parser, dfg_function[lang]]
            except Exception as e:
                print(e)
                continue
        return local_parsers


    def convert_examples_to_features_to_dfg(self, item):
        js, tokenizer, args = item
        # debug
        # if js["idx"] != 777:
        #     return None
        # print(js["idx"])
        
        if "lang" not in js:
            js["lang"] = ""
        if "old_file" in js:
            old_file = js["old_file"]
            ori_diff = js["diff"]
            msg = js["nl"] if "nl" in js else "",
            lang = js["lang"]
        elif "oldf" in js:
            old_file = js["oldf"]
            ori_diff = js["patch"]
            msg = js["msg"] if "msg" in js else "",
            lang = js["lang"]
        else:
            return
        cur_parser = self.language_parsers[lang]
        new_file = apply_patch(old_file, ori_diff)
        old_file = remove_comments_and_docstrings(old_file, lang)
        new_file = remove_comments_and_docstrings(new_file, lang)
        diff = list(difflib.unified_diff(
            old_file.split('\n'), new_file.split('\n')))
        if diff.__len__() == 0:
            return None
        else:
            diff = diff[2:]
            diff[2] = diff[2].strip('\n')
        old_tokens, old_dfg, old_index_to_code = self.extract_dataflow(
        old_file, cur_parser, lang)  # index start from 0
        new_tokens, new_dfg, new_index_to_code = self.extract_dataflow(
            new_file, cur_parser, lang)
        if old_tokens.__len__() == 0:
            return None

        matchres = tag_matcher.match(diff[0])
        if matchres:
            source_start, source_length, target_start, target_length = matchres.groups()
            source_start, source_length, target_start, target_length = \
                int(source_start), int(source_length), int(
                    target_start), int(target_length)
        else:
            return None

        changed_old_dfg = self.filter_dfg(old_dfg, old_index_to_code, (
            source_start - 1, source_start + source_length))  # get the dfg within the line scope
        changed_new_dfg = self.filter_dfg(
            new_dfg, new_index_to_code, (target_start - 1, target_start + target_length))
        if self.is_equal_dfg(changed_old_dfg, changed_new_dfg):
            return None
        old_dfg_normalized, old_var_mapping_anon, old_var_mapping = self.normalize_dataflow(
            changed_old_dfg)
        new_dfg_normalized, new_var_mapping_anon, new_var_mapping = self.normalize_dataflow(
            changed_new_dfg, old_var_mapping)
        old_updated_code = self.update_code(
            old_file, old_var_mapping_anon, old_index_to_code, (source_start - 1, source_start + source_length))
        new_updated_code = self.update_code(
            new_file, new_var_mapping_anon, new_index_to_code, (target_start - 1, target_start + target_length))
        normalized_diff = list(difflib.unified_diff(
            old_updated_code.split('\n'), new_updated_code.split('\n')))[2:]
        normalized_diff[2] = normalized_diff[2].strip('\n')
        
        input_str = ""
        sep = "<extra_id_0>"
        # sep = " "
        # diff 
        for line in normalized_diff[1:]:
            if line[0] == '+':
                input_str += "<add>" + line[1:]
            elif line[0] == '-':
                input_str += "<del>" + line[1:]
            else:
                input_str += "<keep>" + line[1:]
        
        tmp_dfg_str_list = []
        input_str += sep
        for edge in old_dfg_normalized:
            for end_node in edge[2]:
                if edge[1] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[1] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
    
        dfg_str = sep.join(tmp_dfg_str_list)
        input_str += dfg_str
        source_ids = self.encode_remove(tokenizer, input_str, args)
        
        output_str = sep
        tmp_dfg_str_list = []
        for edge in new_dfg_normalized:
            for end_node in edge[2]:
                if edge[1] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[1] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
        dfg_str = sep.join(tmp_dfg_str_list)
        output_str += dfg_str
        target_ids = self.encode_remove(tokenizer, output_str, args)
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        input_labels = [-100] * len(source_ids)
        return ReviewFeatures(js["idx"], source_ids, input_labels, target_ids, type="gendfg")
    
    def convert_examples_to_features_to_diff_normalized(self, item):
        js, tokenizer, args = item
        # debug
        # if js["idx"] != 777:
        #     return None
        # print(js["idx"])
        
        if "lang" not in js:
            js["lang"] = ""
        if "old_file" in js:
            old_file = js["old_file"]
            ori_diff = js["diff"]
            msg = js["nl"] if "nl" in js else "",
            lang = js["lang"]
        elif "oldf" in js:
            old_file = js["oldf"]
            ori_diff = js["patch"]
            msg = js["msg"] if "msg" in js else "",
            lang = js["lang"]
        else:
            return
        cur_parser = self.language_parsers[lang]
        new_file = apply_patch(old_file, ori_diff)
        old_file = remove_comments_and_docstrings(old_file, lang)
        new_file = remove_comments_and_docstrings(new_file, lang)
        diff = list(difflib.unified_diff(
            old_file.split('\n'), new_file.split('\n')))
        if diff.__len__() == 0:
            return None
        else:
            diff = diff[2:]
            diff[2] = diff[2].strip('\n')
        old_tokens, old_dfg, old_index_to_code = self.extract_dataflow(
        old_file, cur_parser, lang)  # index start from 0
        new_tokens, new_dfg, new_index_to_code = self.extract_dataflow(
            new_file, cur_parser, lang)
        if old_tokens.__len__() == 0:
            return None

        matchres = tag_matcher.match(diff[0])
        if matchres:
            source_start, source_length, target_start, target_length = matchres.groups()
            source_start, source_length, target_start, target_length = \
                int(source_start), int(source_length), int(
                    target_start), int(target_length)
        else:
            return None

        changed_old_dfg = self.filter_dfg(old_dfg, old_index_to_code, (
            source_start - 1, source_start + source_length))  # get the dfg within the line scope
        changed_new_dfg = self.filter_dfg(
            new_dfg, new_index_to_code, (target_start - 1, target_start + target_length))
        if self.is_equal_dfg(changed_old_dfg, changed_new_dfg):
            return None
        old_dfg_normalized, old_var_mapping_anon, old_var_mapping = self.normalize_dataflow(
            changed_old_dfg)
        new_dfg_normalized, new_var_mapping_anon, new_var_mapping = self.normalize_dataflow(
            changed_new_dfg, old_var_mapping)
        old_updated_code = self.update_code(
            old_file, old_var_mapping_anon, old_index_to_code, (source_start - 1, source_start + source_length))
        new_updated_code = self.update_code(
            new_file, new_var_mapping_anon, new_index_to_code, (target_start - 1, target_start + target_length))
        normalized_diff = list(difflib.unified_diff(
            old_updated_code.split('\n'), new_updated_code.split('\n')))[2:]
        normalized_diff[2] = normalized_diff[2].strip('\n')
        
        diff_str = ""
        sep = "<extra_id_0>"
        # sep = " "
        # diff 
        for line in normalized_diff[1:]:
            if line[0] == '+':
                diff_str += "<add>" + line[1:]
            elif line[0] == '-':
                diff_str += "<del>" + line[1:]
            else:
                diff_str += "<keep>" + line[1:]
        
        tmp_dfg_str_list = []
        for edge in old_dfg_normalized:
            for end_node in edge[2]:
                if edge[1] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[1] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
    
        old_dfg_str = sep.join(tmp_dfg_str_list)
        
        tmp_dfg_str_list = []
        for edge in new_dfg_normalized:
            for end_node in edge[2]:
                if edge[1] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[1] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
        new_dfg_str = sep.join(tmp_dfg_str_list)
        
        # old data flow + new data flow -> code diff
        input_str = old_dfg_str + sep + new_dfg_str
        output_str = diff_str
        
        source_ids = self.encode_remove(tokenizer, input_str, args)
        target_ids = self.encode_remove(tokenizer, output_str, args)
        source_ids, target_ids = self.pad_assert(
        source_ids, target_ids, args, tokenizer)
        input_labels = [-100] * len(source_ids)
        
        return ReviewFeatures(js["idx"], source_ids, input_labels, target_ids, type="gendfg")
    

    def convert_examples_to_features_to_diff(self, item):
        js, tokenizer, args = item
        # debug
        # if js["idx"] != 777:
        #     return None
        # print(js["idx"])
        
        if "lang" not in js:
            js["lang"] = ""
        if "old_file" in js:
            old_file = js["old_file"]
            ori_diff = js["diff"]
            msg = js["nl"] if "nl" in js else "",
            lang = js["lang"]
        elif "oldf" in js:
            old_file = js["oldf"]
            ori_diff = js["patch"]
            msg = js["msg"] if "msg" in js else "",
            lang = js["lang"]
        else:
            return
        cur_parser = self.language_parsers[lang]
        new_file = apply_patch(old_file, ori_diff)
        old_file = remove_comments_and_docstrings(old_file, lang)
        new_file = remove_comments_and_docstrings(new_file, lang)
        diff = list(difflib.unified_diff(
            old_file.split('\n'), new_file.split('\n')))
        if diff.__len__() == 0:
            return None
        else:
            diff = diff[2:]
            diff[2] = diff[2].strip('\n')
        old_tokens, old_dfg, old_index_to_code = self.extract_dataflow(
        old_file, cur_parser, lang)  # index start from 0
        new_tokens, new_dfg, new_index_to_code = self.extract_dataflow(
            new_file, cur_parser, lang)
        if old_tokens.__len__() == 0:
            return None

        matchres = tag_matcher.match(diff[0])
        if matchres:
            source_start, source_length, target_start, target_length = matchres.groups()
            source_start, source_length, target_start, target_length = \
                int(source_start), int(source_length), int(
                    target_start), int(target_length)
        else:
            return None

        changed_old_dfg = self.filter_dfg(old_dfg, old_index_to_code, (
            source_start - 1, source_start + source_length))  # get the dfg within the line scope
        changed_new_dfg = self.filter_dfg(
            new_dfg, new_index_to_code, (target_start - 1, target_start + target_length))
        if self.is_equal_dfg(changed_old_dfg, changed_new_dfg):
            return None
        old_dfg_normalized, old_var_mapping_anon, old_var_mapping = self.normalize_dataflow(
            changed_old_dfg)
        new_dfg_normalized, new_var_mapping_anon, new_var_mapping = self.normalize_dataflow(
            changed_new_dfg, old_var_mapping)

        diff_str = ""
        sep = "<extra_id_0>"

        for line in diff[1:]:
            if line[0] == '+':
                diff_str += "<add>" + line[1:]
            elif line[0] == '-':
                diff_str += "<del>" + line[1:]
            else:
                diff_str += "<keep>" + line[1:]
        
        tmp_dfg_str_list = []
        for edge in changed_old_dfg:
            for end_node in edge[3]:
                if edge[2] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[2] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
    
        old_dfg_str = sep.join(tmp_dfg_str_list)
        
        tmp_dfg_str_list = []
        for edge in changed_new_dfg:
            for end_node in edge[3]:
                if edge[2] == 'comesFrom':
                    tmp_dfg_str_list.append(edge[0] + " " + end_node)
                elif edge[2] == 'computedFrom':
                    tmp_dfg_str_list.append(end_node + " " + edge[0])
                else:
                    raise("Node relationship wrong")
        new_dfg_str = sep.join(tmp_dfg_str_list)
        
        # old data flow + new data flow -> code diff
        input_str = old_dfg_str + sep + new_dfg_str
        output_str = diff_str
        
        source_ids = self.encode_remove(tokenizer, input_str, args)
        target_ids = self.encode_remove(tokenizer, output_str, args)
        source_ids, target_ids = self.pad_assert(source_ids, target_ids, args, tokenizer)
        input_labels = [-100] * len(source_ids)
        return ReviewFeatures(js["idx"], source_ids, input_labels, target_ids, type="gendfg")
    
    def filter_dfg(self, dfg, index, scope):
        valid_dfg = []
        for edge in dfg:
            src_pos = index[edge[1]]
            if src_pos != -1:
                src_pos = src_pos[0][0]
            if scope[0] <= src_pos < scope[1]:
                valid_dfg.append(edge)
        return valid_dfg

    def is_equal_dfg(self, dfg_a, dfg_b):
        for edge_a, edge_b in zip(dfg_a, dfg_b):
            if edge_a[0] == edge_b[0] and edge_a[2] == edge_b[2] and edge_a[3] == edge_b[3]:
                continue
            else:
                return False
        return True

    def extract_dataflow(self, code, parser, lang):
        """
        remove comments, tokenize code and extract dataflow
        Args:
            code (_type_): _description_
            parser (_type_): _description_
            lang (_type_): _description_

        Returns:
            _type_: dataflow of input code
        """
        # remove comments
        try:
            code = remove_comments_and_docstrings(code, lang)
        except:
            pass
        # obtain dataflow
        if lang == "php":
            code = "<?php"+code+"?>"
        try:
            code_tokens = []
            code_to_index = defaultdict(lambda: -1)
            tree = parser[0].parse(bytes(code, 'utf8'))
            root_node = tree.root_node
            tokens_index = tree_to_token_index(root_node)
            code = code.split('\n')
            code_tokens = [index_to_code_token(x, code) for x in tokens_index]
            index_to_code = {}
            
            for idx, (index, code) in enumerate(zip(tokens_index, code_tokens)):
                index_to_code[index] = (idx, code)
                code_to_index[idx] = index
            try:
                DFG, _ = parser[1](root_node, index_to_code, {})
            except:
                DFG = []
            DFG = sorted(DFG, key=lambda x: x[1])
            indexs = set()
            for d in DFG:
                if len(d[-1]) != 0:
                    indexs.add(d[1])
                for x in d[-1]:
                    indexs.add(x)
            new_DFG = []
            for d in DFG:
                if d[1] in indexs:
                    new_DFG.append(d)
            dfg = new_DFG
        except:
            dfg = []
        return code_tokens, dfg, code_to_index

    def normalize_dataflow(self, dataflow, var_dict=None):

        if var_dict is None:
            var_dict = {}
            i = 1
        else:
            anon_var_list = [var_dict[x] for x in var_dict]
            var_ids = [int(re.findall('\d+', x)[0]) for x in anon_var_list]
            i = max(var_ids) + 1

        normalized_dataflow = []
        var_mapping = {}

        for item in dataflow:
            if i > 99:
                break
            var_name = item[0]
            relationship = item[2]
            par_vars_name_list = item[3]
            par_vars_idx_list = item[4]
            if var_name not in var_dict:
                var_dict[var_name] = f"<e{i}>"
                var_mapping[f"<e{i}>"] = item[1]
                i += 1
            elif var_name in var_dict and var_dict[var_name] not in var_mapping:
                var_mapping[var_dict[var_name]] = item[1]

        for item in dataflow:
            var_name = item[0]
            relationship = item[2]
            par_vars_name_list = item[3]
            par_vars_idx_list = item[4]
            for para_name, var_idx in zip(par_vars_name_list, par_vars_idx_list):
                if para_name not in var_dict:
                    var_dict[para_name] = f"<e{i}>"
                    var_mapping[f"<e{i}>"] = var_idx
                    i += 1
                elif para_name in var_dict and var_dict[para_name] not in var_mapping:
                    var_mapping[var_dict[para_name]] = var_idx
            if par_vars_name_list:
                normalized_dataflow.append((var_dict[var_name], relationship, tuple(
                    var_dict[x] for x in par_vars_name_list), item[1]))
            else:
                normalized_dataflow.append(
                    (var_dict[var_name], relationship, tuple(("<e0>", )), item[1]))

        return normalized_dataflow, var_mapping, var_dict


    def update_code(self, code, var_to_idx, idx_to_loc, scope):
        var_to_loc = {x: idx_to_loc[var_to_idx[x]] for x in var_to_idx}
        code = code.split('\n')
        updated_code = deepcopy(code)
        for var in var_to_loc:
            loc = var_to_loc[var]
            if not (scope[0] <= loc[0][0] < scope[1]) or not (scope[0] <= loc[1][0] < scope[1]):
                continue
            if loc[0][0] != loc[1][0]:
                continue
            true_var = code[loc[0][0]][loc[0][1]:loc[1][1]]

            tmp_rec = updated_code[scope[0]:scope[1]]
            updated_code[scope[0]:scope[1]] = [re.sub(
                '\\b' + re.escape(true_var) + '\\b', var, line) for line in updated_code[scope[0]:scope[1]]]
            if updated_code[scope[0]:scope[1]] == tmp_rec:
                updated_code[scope[0]:scope[1]] = [re.sub(
                    re.escape(true_var), var, line) for line in updated_code[scope[0]:scope[1]]]
        return "\n".join(updated_code)




    
class SimpleClsDataset(TextDataset):
    def __init__(self, tokenizer, pool, args, file_path, samplenum=-1):
        self.tokenizer = tokenizer
        if isinstance(tokenizer, T5Tokenizer):
            tokenizer_type = ""
        elif isinstance(tokenizer, RobertaTokenizer):
            tokenizer_type = "rb"
        else:
            tokenizer_type = "unk"
        savep = file_path.replace(".jsonl", tokenizer_type + ".simpexps")
        if os.path.exists(savep):
            logger.info("Loading examples from {}".format(savep))
            self.feats = torch.load(savep)
        else:
            logger.info("Reading examples from {}".format(file_path))
            examples = read_CC_examples(args, file_path, samplenum, tokenizer)
            logger.info(f"Tokenize examples: {file_path}")
            self.set_start_end_ids(examples)
            self.convert_examples_to_features((examples[7], tokenizer, args))
            self.feats = pool.map(self.convert_examples_to_features, \
                [(example, tokenizer, args) for example in examples])
            torch.save(self.feats, savep)

    def convert_examples_to_features(self, item):
        example, tokenizer, args = item
        # example.input_lines = example.input.split("<e0>")
        # labels_l = len(example.labels)
        # example.input_lines = example.input_lines[:labels_l]
        # for i in range(len(example.lines)):
        #     if example.labels[i] == 1:
        #         example.input_lines[i] = "<add>" + example.input_lines[i]
        #     elif example.labels[i] == 0:
        #         example.input_lines[i] = "<del>" + example.input_lines[i]
        # example.input = " ".join(example.input_lines)
        # input_ids = self.encode_remove(tokenizer, example.input, args)
        lines = example.lines
        labels = example.labels
        source_ids = []
        id_dict = {0: tokenizer.del_id,
                   1: tokenizer.add_id, 2: tokenizer.keep_id}
        for i, (line, label) in enumerate(zip(lines, labels)):
            if i == example.start_id:
                source_ids.append(tokenizer.start_id)
            if label == 0 or label == 1:
                source_ids.append(id_dict[label])
                source_ids.extend(line)
            if i == example.end_id:
                source_ids.append(tokenizer.end_id)
        
        exceed_l = len(source_ids) - args.max_source_length + 2
        if exceed_l > 0:
            halfexl = (exceed_l + 1) // 2
            source_ids = source_ids[halfexl:-halfexl]
        source_ids = source_ids[:args.max_source_length - 2]
        source_ids = [tokenizer.bos_id] + source_ids + [tokenizer.eos_id]
        pad_len = args.max_source_length - len(source_ids)
        source_ids += [tokenizer.pad_id] * pad_len
        example_id = example.idx
        y = example.y
        return ClsFeatures(example_id, source_ids, y)

    
class DQEClsDataset(TextDataset):
    def __init__(self, tokenizer, pool, args, file_path, samplenum=-1):
        self.tokenizer = tokenizer
        if isinstance(tokenizer, T5Tokenizer):
            tokenizer_type = ""
        elif isinstance(tokenizer, RobertaTokenizer):
            tokenizer_type = "rb"
        else:
            tokenizer_type = "unk"
        savep = file_path.replace(".jsonl", 'dqe_' + tokenizer_type + ".exps")
        if os.path.exists(savep):
            logger.info("Loading examples from {}".format(savep))
            examples = torch.load(savep)
        else:
            logger.info("Reading examples from {}".format(file_path))
            examples = read_review_examples(args, file_path, samplenum, tokenizer)
            logger.info(f"Tokenize examples: {file_path}")
            examples = pool.map(self.tokenize, \
                [(example, tokenizer, args) for example in examples])
            torch.save(examples, savep)
        logger.info("Convert examples to features...")
        self.set_start_end_ids(examples)
        self.feats = pool.map(self.convert_examples_to_features, \
            [(example, tokenizer, args) for example in examples])

    def convert_examples_to_features(self, item):
        example, tokenizer, args = item
        tmpfeature = self.gen_PL2NL_example(item)
        return ClsFeatures(tmpfeature.example_id, tmpfeature.source_ids, example.y)
    
    
class SimpleGenDataset(TextDataset):
    def __init__(self, tokenizer, pool, args, file_path, samplenum=-1):
        self.tokenizer = tokenizer
        if isinstance(tokenizer, T5Tokenizer):
            tokenizer_type = ""
        elif isinstance(tokenizer, RobertaTokenizer):
            tokenizer_type = "rb"
        else:
            tokenizer_type = "unk"
        savep = file_path.replace(".jsonl", tokenizer_type + ".simpgenexps")
        if os.path.exists(savep):
            logger.info("Loading examples from {}".format(savep))
            self.feats = torch.load(savep)
        else:
            logger.info("Reading examples from {}".format(file_path))
            data = read_jsonl(file_path)
            for i in range(len(data)):
                data[i]["idx"] = i
            logger.info(f"Tokenize examples: {file_path}")
            self.feats = pool.map(self.convert_examples_to_features, \
                [(dic, tokenizer, args) for dic in data])
            torch.save(self.feats, savep)


    def convert_examples_to_features(self, item):
        dic, tokenizer, args = item
        if "patch" in dic:
            diff= dic["patch"]
        elif "diff" in dic:
            diff = dic["diff"]
            
        if "msg" in dic:
            msg = dic["msg"]
        elif "nl" in dic:
            msg = dic["nl"]
        else:
            msg = ""

        regex = r"@@ -(\d+),(\d+) \+(\d+),(\d+) @@"

        difflines = diff.split("\n")
        matchres = re.match(regex, difflines[0])
        if matchres:
            difflines = difflines[1:]  # remove start @@

        difflines = [line for line in difflines if len(line.strip()) > 0]
        map_dic = {"-": 0, "+": 1, " ": 2}

        def f(s):
            if s in map_dic:
                return map_dic[s]
            else:
                return 2

        labels = [f(line[0]) for line in difflines]
        difflines = [line[1:].strip() for line in difflines]
        inputstr = ""
        for label, line in zip(labels, difflines):
            if label == 1:
                inputstr += "<add>" + line
            elif label == 0:
                inputstr += "<del>" + line
            else:
                inputstr += "<keep>" + line
        source_ids = self.encode_remove(tokenizer, inputstr, args)
        target_ids = []
        target_ids.append(tokenizer.msg_id)
        msg = self.encode_remove(tokenizer, msg, args)
        target_ids.extend(msg)
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        input_labels = [-100] * len(source_ids)
        return ReviewFeatures(dic["idx"], source_ids, input_labels, target_ids, type="genmsg")

class SimpleCUPDataset(TextDataset):
    def __init__(self, tokenizer, pool, args, file_path, samplenum=-1):
        self.tokenizer = tokenizer
        if isinstance(tokenizer, T5Tokenizer):
            tokenizer_type = ""
        elif isinstance(tokenizer, RobertaTokenizer):
            tokenizer_type = "rb"
        else:
            tokenizer_type = "unk"
        savep = file_path.replace(".jsonl", tokenizer_type + ".simpcupexps")
        if os.path.exists(savep):
            logger.info("Loading examples from {}".format(savep))
            self.feats = torch.load(savep)
        else:
            logger.info("Reading examples from {}".format(file_path))
            data = read_jsonl(file_path)
            # data = [dic for dic in data if len(dic["patch"].split("\n")) <= 20]
            for i in range(len(data)):
                data[i]["idx"] = i
            logger.info(f"Tokenize examples: {file_path}")
            self.feats = pool.map(self.convert_examples_to_features, \
                [(dic, tokenizer, args) for dic in data])
            # self.feats = [self.convert_examples_to_features(
            #     (dic, tokenizer, args)) for dic in data]
            torch.save(self.feats, savep)


    def convert_examples_to_features(self, item):
        dic, tokenizer, args = item
        if "patch" in dic:
            diff= dic["patch"]
        elif "diff" in dic:
            diff = dic["diff"]
            
        if "msg" in dic:
            msg = dic["msg"]
        elif "nl" in dic:
            msg = dic["nl"]
        else:
            msg = ""
        old_msg = dic["old_nl"]
        
        regex = r"@@ -(\d+),(\d+) \+(\d+),(\d+) @@"

        difflines = diff.split("\n")
        matchres = re.match(regex, difflines[0])
        if matchres:
            difflines = difflines[1:]  # remove start @@

        difflines = [line for line in difflines if len(line.strip()) > 0]
        map_dic = {"-": 0, "+": 1, " ": 2}

        def f(s):
            if s in map_dic:
                return map_dic[s]
            else:
                return 2

        labels = [f(line[0]) for line in difflines]
        difflines = [line[1:].strip() for line in difflines]
        inputstr = ""
        inputstr += "<msg> " + old_msg + " "+ tokenizer.sep_token
        for label, line in zip(labels, difflines):
            if label == 1:
                inputstr += "<add> " + line
            elif label == 0:
                inputstr += "<del> " + line
                
        source_ids = self.encode_remove(tokenizer, inputstr, args)
        target_ids = []
        target_ids.append(tokenizer.msg_id)
        msg = self.encode_remove(tokenizer, msg, args)
        target_ids.extend(msg)
        source_ids, target_ids = self.pad_assert(
            source_ids, target_ids, args, tokenizer)
        input_labels = [-100] * len(source_ids)
        return ReviewFeatures(dic["idx"], source_ids, input_labels, target_ids, type="genmsg")


class SimpleJITDPDataset(TextDataset):
    def __init__(self, tokenizer, pool, args, file_path, samplenum=-1, oversample=False):
        self.tokenizer = tokenizer
        if isinstance(tokenizer, T5Tokenizer):
            tokenizer_type = ""
        elif isinstance(tokenizer, RobertaTokenizer):
            tokenizer_type = "rb"
        else:
            tokenizer_type = "unk"
        savep = file_path.replace(".jsonl", tokenizer_type + ".simpjitexps")
        if os.path.exists(savep):
            logger.info("Loading examples from {}".format(savep))
            self.feats = torch.load(savep)
            # print("")
        else:
            logger.info("Reading examples from {}".format(file_path))
            examples = read_jsonl(file_path)
            for i in range(examples.__len__()):
                examples[i]["idx"] = i 
                
            # features data
            features_filename = file_path.replace('changes', 'features')
            features_filename = features_filename.replace('.jsonl', '.pkl')
            features_data = pickle.load(open(features_filename, 'rb'))
            features_data = convert_dtype_dataframe(features_data, manual_features_columns)
            features_data = features_data[['commit_hash'] + manual_features_columns]
            manual_features = preprocessing.scale(features_data[manual_features_columns].to_numpy())
            assert len(manual_features) == len(examples), "The lengths of manual feautres and examples do not match"
            for i in range(examples.__len__()):
                examples[i]["MF"] = manual_features[i].tolist()
            
            logger.info(f"Tokenize examples: {file_path}")
            if args.debug:
                self.feats = [self.convert_examples_to_features((example, tokenizer, args)) \
                    for example in examples]
            else:
                self.feats = pool.map(self.convert_examples_to_features, \
                [(example, tokenizer, args) for example in examples])
            torch.save(self.feats, savep)
            

    def convert_examples_to_features(self, item):
        js, tokenizer, args = item
        msg_tokens = tokenizer.tokenize(js["msg"])
        msg_tokens = msg_tokens[:min(64, len(msg_tokens))]
        added_codes = [' '.join(line.split()) for line in js['added_code'].split('\n')]
        removed_codes = [' '.join(line.split()) for line in js['removed_code'].split('\n')]
        added_tokens, removed_tokens = [], []
        codes = '<add>'.join([line for line in added_codes if len(line)])
        added_tokens.extend(tokenizer.tokenize(codes))
        codes = '<del>'.join([line for line in removed_codes if len(line)])
        removed_tokens.extend(tokenizer.tokenize(codes))
        input_tokens = msg_tokens + ['<add>'] + added_tokens + ['<del>'] + removed_tokens
        input_tokens = input_tokens[:512 - 2]
        input_tokens = [tokenizer.cls_token] + input_tokens + [tokenizer.sep_token]
        source_ids = tokenizer.convert_tokens_to_ids(input_tokens)
        pad_len = args.max_source_length - len(source_ids)
        source_ids = source_ids + [tokenizer.pad_id] * pad_len
        example_id = js["idx"]
        manual_feature = js["MF"]
        y = int(js["y"])
        
        return JITDPFeatures(example_id, manual_feature, source_ids, y)


manual_features_columns = ['la', 'ld', 'nf', 'ns', 'nd', 'entropy', 'ndev',
                           'lt', 'nuc', 'age', 'exp', 'rexp', 'sexp', 'fix']


def convert_dtype_dataframe(df, feature_name):
    df['fix'] = df['fix'].apply(lambda x: float(bool(x)))
    df = df.astype({i: 'float32' for i in feature_name})
    return df


def read_jsonl(path):
    data = []
    with open(path) as f:
        for line in f:
            try:
                js = json.loads(line.strip())
            except:
                print("Error during reading json data.")
                continue
            data.append(js)
    return data


class ReviewExample(object):
    """A single training/test example."""

    def __init__(
            self, idx, oldf, diff, msg, cmtid, max_len, y, max_tgt_len, lang, tokenizer, skip_unavail=True):
        self.idx = idx      # idx is useless yet
        self.oldf = oldf
        self.diff = diff
        self.msg = msg
        self.cmtid = cmtid
        self.max_len = max_len
        self.y = y
        self.prevlines = []
        self.afterlines = []
        self.lines = []
        self.labels = []
        self.tokenized = False
        self.avail = False
        self.input = ""
        self.lang = lang
        self.max_tgt_len = max_tgt_len
        self.tokenizer = tokenizer
        self.align_and_clean(skip_unavail=True)
        self.postprocess()

    def tokenizer_encode(self, text, max_length=-1):
        if max_length == -1:
            text = self.tokenizer.encode(text)
        else:
            text = self.tokenizer.encode(
                text, max_length=max_length, truncation=True)

        if type(self.tokenizer) == T5Tokenizer:
            return text[:-1]
        elif type(self.tokenizer) == RobertaTokenizer:
            return text[1:-1]

        return None

    def postprocess(self):
        if not self.avail:
            return
        # Warning: lines is not self.lines
        # lines for rough length estimation (deprecated)
        # Since the tokenizer in encode_remove will limit the maximum length of the input, we deploy a more precise length calculation here
        lines = [self.tokenizer_encode(source_str, max_length=self.max_len - 2)
                 for source_str in self.lines]
        msg = self.tokenizer_encode(
            self.msg, max_length=self.max_tgt_len - 2)
        self.tokenized = True
        inputl = len(lines)  # line tag
        inputl += sum(map(len, lines))
        left, right = 0, len(lines)
        # compatibility for gen new code example.
        local_max_len = self.max_len - msg.__len__()
        while inputl > local_max_len:
            if left % 2 == 0:
                inputl -= len(lines[left]) + 1
                left += 1
            else:
                right -= 1
                inputl -= len(lines[right]) + 1
        lines = lines[left:right]
        self.lines = self.lines[left:right]
        self.labels = self.labels[left:right]
        prevlines = self.prevlines
        afterlines = self.afterlines
        prev_after_len = max(len(prevlines), len(afterlines))
        i = 0
        while inputl < local_max_len and i < prev_after_len:
            if i < len(prevlines):
                tokenized_prev_line = self.tokenizer_encode(
                    prevlines[-1-i], max_length=self.max_len)
                newl = inputl + len(tokenized_prev_line) + 1
                if newl > local_max_len:
                    break
                lines.insert(0, tokenized_prev_line)
                # self.lines.insert(0, prevlines[-1-i])
                self.labels.insert(0, -100)
                inputl = newl  # tag
            if i < len(afterlines):
                tokenized_after_line = self.tokenizer_encode(
                    afterlines[i], max_length=self.max_len)
                newl = inputl + len(tokenized_after_line) + 1
                if newl > local_max_len:
                    break
                lines.append(tokenized_after_line)
                self.labels.append(-100)
                inputl = newl  # tag
            i += 1
        assert inputl <= self.max_len, "Too long inputs."
        assert len(lines) == len(self.labels), "Not equal length."
        # self.input = "<e0>".join(self.lines)
        # self.input = "<e0>".join(self.lines)
        self.msg = msg
        self.lines = lines
        # self.prevlines, self.lines, self.afterlines, self.tokenizer = [], [], [], None  # save memory
        self.prevlines, self.input, self.afterlines, self.tokenizer = [
        ], "", [], None  # save memory

    def remove_space_clean(self, line):
        """
            Remove start and end empty chars.
        """
        rep = " \t\r"
        totallen = len(line)
        i = 0
        while i < totallen and line[i] in rep:
            i += 1
        j = totallen - 1
        while j >= 0 and line[j] in rep:
            j -= 1
        line = line[i: j + 1]
        return line

    def align_and_clean(self, skip_unavail=True):
        oldflines = self.oldf.split("\n")
        difflines = self.diff.split("\n")
        first_line = difflines[0]
        difflines = difflines[1:]
        difflines = [line for line in difflines if line !=
                     r"\ No newline at end of file"]
        regex = r"@@ -(\d+),(\d+) \+(\d+),(\d+) @@"
        matchres = re.match(regex, first_line)
        if matchres:
            startline, rangelen, startpos, endpos = matchres.groups()
            self.avail = True
        else:
            self.avail = False
            return
        startline, rangelen = int(startline) - 1, int(rangelen)
        endline = startline + rangelen
        self.prevlines = oldflines[:startline]
        self.afterlines = oldflines[endline:]
        for line in difflines:
            if line.startswith("-"):
                self.lines.append(line[1:])
                self.labels.append(0)
            elif line.startswith("+"):
                self.lines.append(line[1:])
                self.labels.append(1)
            else:
                self.lines.append(line)
                self.labels.append(2)
        self.prevlines = [self.remove_space_clean(
            line) for line in self.prevlines]
        self.afterlines = [self.remove_space_clean(
            line) for line in self.afterlines]
        self.lines = [self.remove_space_clean(
            line) for line in self.lines]  # diff lines
        self.msg = self.remove_space_clean(self.msg)
        self.prevlines = [line for line in self.prevlines if len(line) > 0]
        self.afterlines = [line for line in self.afterlines if len(line) > 0]
        # print("\n".join(self.prevlines))
        # print("\n\n\n\n")
        # print("\n".join(self.lines))
        # print("\n\n\n\n")
        # print("\n".join(self.afterlines))
        # print("\n\n\n\n")
        assert len(self.lines) == len(
            self.labels), "Not equal length in align."
        topack = list(
            zip(
                *[
                    (line, label)
                    for line, label in zip(self.lines, self.labels)
                    if len(line) > 0
                ]
            )
        )
        if topack == []:
            self.avail = False
            return
        else:
            self.lines, self.labels = topack
        # tuple->list, convenient for later operation
        self.lines = list(self.lines)
        self.labels = list(self.labels)


def read_review_examples(args, filename, data_num=-1, tokenizer=None, skip_unavail=True):
    """Read examples from filename."""
    examples = []
    idx = 0
    with open(filename, 'r', encoding='utf8') as f:
        for i, line in enumerate(f):
            # print(i)
            if args.debug and i > 100:
                break
            try:
                js = json.loads(line.strip())
            except:
                print("Error during reading json data.")
                continue
            # maxl = 200  # original
            maxl = args.max_source_length  # TEST by Bo
            if "y" not in js:
                js["y"] = 0
            if "msg" in js and len(js["msg"]) > 0:
                js["y"] = 1
            if "lang" not in js:
                js["lang"] = ""
            example = ReviewExample(
                idx=idx,
                oldf=js["oldf"],
                diff=js["patch"],
                msg=js["msg"] if "msg" in js else "",
                cmtid=js["cmtid"] if "cmtid" in js else "",
                max_len=maxl,
                y=int(js["y"]),
                max_tgt_len=args.max_target_length,
                lang=js["lang"],
                tokenizer=tokenizer,
                skip_unavail=True
                
            )
            if example.avail:
                examples.append(example)
                idx += 1
                if idx == data_num:
                    break
            else:
                # print(f"Passing {idx} because of invalid diff.")
                if skip_unavail is False:
                    examples.append(example)
                idx += 1
                if idx == data_num:
                    break
    return examples


def read_CC_examples(args, filename, data_num=-1, tokenizer=None):
    """Read examples from filename."""
    examples = []
    idx = 0
    with open(filename) as f:
        for line in f:
            try:
                js = json.loads(line.strip())
            except:
                print("Error during reading json data.")
                continue
            # maxl = 200  # original
            maxl = args.max_source_length  # TEST by Bo
            if "y" not in js:
                js["y"] = 0
            if ("nl" in js and len(js["nl"]) > 0) or ("msg" in js and len(js["msg"]) > 0):
                js["y"] = 1
            if "lang" not in js:
                js["lang"] = ""
            if "old_file" in js:
                example = ReviewExample(
                    idx=idx,
                    oldf=js["old_file"] if "old_file" in js else "",
                    diff=js["diff"],
                    msg=js["nl"] if "nl" in js else "",
                    cmtid=js["cmtid"] if "cmtid" in js else "",
                    max_len=maxl,
                    y=js["y"],
                    max_tgt_len=args.max_target_length,
                    lang=js["lang"],
                    tokenizer=tokenizer
                )
            elif "oldf" in js:
                example = ReviewExample(
                    idx=idx,
                    oldf=js["oldf"] if "oldf" in js else "",
                    diff=js["patch"],
                    msg=js["msg"] if "msg" in js else "",
                    cmtid=js["cmtid"] if "cmtid" in js else "",
                    max_len=maxl,
                    y=js["y"],
                    max_tgt_len=args.max_target_length,
                    lang=js["lang"],
                    tokenizer=tokenizer
                )
            if example.avail:
                examples.append(example)
                idx += 1
                if idx == data_num:
                    break
            else:
                idx += 1
                if idx == data_num:
                    break
    return examples