File size: 721 Bytes

72f4d4d

from transformers import AutoTokenizer

def preprocess_data(data, model_name="facebook/opt-350m"):
    """

    Tokenizes input text data using chosen tokenizer.

    Args:

        data (list of str): Input sentences.

        model_name (str): Pretrained model tokenizer.

    Returns:

        tokenized dataset (dict): Dictionary of tokenized inputs.

    """
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenized = tokenizer(data, padding=True, truncation=True, return_tensors="pt")
    return tokenized

if __name__ == "__main__":
    sample = ["Fine-tuning an open-source LLM.", "This is a sample sentence."]
    tokenized_sample = preprocess_data(sample)
    print(tokenized_sample)