File size: 7,973 Bytes

551eebe

import os
import json
import numpy as np
import matplotlib.pyplot as plt
from typing import List, Dict, Any
from transformers import AutoTokenizer

class HFTokenizerTestSuite:
    def __init__(self, model_name: str, test_data_paths: List[str]):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        
        self.languages = ['hindi', 'english']
        
        self.edge_cases = {
            'hindi': {
                'script_test': 'नमस्ते, मैं भारत से हूँ। दिल्ली बहुत बड़ा शहर है।',
                'unicode_test': 'हिन्दी १२३४५६७८९ vowels: अ आ इ ई उ ऊ',
                'special_chars': 'हिन्दी! @ # $ % ^ & * ( ) _ + = [ ] { }',
            },
            'english': {
                'script_test': 'Hello, I am from the United States. New York is a beautiful city.',
                'unicode_test': 'English 0123456789 vowels: a e i o u',
                'special_chars': 'English! @ # $ % ^ & * ( ) _ + = [ ] { }',
            }
        }
        
        self.test_data = self._load_test_data(test_data_paths)
        
        self.results = {
            'coverage': {},
            'complexity': {},
            'language_analysis': {},
            'edge_cases': {}
        }
    
    def _load_test_data(self, data_paths: List[str]) -> Dict[str, List[str]]:
        test_data = {lang: [] for lang in self.languages}
        
        for path in data_paths:
            try:
                with open(path, 'r', encoding='utf-8') as f:
                    texts = f.readlines()
                    
                for i, text in enumerate(texts):
                    lang = self.languages[i % len(self.languages)]
                    test_data[lang].append(text.strip())
            except Exception as e:
                print(f"Error loading {path}: {e}")
        
        return test_data
    
    def unicode_coverage_analysis(self) -> Dict[str, Any]:
        unicode_results = {}
        
        for lang, edge_cases in self.edge_cases.items():
            unicode_test = edge_cases['unicode_test']
            tokenizer_output = self.tokenizer(unicode_test, return_tensors="pt")
            tokens = self.tokenizer.convert_ids_to_tokens(tokenizer_output['input_ids'][0])
            
            unicode_results[lang] = {
                'original_text': unicode_test,
                'tokens': tokens,
                'token_count': len(tokens),
                'unique_tokens': len(set(tokens)),
                'coverage_ratio': len(set(tokens)) / len(tokens)
            }
        
        self.results['unicode_coverage'] = unicode_results
        return unicode_results
    
    def language_specific_edge_cases(self) -> Dict[str, Any]:
        edge_case_results = {}
        
        for lang, cases in self.edge_cases.items():
            language_results = {}
            
            for case_name, text in cases.items():
                try:
                    tokenizer_output = self.tokenizer(text, return_tensors="pt")
                    tokens = self.tokenizer.convert_ids_to_tokens(tokenizer_output['input_ids'][0])
                    
                    language_results[case_name] = {
                        'tokens': tokens,
                        'token_count': len(tokens),
                        'unique_tokens': len(set(tokens))
                    }
                except Exception as e:
                    language_results[case_name] = {
                        'error': str(e)
                    }
            
            edge_case_results[lang] = language_results
        
        self.results['edge_cases'] = edge_case_results
        return edge_case_results
    
    def script_complexity_analysis(self) -> Dict[str, Any]:
        complexity_results = {}
        
        for lang in self.languages:
            text = self.edge_cases[lang]['script_test']
            
            tokenizer_output = self.tokenizer(text, return_tensors="pt")
            tokens = self.tokenizer.convert_ids_to_tokens(tokenizer_output['input_ids'][0])
            
            # Filter out special tokens for accurate length calculation
            filtered_tokens = [token for token in tokens if not token.startswith('[') or not token.endswith(']')]
            
            complexity_results[lang] = {
                'original_text_length': len(text),
                'tokens': tokens,
                'token_count': len(tokens),
                'avg_token_length': np.mean([len(token) for token in filtered_tokens]) if filtered_tokens else 0,
                'token_diversity': len(set(tokens)) / len(tokens)
            }
        
        self.results['script_complexity'] = complexity_results
        return complexity_results
    
    def generate_token_histograms(self):
        plt.figure(figsize=(15, 10))
        
        for i, lang in enumerate(self.languages):
            text = self.test_data[lang][0] if self.test_data[lang] else self.edge_cases[lang]['script_test']
            
            tokenizer_output = self.tokenizer(text, return_tensors="pt")
            tokens = self.tokenizer.convert_ids_to_tokens(tokenizer_output['input_ids'][0])
            
            # Filter out special tokens
            filtered_tokens = [token for token in tokens if not token.startswith('[') or not token.endswith(']')]
            token_lengths = [len(token) for token in filtered_tokens]
            
            plt.subplot(len(self.languages), 1, i+1)
            plt.hist(token_lengths, bins=range(1, max(token_lengths) + 2), alpha=0.7)
            plt.title(f'Token Length Distribution for {lang.capitalize()}')
            plt.xlabel('Token Length')
            plt.ylabel('Frequency')
            plt.grid(True, alpha=0.3)
        
        plt.tight_layout()
        plt.savefig('token_length_histograms.png')
        plt.close()
    
    def generate_unicode_visualization(self):
        plt.figure(figsize=(15, 10))
        
        unicode_results = self.results.get('unicode_coverage', {})
        
        plt.subplot(2, 1, 1)
        token_counts = [result['token_count'] for result in unicode_results.values()]
        plt.bar(unicode_results.keys(), token_counts)
        plt.title('Token Count in Unicode Test Texts')
        plt.xlabel('Language')
        plt.ylabel('Number of Tokens')
        plt.xticks(rotation=45)
        
        plt.subplot(2, 1, 2)
        coverage_ratios = [result['coverage_ratio'] for result in unicode_results.values()]
        plt.bar(unicode_results.keys(), coverage_ratios)
        plt.title('Token Diversity Ratio')
        plt.xlabel('Language')
        plt.ylabel('Unique Tokens / Total Tokens')
        plt.xticks(rotation=45)
        
        plt.tight_layout()
        plt.savefig('unicode_token_analysis.png')
        plt.close()
    
    def run_all_tests(self):
        print("Running Tokenizer Test Suite for Hindi and English...")
        
        print("1. Unicode Coverage Analysis...")
        self.unicode_coverage_analysis()
        
        print("2. Language-Specific Edge Cases...")
        self.language_specific_edge_cases()
        
        print("3. Script Complexity Analysis...")
        self.script_complexity_analysis()
        
        print("4. Generating Token Histograms...")
        self.generate_token_histograms()
        
        print("5. Generating Unicode Visualizations...")
        self.generate_unicode_visualization()
        
        print("Test Suite Complete!")
        
        return self.results

if __name__ == "__main__":
    MODEL_NAME = "tinycompany/ShawtyIsBad-bgem3"
    
    TEST_DATA_PATHS = [
        './test2.txt'
    ]
    
    test_suite = HFTokenizerTestSuite(MODEL_NAME, TEST_DATA_PATHS)
    results = test_suite.run_all_tests()
    
    with open('result1.json', 'w', encoding='utf-8') as f:
        json.dump(results, f, ensure_ascii=False, indent=4)