File size: 5,933 Bytes
4d9cf87
 
 
 
 
f511093
4d9cf87
f511093
4ffecfe
 
4d9cf87
4ffecfe
 
f511093
4d9cf87
f511093
 
 
4d9cf87
 
 
 
4ffecfe
4d9cf87
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4ffecfe
f511093
 
4d9cf87
 
 
 
 
 
 
 
 
f511093
4ffecfe
4d9cf87
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4ffecfe
 
4d9cf87
 
4ffecfe
4d9cf87
 
4ffecfe
4d9cf87
4ffecfe
4d9cf87
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4ffecfe
 
4d9cf87
4ffecfe
 
4d9cf87
4ffecfe
 
4d9cf87
4ffecfe
 
4d9cf87
4ffecfe
4d9cf87
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4ffecfe
4d9cf87
4ffecfe
4d9cf87
4ffecfe
 
4d9cf87
 
 
 
 
 
 
 
 
 
4ffecfe
4d9cf87
 
 
 
 
 
 
 
 
 
 
4ffecfe
4d9cf87
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
"""
Custom Inference Handler for Huseyin/tekno25 Model
Hugging Face Inference Endpoints için özelleştirilmiş handler
"""

import torch
from typing import Dict, List, Any
from transformers import AutoModelForCausalLM, AutoTokenizer
import logging

# Logger ayarla
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)


class EndpointHandler:
    def __init__(self, path=""):
        """
        Model ve tokenizer'ı yükle
        
        Args:
            path: Model dosyalarının bulunduğu dizin
        """
        logger.info(f"Model yükleniyor: {path}")
        
        # Tokenizer'ı yükle
        self.tokenizer = AutoTokenizer.from_pretrained(
            path,
            trust_remote_code=True
        )
        
        # Modeli yükle
        self.model = AutoModelForCausalLM.from_pretrained(
            path,
            torch_dtype=torch.float16,  # Bellek optimizasyonu için
            device_map="auto",  # Otomatik cihaz ataması
            trust_remote_code=True
        )
        
        # Eğer tokenizer'da pad_token yoksa ekle
        if self.tokenizer.pad_token is None:
            self.tokenizer.pad_token = self.tokenizer.eos_token
        
        logger.info("Model başarıyla yüklendi!")
    
    def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
        """
        Inference endpoint'i için ana fonksiyon
        
        Args:
            data: İstek verisi
                - inputs (str veya List[str]): Giriş metni/metinleri
                - parameters (dict, optional): Generasyon parametreleri
        
        Returns:
            List[Dict]: Üretilen metin(ler)
        """
        try:
            # Giriş verilerini al
            inputs = data.get("inputs", "")
            parameters = data.get("parameters", {})
            
            # Eğer inputs bir string ise listeye çevir
            if isinstance(inputs, str):
                inputs = [inputs]
            
            # Varsayılan parametreler
            default_params = {
                "max_new_tokens": 512,
                "temperature": 0.7,
                "top_p": 0.9,
                "top_k": 50,
                "do_sample": True,
                "repetition_penalty": 1.1,
                "return_full_text": False
            }
            
            # Kullanıcı parametrelerini varsayılanlarla birleştir
            generation_params = {**default_params, **parameters}
            
            # return_full_text parametresini ayır
            return_full_text = generation_params.pop("return_full_text", False)
            
            # Batch işleme için sonuçları topla
            results = []
            
            for text_input in inputs:
                # Tokenize et
                encoded_inputs = self.tokenizer(
                    text_input,
                    return_tensors="pt",
                    padding=True,
                    truncation=True,
                    max_length=2048
                ).to(self.model.device)
                
                # Çıktı üret
                with torch.no_grad():
                    output_ids = self.model.generate(
                        **encoded_inputs,
                        **generation_params
                    )
                
                # Decode et
                if return_full_text:
                    # Tam metni döndür (giriş + üretilen)
                    generated_text = self.tokenizer.decode(
                        output_ids[0],
                        skip_special_tokens=True
                    )
                else:
                    # Sadece üretilen kısmı döndür
                    input_length = encoded_inputs.input_ids.shape[1]
                    generated_text = self.tokenizer.decode(
                        output_ids[0][input_length:],
                        skip_special_tokens=True
                    )
                
                results.append({
                    "generated_text": generated_text
                })
            
            return results
            
        except Exception as e:
            logger.error(f"Inference sırasında hata: {str(e)}")
            return [{
                "error": str(e),
                "error_type": type(e).__name__
            }]


# Alternatif: Pipeline kullanımı için handler
class PipelineHandler:
    """
    Transformers pipeline kullanarak daha basit bir handler
    """
    
    def __init__(self, path=""):
        from transformers import pipeline
        
        logger.info(f"Pipeline yükleniyor: {path}")
        
        self.pipeline = pipeline(
            "text-generation",
            model=path,
            torch_dtype=torch.float16,
            device_map="auto",
            trust_remote_code=True
        )
        
        logger.info("Pipeline başarıyla yüklendi!")
    
    def __call__(self, data: Dict[str, Any]) -> List[Dict[str, Any]]:
        """
        Pipeline tabanlı inference
        """
        try:
            inputs = data.get("inputs", "")
            parameters = data.get("parameters", {})
            
            # Varsayılan parametreler
            default_params = {
                "max_new_tokens": 512,
                "temperature": 0.7,
                "top_p": 0.9,
                "do_sample": True,
                "return_full_text": False
            }
            
            generation_params = {**default_params, **parameters}
            
            # Pipeline'ı çalıştır
            outputs = self.pipeline(
                inputs,
                **generation_params
            )
            
            return outputs
            
        except Exception as e:
            logger.error(f"Pipeline inference hatası: {str(e)}")
            return [{
                "error": str(e),
                "error_type": type(e).__name__
            }]