procesaur commited on
Commit
3ab7abc
·
verified ·
1 Parent(s): dd7bf45

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +235 -3
README.md CHANGED
@@ -1,3 +1,235 @@
1
- ---
2
- license: cc-by-4.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-4.0
3
+ base_model:
4
+ - Qwen/Qwen3-0.6B
5
+ tags:
6
+ - transformers
7
+ datasets:
8
+ - te-sla/sumarizacija
9
+ pipeline_tag: summarization
10
+ ---
11
+
12
+ <table style="width:100%;height:100%">
13
+ <tr>
14
+ <td colspan=2>
15
+ <h4><i class="highlight-container"><b class="highlight">Qwen3-0.6B - sumarizacija</b></i></h4>
16
+ </td>
17
+ </tr>
18
+ <tr style="width:100%;height:100%">
19
+ <td width=50%>
20
+ <p>Модел за сумаризацију заснован на Qwen3 моделу - 600 милиона параметара</p>
21
+ </td>
22
+ <td>
23
+ <p>Summarization model based on Qwen3 model - 600 million parameters</p>
24
+ </td>
25
+ </tr>
26
+ </table>
27
+
28
+ ```python
29
+ >>> from transformers import Qwen3ForCausalLM, Qwen2TokenizerFast
30
+ >>> import torch
31
+
32
+ >>> model = Qwen3ForCausalLM.from_pretrained("te-sla/sum600")
33
+ >>> model.eval()
34
+ >>> tokenizer = Qwen2TokenizerFast.from_pretrained("te-sla/sum600", padding_side="left")
35
+ >>> eos_token = "<|endoftext|>"
36
+ >>> tokenizer.pad_token = eos_token
37
+ >>> tokenizer.pad_token_id = tokenizer.convert_tokens_to_ids(tokenizer.pad_token)
38
+ >>> tokenizer.eos_token = tokenizer.pad_token
39
+ >>> tokenizer.eos_token_id = tokenizer.pad_token_id
40
+ >>> tokenizer.padding_side = "left"
41
+
42
+ >>> text = "Trombofilija nastaje kao rezultat kompleksne interakcije između negenetičkih i genetičkih faktora rizika koji hemostaznu ravnotežu pomeraju u smeru hiperkoagulacije i dovode do pojave tromboze. Veoma značajan faktor rizika za nastanak trombofilije je deficijencija inhibitora koagulacije: antitrombina, proteina C ili proteina S. Veliki korak u razumevanju genetičke osnove i molekularne dijagnostike trombofilije napravljen je otkrićem rezistencije na aktivirani protein C i faktor V Leiden mutacije. Ubrzo je otkrivena i varijanta u 3'-nekodirajucem regionu gena za faktor II (FII G20210A), za koju je pokazano da dovodi do povišene koncentracije protrombina u plazmi. Ove dve genske varijante su najučestaliji genetički faktori rizika za nastanak trombofilije. Nedavno je opisana nova mutacija u genu za protrombin (c.1787G gt T) za koju je pokazano da dovodi do rezistencije na antitrombin, odnosno do smanjene mogućnosti inaktivacije mutiranog trombina od strane antitrombina, sto predstavlja novi mehanizam za nastanak trombofilije. U toku poslednjih decenija, opisan je veliki broj genetičkih faktora rizika za nastanak trombofilije, uključuju}i one koji dovode do: nedostatka inhibitora koagulacije, povećanog nivoa ili smanjene inaktivacije koagulacionih faktora ili defekata sistema za fibrinolizu. Međutim, većina njih nije od dijagnostičke važnosti zbog njihovog malog ili još uvek nepoznatog uticaja na etiologiju trombofilije. Primena novih tehnologija koje omogućavaju analizu velikog broja gena kod jednog pacijenta otvoriće mogućnost individualnog utvrđivanja genetičkih faktora rizika, samim tim i adekvatan terapeutski pristup."
43
+ >>> text += eos_token
44
+ >>> inputs = tokenizer(text, return_tensors="pt", padding="longest", truncation=True, max_length=1024)
45
+ >>> prompt_lengths = inputs["input_ids"].shape[1]
46
+
47
+ >>> with torch.no_grad():
48
+ >>> generated_ids = model.generate(
49
+ input_ids=inputs["input_ids"],
50
+ attention_mask=inputs["attention_mask"],
51
+ max_new_tokens=100,
52
+ no_repeat_ngram_size=3,
53
+ num_beams=6,
54
+ min_length = 30,
55
+ length_penalty = -0.5,
56
+ early_stopping = True,
57
+ pad_token_id = tokenizer.pad_token_id,
58
+ eos_token_id = tokenizer.pad_token_id)
59
+
60
+ >>> decoded_output = tokenizer.decode(generated_ids[0][prompt_length:], skip_special_tokens=True).strip()
61
+
62
+ >>> print(decoded_output)
63
+ ```
64
+
65
+ ```python
66
+ >>> Trombofilija nastaje kao rezultat kompleksne interakcije između negenetičkih i genetičkih faktora rizika koji hemostaznu ravnotežu pomeraju hiperkoagulacije i pojave tromboze. Nedavno je nova mutacija u genu za protrombin, što je novi mehanizam za nastanak trombofilije.
67
+ ```
68
+
69
+
70
+ <!--table style="width:100%;height:100%">
71
+ <tr>
72
+ <td width=50%>
73
+ <h5><i><b>Евалуација на задатку сумаризације - српски језик</b></i></h4>
74
+ </td>
75
+ <td>
76
+ <h5><i><b>Evaluation on the summarization task - Serbian language</b></i></h4>
77
+ </td>
78
+ </tr>
79
+ <tr colspan=2 style="width:100%;height:100%">
80
+ <td colspan=2 >
81
+ <img src="res.png" class="cover" style="max-width:650px">
82
+ </td>
83
+ </tr>
84
+ </table-->
85
+
86
+
87
+ <div class="inline-flex flex-col" style="line-height: 1.5;padding-right:50px">
88
+ <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Author</div>
89
+ <a href="https://huggingface.co/procesaur">
90
+ <div class="flex">
91
+ <div
92
+ style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%;
93
+ background-size: cover; background-image: url(&#39;https://cdn-uploads.huggingface.co/production/uploads/1673534533167-63bc254fb8c61b8aa496a39b.jpeg?w=200&h=200&f=face&#39;)">
94
+ </div>
95
+ </div>
96
+ </a>
97
+ <div style="text-align: center; font-size: 16px; font-weight: 800">Mihailo Škorić</div>
98
+ <div>
99
+ <a href="https://huggingface.co/procesaur">
100
+ <div style="text-align: center; font-size: 14px;">@procesaur</div>
101
+ </a>
102
+ </div>
103
+ </div>
104
+ </div>
105
+
106
+
107
+
108
+ <div class="inline-flex flex-col" style="line-height: 1.5;">
109
+ <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Computation</div>
110
+ <a href="https://tesla.rgf.bg.ac.rs">
111
+ <div class="flex">
112
+ <div
113
+ style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%;
114
+ background-size: cover; background-image: url(https://cdn-avatars.huggingface.co/v1/production/uploads/63bc254fb8c61b8aa496a39b/TfM_-sc8-b34ddfhHBGTA.png?w=200&h=200&f=face)">
115
+ </div>
116
+ </div>
117
+ </a>
118
+ <div style="text-align: center; font-size: 16px; font-weight: 800">TESLA project</div>
119
+ <div>
120
+ <a href="https://huggingface.co/te-sla">
121
+ <div style="text-align: center; font-size: 14px;">@te-sla</div>
122
+ </a>
123
+ </div>
124
+ </div>
125
+ </div>
126
+
127
+
128
+ <!--div>
129
+ ## Cit.
130
+
131
+ ```bibtex
132
+ @inproceedings{skorict5,
133
+ author = {Mihailo Škorić},
134
+ title = {Pilot Text to Text Transfer Transformer Model for Serbian Language},
135
+ booktitle = {ARTIFICAL INTELLIGENCE CONFERENCE},
136
+ year = {2025},
137
+ address = {Belgrade}
138
+ publisher = {SASA, Belgrade},
139
+ url = {}
140
+ }
141
+ ```
142
+ </div-->
143
+ <br/>
144
+
145
+ <br/>
146
+ <div id="zastava">
147
+ <div class="grb">
148
+ <img src="https://www.ai.gov.rs/img/logo_60x120-2.png" style="position:relative; left:30px; z-index:10; height:85px">
149
+ </div>
150
+ <table width=100% style="border:0px">
151
+ <tr style="background-color:#C6363C;width:100%;border:0px;height:30px"><td style="width:100vw"></td></tr>
152
+ <tr style="background-color:#0C4076;width:100%;border:0px;height:30px"><td></td></tr>
153
+ <tr style="background-color:#ffffff;width:100%;border:0px;height:30px"><td></td></tr>
154
+ </table>
155
+ </div>
156
+
157
+ <table style="width:100%;height:100%">
158
+ <tr style="width:100%;height:100%">
159
+ <td width=50%>
160
+ <p>Истраживање jе спроведено уз подршку Фонда за науку Републике Србиjе, #7276, Text Embeddings – Serbian Language Applications – TESLA</p>
161
+ </td>
162
+ <td>
163
+ <p>This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA</p>
164
+ </td>
165
+ </tr>
166
+ </table>
167
+
168
+
169
+
170
+ <style>
171
+ .ffeat: {
172
+ color:red
173
+ }
174
+
175
+ .cover {
176
+ width: 100%;
177
+ margin-bottom: 5pt
178
+ }
179
+
180
+ .highlight-container, .highlight {
181
+ position: relative;
182
+ text-decoration:none
183
+ }
184
+
185
+ .highlight-container {
186
+ display: inline-block;
187
+
188
+ }
189
+
190
+ .highlight{
191
+ color:white;
192
+ text-transform:uppercase;
193
+ font-size: 16pt;
194
+ }
195
+
196
+ .highlight-container{
197
+ padding:5px 10px
198
+ }
199
+
200
+ .highlight-container:before {
201
+ content: " ";
202
+ display: block;
203
+ height: 100%;
204
+ width: 100%;
205
+ margin-left: 0px;
206
+ margin-right: 0px;
207
+ position: absolute;
208
+ background: #e80909;
209
+ transform: rotate(2deg);
210
+ top: -1px;
211
+ left: -1px;
212
+ border-radius: 20% 25% 20% 24%;
213
+ padding: 10px 18px 18px 10px;
214
+ }
215
+
216
+ div.grb, #zastava>table {
217
+ position:absolute;
218
+ top:0px;
219
+ left: 0px;
220
+ margin:0px
221
+ }
222
+
223
+ div.grb>img, #zastava>table{
224
+ margin:0px
225
+ }
226
+
227
+ #zastava {
228
+ position: relative;
229
+ margin-bottom:120px
230
+ }
231
+
232
+ p {
233
+ font-size:14pt
234
+ }
235
+ </style>