trysem davidventura commited on
Commit
36d05ff
·
0 Parent(s):

Duplicate from davidventura/translator-ppocr-rec

Browse files

Co-authored-by: d <davidventura@users.noreply.huggingface.co>

.gitattributes ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ *.7z filter=lfs diff=lfs merge=lfs -text
2
+ *.arrow filter=lfs diff=lfs merge=lfs -text
3
+ *.bin filter=lfs diff=lfs merge=lfs -text
4
+ *.bz2 filter=lfs diff=lfs merge=lfs -text
5
+ *.ckpt filter=lfs diff=lfs merge=lfs -text
6
+ *.ftz filter=lfs diff=lfs merge=lfs -text
7
+ *.gz filter=lfs diff=lfs merge=lfs -text
8
+ *.h5 filter=lfs diff=lfs merge=lfs -text
9
+ *.joblib filter=lfs diff=lfs merge=lfs -text
10
+ *.lfs.* filter=lfs diff=lfs merge=lfs -text
11
+ *.mlmodel filter=lfs diff=lfs merge=lfs -text
12
+ *.model filter=lfs diff=lfs merge=lfs -text
13
+ *.msgpack filter=lfs diff=lfs merge=lfs -text
14
+ *.npy filter=lfs diff=lfs merge=lfs -text
15
+ *.npz filter=lfs diff=lfs merge=lfs -text
16
+ *.onnx filter=lfs diff=lfs merge=lfs -text
17
+ *.ot filter=lfs diff=lfs merge=lfs -text
18
+ *.parquet filter=lfs diff=lfs merge=lfs -text
19
+ *.pb filter=lfs diff=lfs merge=lfs -text
20
+ *.pickle filter=lfs diff=lfs merge=lfs -text
21
+ *.pkl filter=lfs diff=lfs merge=lfs -text
22
+ *.pt filter=lfs diff=lfs merge=lfs -text
23
+ *.pth filter=lfs diff=lfs merge=lfs -text
24
+ *.rar filter=lfs diff=lfs merge=lfs -text
25
+ *.safetensors filter=lfs diff=lfs merge=lfs -text
26
+ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
27
+ *.tar.* filter=lfs diff=lfs merge=lfs -text
28
+ *.tar filter=lfs diff=lfs merge=lfs -text
29
+ *.tflite filter=lfs diff=lfs merge=lfs -text
30
+ *.tgz filter=lfs diff=lfs merge=lfs -text
31
+ *.wasm filter=lfs diff=lfs merge=lfs -text
32
+ *.xz filter=lfs diff=lfs merge=lfs -text
33
+ *.zip filter=lfs diff=lfs merge=lfs -text
34
+ *.zst filter=lfs diff=lfs merge=lfs -text
35
+ *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ hebrew/best_accuracy.pdparams filter=lfs diff=lfs merge=lfs -text
37
+ hebrew/hebrew_rec_int8.mnn filter=lfs diff=lfs merge=lfs -text
38
+ hebrew/inference/inference.pdiparams filter=lfs diff=lfs merge=lfs -text
39
+ indic/best_accuracy.pdparams filter=lfs diff=lfs merge=lfs -text
40
+ indic/indic_rec_int8.mnn filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - he
5
+ - bn
6
+ - gu
7
+ - kn
8
+ - ml
9
+ tags:
10
+ - ocr
11
+ - text-recognition
12
+ - paddleocr
13
+ - mnn
14
+ pipeline_tag: image-to-text
15
+ ---
16
+
17
+ # PP-OCRv6 fine-tuned recognizers for Hebrew + Indic
18
+
19
+ This is a fine-tune of PP-OCRv6 'small', one for Hebrew, one for (Bengali, Gujarati, Kannada, Malayalam). Both have Latin as well.
20
+
21
+ Hebrew does not do Niqqud.
22
+
23
+ Trained exclusively on synthetic data, evaluated against 3 pictures, was better than Tesseract.
24
+
25
+ - Input strip height is **48**; output is already softmax (per-char confidence = max prob).
26
+ - Emits glyphs in visual (left-to-right) order (need reversal logic for Hebrew)
27
+
28
+ ## Training code
29
+ `scripts/rec_model/` in [translator-rs](https://github.com/DavidVentura/translator-rs).
30
+
31
+ ## License
32
+ Fine-tune of PP-OCRv6 (Apache-2.0). Synthetic training data rendered with mixed-license
33
+ fonts (Culmus, Google Fonts OFL, SIL) over Leipzig corpora.
hebrew/best_accuracy.pdparams ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8fab83c6a6c407e6ab168270f6721c702997d0146a7cb3aceb74aab6c24d7bfb
3
+ size 58792062
hebrew/hebrew_rec_int8.mnn ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:990cec6d91e98dd1e091d23dc18e47db7b293f7a6c8422bec87e721e29e94545
3
+ size 3237360
hebrew/inference/inference.json ADDED
The diff for this file is too large to render. See raw diff
 
hebrew/inference/inference.pdiparams ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:48a941a883987105f059e1677a68c1555eff6d350ce57d74ef15124c72bcd712
3
+ size 12075118
hebrew/inference/inference.yml ADDED
@@ -0,0 +1,157 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ Global:
2
+ model_name: PP-OCRv6_small_rec_hebrew
3
+ Hpi:
4
+ backend_configs:
5
+ paddle_infer:
6
+ trt_dynamic_shapes: &id001
7
+ x:
8
+ - - 1
9
+ - 3
10
+ - 48
11
+ - 160
12
+ - - 1
13
+ - 3
14
+ - 48
15
+ - 320
16
+ - - 8
17
+ - 3
18
+ - 48
19
+ - 3200
20
+ tensorrt:
21
+ dynamic_shapes: *id001
22
+ PreProcess:
23
+ transform_ops:
24
+ - DecodeImage:
25
+ channel_first: false
26
+ img_mode: BGR
27
+ - MultiLabelEncode:
28
+ gtc_encode: NRTRLabelEncode
29
+ - RecResizeImg:
30
+ image_shape:
31
+ - 3
32
+ - 48
33
+ - 320
34
+ - KeepKeys:
35
+ keep_keys:
36
+ - image
37
+ - label_ctc
38
+ - label_gtc
39
+ - length
40
+ - valid_ratio
41
+ PostProcess:
42
+ name: CTCLabelDecode
43
+ character_dict:
44
+ - '!'
45
+ - '"'
46
+ - '#'
47
+ - $
48
+ - '%'
49
+ - '&'
50
+ - ''''
51
+ - (
52
+ - )
53
+ - +
54
+ - ','
55
+ - '-'
56
+ - .
57
+ - /
58
+ - '0'
59
+ - '1'
60
+ - '2'
61
+ - '3'
62
+ - '4'
63
+ - '5'
64
+ - '6'
65
+ - '7'
66
+ - '8'
67
+ - '9'
68
+ - ':'
69
+ - ;
70
+ - '?'
71
+ - '@'
72
+ - A
73
+ - B
74
+ - C
75
+ - D
76
+ - E
77
+ - F
78
+ - G
79
+ - H
80
+ - I
81
+ - J
82
+ - K
83
+ - L
84
+ - M
85
+ - N
86
+ - O
87
+ - P
88
+ - Q
89
+ - R
90
+ - S
91
+ - T
92
+ - U
93
+ - V
94
+ - W
95
+ - X
96
+ - Y
97
+ - Z
98
+ - '['
99
+ - ']'
100
+ - a
101
+ - b
102
+ - c
103
+ - d
104
+ - e
105
+ - f
106
+ - g
107
+ - h
108
+ - i
109
+ - j
110
+ - k
111
+ - l
112
+ - m
113
+ - n
114
+ - o
115
+ - p
116
+ - q
117
+ - r
118
+ - s
119
+ - t
120
+ - u
121
+ - v
122
+ - w
123
+ - x
124
+ - y
125
+ - z
126
+ - ־
127
+ - א
128
+ - ב
129
+ - ג
130
+ - ד
131
+ - ה
132
+ - ו
133
+ - ז
134
+ - ח
135
+ - ט
136
+ - י
137
+ - ך
138
+ - כ
139
+ - ל
140
+ - ם
141
+ - מ
142
+ - ן
143
+ - נ
144
+ - ס
145
+ - ע
146
+ - ף
147
+ - פ
148
+ - ץ
149
+ - צ
150
+ - ק
151
+ - ר
152
+ - ש
153
+ - ת
154
+ - ׳
155
+ - ״
156
+ - ₪
157
+ - €
hebrew/keys.txt ADDED
@@ -0,0 +1,114 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ !
2
+ "
3
+ #
4
+ $
5
+ %
6
+ &
7
+ '
8
+ (
9
+ )
10
+ +
11
+ ,
12
+ -
13
+ .
14
+ /
15
+ 0
16
+ 1
17
+ 2
18
+ 3
19
+ 4
20
+ 5
21
+ 6
22
+ 7
23
+ 8
24
+ 9
25
+ :
26
+ ;
27
+ ?
28
+ @
29
+ A
30
+ B
31
+ C
32
+ D
33
+ E
34
+ F
35
+ G
36
+ H
37
+ I
38
+ J
39
+ K
40
+ L
41
+ M
42
+ N
43
+ O
44
+ P
45
+ Q
46
+ R
47
+ S
48
+ T
49
+ U
50
+ V
51
+ W
52
+ X
53
+ Y
54
+ Z
55
+ [
56
+ ]
57
+ a
58
+ b
59
+ c
60
+ d
61
+ e
62
+ f
63
+ g
64
+ h
65
+ i
66
+ j
67
+ k
68
+ l
69
+ m
70
+ n
71
+ o
72
+ p
73
+ q
74
+ r
75
+ s
76
+ t
77
+ u
78
+ v
79
+ w
80
+ x
81
+ y
82
+ z
83
+ ־
84
+ א
85
+ ב
86
+ ג
87
+ ד
88
+ ה
89
+ ו
90
+ ז
91
+ ח
92
+ ט
93
+ י
94
+ ך
95
+ כ
96
+ ל
97
+ ם
98
+ מ
99
+ ן
100
+ נ
101
+ ס
102
+ ע
103
+ ף
104
+ פ
105
+ ץ
106
+ צ
107
+ ק
108
+ ר
109
+ ש
110
+ ת
111
+ ׳
112
+ ״
113
+
114
+
indic/best_accuracy.pdparams ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ee3321d90d6ba7c47de8d050f4100661b9df58fd2b6a25a4939b4b13deea63f4
3
+ size 30066329
indic/indic_rec_int8.mnn ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:00925f9402f518c629334e5a39b15c7466866be3f90a7df6b2e4db6b74fae5de
3
+ size 3277620
indic/keys.txt ADDED
@@ -0,0 +1,419 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ !
2
+ "
3
+ #
4
+ %
5
+ &
6
+ '
7
+ (
8
+ )
9
+ +
10
+ ,
11
+ -
12
+ .
13
+ /
14
+ 0
15
+ 1
16
+ 2
17
+ 3
18
+ 4
19
+ 5
20
+ 6
21
+ 7
22
+ 8
23
+ 9
24
+ :
25
+ ;
26
+ ?
27
+ @
28
+ A
29
+ B
30
+ C
31
+ D
32
+ E
33
+ F
34
+ G
35
+ H
36
+ I
37
+ J
38
+ K
39
+ L
40
+ M
41
+ N
42
+ O
43
+ P
44
+ Q
45
+ R
46
+ S
47
+ T
48
+ U
49
+ V
50
+ W
51
+ X
52
+ Y
53
+ Z
54
+ [
55
+ ]
56
+ a
57
+ b
58
+ c
59
+ d
60
+ e
61
+ f
62
+ g
63
+ h
64
+ i
65
+ j
66
+ k
67
+ l
68
+ m
69
+ n
70
+ o
71
+ p
72
+ q
73
+ r
74
+ s
75
+ t
76
+ u
77
+ v
78
+ w
79
+ x
80
+ y
81
+ z
82
+
83
+
84
+
85
+
86
+
87
+
88
+
89
+
90
+
91
+
92
+
93
+
94
+
95
+
96
+
97
+
98
+
99
+
100
+
101
+
102
+
103
+
104
+
105
+
106
+
107
+
108
+
109
+
110
+
111
+
112
+
113
+
114
+
115
+
116
+
117
+
118
+
119
+
120
+
121
+
122
+
123
+
124
+
125
+
126
+
127
+
128
+
129
+
130
+
131
+
132
+
133
+
134
+ ি
135
+
136
+
137
+
138
+
139
+
140
+
141
+
142
+
143
+
144
+
145
+
146
+
147
+
148
+
149
+
150
+
151
+
152
+
153
+
154
+
155
+
156
+
157
+
158
+
159
+
160
+
161
+
162
+
163
+
164
+
165
+
166
+
167
+
168
+
169
+
170
+
171
+
172
+
173
+
174
+
175
+
176
+
177
+
178
+
179
+
180
+
181
+
182
+
183
+
184
+
185
+
186
+
187
+
188
+
189
+
190
+
191
+
192
+
193
+
194
+
195
+
196
+
197
+
198
+
199
+
200
+
201
+
202
+
203
+
204
+
205
+
206
+
207
+
208
+
209
+
210
+
211
+
212
+
213
+
214
+
215
+
216
+
217
+
218
+
219
+
220
+
221
+ િ
222
+
223
+
224
+
225
+
226
+
227
+
228
+
229
+
230
+
231
+
232
+
233
+
234
+
235
+
236
+
237
+
238
+
239
+
240
+
241
+
242
+
243
+
244
+
245
+
246
+
247
+
248
+
249
+
250
+
251
+
252
+
253
+
254
+
255
+
256
+
257
+
258
+
259
+
260
+
261
+
262
+
263
+
264
+
265
+
266
+
267
+
268
+
269
+
270
+
271
+
272
+
273
+
274
+
275
+
276
+
277
+
278
+
279
+
280
+
281
+
282
+
283
+
284
+
285
+
286
+
287
+
288
+
289
+
290
+
291
+
292
+
293
+
294
+
295
+
296
+
297
+
298
+
299
+
300
+
301
+
302
+
303
+
304
+
305
+
306
+ ಿ
307
+
308
+
309
+
310
+
311
+
312
+
313
+
314
+
315
+
316
+
317
+
318
+
319
+
320
+
321
+
322
+
323
+
324
+
325
+
326
+
327
+
328
+
329
+
330
+
331
+
332
+
333
+
334
+
335
+
336
+
337
+
338
+
339
+
340
+
341
+
342
+
343
+
344
+
345
+
346
+
347
+
348
+
349
+
350
+
351
+
352
+
353
+
354
+
355
+
356
+
357
+
358
+
359
+
360
+
361
+
362
+
363
+
364
+
365
+
366
+
367
+
368
+
369
+
370
+
371
+
372
+
373
+
374
+
375
+
376
+
377
+
378
+
379
+
380
+
381
+
382
+
383
+
384
+
385
+
386
+
387
+ ി
388
+
389
+
390
+
391
+
392
+
393
+
394
+
395
+
396
+
397
+
398
+
399
+
400
+
401
+
402
+
403
+
404
+
405
+
406
+
407
+
408
+
409
+
410
+
411
+
412
+
413
+
414
+
415
+
416
+
417
+
418
+
419
+ ൿ