Update spaCy pipeline

Browse files

Files changed (9) hide show

README.md +20 -67
config.cfg +16 -76
id_core_news_sm-any-py3-none-any.whl +2 -2
meta.json +102 -461
ner/cfg +13 -0
ner/model +0 -0
ner/moves +1 -0
tok2vec/model +1 -1
vocab/strings.json +0 -0

README.md CHANGED Viewed

@@ -8,62 +8,26 @@ model-index:
 - name: id_core_news_sm
   results:
   - task:
-      name: TAG
       type: token-classification
     metrics:
-    - name: TAG (XPOS) Accuracy
-      type: accuracy
-      value: 0.9051536414
-  - task:
-      name: POS
-      type: token-classification
-    metrics:
-    - name: POS (UPOS) Accuracy
-      type: accuracy
-      value: 0.9125297415
-  - task:
-      name: MORPH
-      type: token-classification
-    metrics:
-    - name: Morph (UFeats) Accuracy
-      type: accuracy
-      value: 0.9296115526
-  - task:
-      name: LEMMA
-      type: token-classification
-    metrics:
-    - name: Lemma Accuracy
-      type: accuracy
-      value: 0.9369920335
-  - task:
-      name: UNLABELED_DEPENDENCIES
-      type: token-classification
-    metrics:
-    - name: Unlabeled Attachment Score (UAS)
-      type: f_score
-      value: 0.7753785754
-  - task:
-      name: LABELED_DEPENDENCIES
-      type: token-classification
-    metrics:
-    - name: Labeled Attachment Score (LAS)
-      type: f_score
-      value: 0.6871555348
-  - task:
-      name: SENTS
-      type: token-classification
-    metrics:
-    - name: Sentences F-Score
       type: f_score
-      value: 0.857881137
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `id_core_news_sm` |
-| **Version** | `0.0.0` |
-| **spaCy** | `>=3.7.2,<3.8.0` |
-| **Default Pipeline** | `tok2vec`, `tagger`, `morphologizer`, `trainable_lemmatizer`, `parser` |
-| **Components** | `tok2vec`, `tagger`, `morphologizer`, `trainable_lemmatizer`, `parser` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
@@ -73,13 +37,11 @@ model-index:
 <details>
-<summary>View label scheme (166 labels for 3 components)</summary>
 | Component | Labels |
 | --- | --- |
-| **`tagger`** | `APP`, `ASP`, `ASP+PS3`, `ASS`, `B--`, `B--+PS3`, `CC-`, `CCONJ`, `CD-`, `CO-`, `D--`, `D--+PS3`, `F--`, `F--+PS2`, `G--`, `G--+PS3`, `H--`, `I--`, `M--`, `M--+PS3`, `NOUN`, `NPD`, `NSD`, `NSD+PS3`, `NSF`, `NSM`, `NUM`, `O--`, `PP1`, `PP2`, `PP3`, `PROPN`, `PS1`, `PS1+VSA`, `PS2`, `PS3`, `R--`, `R--+PS3`, `S--`, `SYM`, `T--`, `VERB`, `VPA`, `VSA`, `VSA+PS2`, `VSA+PS3`, `VSP`, `W--`, `X--`, `Z--` |
-| **`morphologizer`** | `POS=PROPN`, `POS=AUX`, `Definite=Ind\|POS=DET\|PronType=Art`, `Number=Sing\|POS=NOUN`, `POS=PRON\|PronType=Rel`, `Mood=Ind\|POS=VERB\|Voice=Pass`, `POS=ADP`, `POS=PUNCT`, `POS=NOUN`, `POS=ADV`, `POS=CCONJ`, `POS=SCONJ`, `Mood=Ind\|POS=VERB\|Voice=Act`, `POS=VERB`, `POS=DET\|PronType=Tot`, `Number=Sing\|POS=PRON\|Person=3\|PronType=Prs`, `Number=Plur\|POS=PRON\|Person=3\|PronType=Prs`, `POS=PRON\|PronType=Prs\|Reflex=Yes`, `POS=DET\|PronType=Dem`, `NumType=Card\|POS=NUM`, `POS=ADJ`, `Number=Plur\|POS=DET\|PronType=Ind`, `NumType=Card\|POS=NUM\|PronType=Tot`, `POS=PART\|Polarity=Neg`, `POS=PRON\|PronType=Int`, `NumType=Ord\|POS=ADJ`, `POS=PART`, `POS=PRON\|PronType=Dem`, `POS=DET\|PronType=Ind`, `Number=Plur\|POS=NOUN`, `Number=Sing\|POS=PRON\|Person=1\|Polite=Form\|PronType=Prs`, `POS=ADV\|PronType=Int`, `Clusivity=In\|Number=Plur\|POS=PRON\|Person=1\|PronType=Prs`, `Definite=Def\|POS=DET\|PronType=Art`, `POS=SYM`, `Degree=Sup\|POS=ADJ`, `POS=INTJ`, `Number=Sing\|POS=PRON\|Person=2\|Polite=Infm\|PronType=Prs`, `POS=ADV\|PronType=Ind`, `Number=Sing\|POS=PRON\|Person=3\|Polite=Form\|PronType=Prs`, `Number=Sing\|POS=PRON\|Person=1\|Polite=Infm\|PronType=Prs`, `Number=Sing\|POS=PRON\|PronType=Ind`, `POS=VERB\|Voice=Act`, `POS=DET\|PronType=Emp`, `POS=VERB\|Voice=Pass`, `POS=ADV\|PronType=Dem`, `POS=NOUN\|Typo=Yes`, `POS=ADP\|Typo=Yes`, `Number=Plur\|POS=PRON\|PronType=Ind`, `POS=VERB\|Typo=Yes\|Voice=Pass`, `POS=X`, `POS=PRON\|PronType=Tot`, `POS=SCONJ\|Typo=Yes`, `Number=Plur\|POS=PRON\|Person=2\|Polite=Infm\|PronType=Prs`, `NumType=Card\|POS=NUM\|Typo=Yes`, `Clusivity=Ex\|Number=Plur\|POS=PRON\|Person=1\|PronType=Prs`, `Number=Sing\|POS=PRON\|Person=2\|Polite=Form\|PronType=Prs`, `Foreign=Yes\|POS=X`, `POS=ADV\|PronType=Rel`, `Mood=Imp\|POS=VERB\|Voice=Act`, `Number=Sing\|POS=NOUN\|Typo=Yes`, `POS=PROPN\|Typo=Yes`, `POS=DET`, `Number=Sing\|POS=DET\|PronType=Ind`, `POS=DET\|PronType=Ind\|Typo=Yes`, `Abbr=Yes\|POS=DET\|PronType=Dem`, `POS=PRON\|PronType=Ind`, `POS=VERB\|Typo=Yes`, `Abbr=Yes\|POS=PROPN`, `Abbr=Yes\|POS=PRON\|PronType=Rel`, `Number=Plur\|POS=PRON\|PronType=Int`, `Abbr=Yes\|POS=PART\|Polarity=Neg`, `POS=ADV\|PronType=Tot`, `Abbr=Yes\|POS=ADV`, `POS=ADV\|Typo=Yes`, `POS=X\|Typo=Yes`, `Number=Sing\|POS=PRON\|Person=2\|PronType=Prs`, `POS=ADV\|PronType=Int\|Typo=Yes`, `NumType=Ord\|POS=ADJ\|Typo=Yes` |
-| **`parser`** | `ROOT`, `acl`, `acl:relcl`, `advcl`, `advmod`, `advmod:emph`, `amod`, `appos`, `aux`, `case`, `case:adv`, `cc`, `ccomp`, `compound`, `conj`, `cop`, `dep`, `det`, `fixed`, `flat`, `flat:foreign`, `flat:name`, `mark`, `nmod`, `nmod:lmod`, `nmod:poss`, `nmod:tmod`, `nsubj`, `nsubj:pass`, `nummod`, `obj`, `obl`, `obl:agent`, `obl:tmod`, `parataxis`, `punct`, `xcomp` |
 </details>
@@ -87,17 +49,8 @@ model-index:
 | Type | Score |
 | --- | --- |
-| `TAG_ACC` | 90.52 |
-| `POS_ACC` | 91.25 |
-| `MORPH_ACC` | 92.96 |
-| `LEMMA_ACC` | 93.70 |
-| `DEP_UAS` | 77.54 |
-| `DEP_LAS` | 68.72 |
-| `SENTS_P` | 82.72 |
-| `SENTS_R` | 89.09 |
-| `SENTS_F` | 85.79 |
-| `TOK2VEC_LOSS` | 756743.38 |
-| `TAGGER_LOSS` | 73614.38 |
-| `MORPHOLOGIZER_LOSS` | 155689.33 |
-| `TRAINABLE_LEMMATIZER_LOSS` | 35033.93 |
-| `PARSER_LOSS` | 1037857.66 |

 - name: id_core_news_sm
   results:
   - task:
+      name: NER
       type: token-classification
     metrics:
+    - name: NER Precision
+      type: precision
+      value: 0.6721056721
+    - name: NER Recall
+      type: recall
+      value: 0.6040502793
+    - name: NER F Score
       type: f_score
+      value: 0.6362633321
 ---
 | Feature | Description |
 | --- | --- |
 | **Name** | `id_core_news_sm` |
+| **Version** | `0.0.1` |
+| **spaCy** | `>=3.7.4,<3.8.0` |
+| **Default Pipeline** | `tok2vec`, `ner` |
+| **Components** | `tok2vec`, `ner` |
 | **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
 | **Sources** | n/a |
 | **License** | n/a |
 <details>
+<summary>View label scheme (18 labels for 1 components)</summary>
 | Component | Labels |
 | --- | --- |
+| **`ner`** | `CARDINAL`, `DATE`, `EVENT`, `FAC`, `GPE`, `LANGUAGE`, `LAW`, `LOC`, `MONEY`, `NORP`, `ORDINAL`, `ORG`, `PERCENT`, `PERSON`, `PRODUCT`, `QUANTITY`, `TIME`, `WORK_OF_ART` |
 </details>
 | Type | Score |
 | --- | --- |
+| `ENTS_F` | 63.63 |
+| `ENTS_P` | 67.21 |
+| `ENTS_R` | 60.41 |
+| `TOK2VEC_LOSS` | 45767.58 |
+| `NER_LOSS` | 127721.43 |

config.cfg CHANGED Viewed

@@ -1,6 +1,6 @@
 [paths]
-train = "./id_gsd-ud-train.spacy"
-dev = "./id_gsd-ud-dev.spacy"
 vectors = null
 init_tok2vec = null
@@ -10,7 +10,7 @@ seed = 0
 [nlp]
 lang = "id"
-pipeline = ["tok2vec","tagger","morphologizer","trainable_lemmatizer","parser"]
 batch_size = 1000
 disabled = []
 before_creation = null
@@ -21,58 +21,23 @@ vectors = {"@vectors":"spacy.Vectors.v1"}
 [components]
-[components.morphologizer]
-factory = "morphologizer"
-extend = false
-label_smoothing = 0.05
-overwrite = true
-scorer = {"@scorers":"spacy.morphologizer_scorer.v1"}
-[components.morphologizer.model]
-@architectures = "spacy.Tagger.v2"
-nO = null
-normalize = false
-[components.morphologizer.model.tok2vec]
-@architectures = "spacy.Tok2VecListener.v1"
-width = ${components.tok2vec.model.encode.width}
-upstream = "*"
-[components.parser]
-factory = "parser"
-learn_tokens = false
-min_action_freq = 30
 moves = null
-scorer = {"@scorers":"spacy.parser_scorer.v1"}
 update_with_oracle_cut_size = 100
-[components.parser.model]
 @architectures = "spacy.TransitionBasedParser.v2"
-state_type = "parser"
 extra_state_tokens = false
-hidden_width = 128
-maxout_pieces = 3
 use_upper = true
 nO = null
-[components.parser.model.tok2vec]
-@architectures = "spacy.Tok2VecListener.v1"
-width = ${components.tok2vec.model.encode.width}
-upstream = "*"
-[components.tagger]
-factory = "tagger"
-label_smoothing = 0.05
-neg_prefix = "!"
-overwrite = false
-scorer = {"@scorers":"spacy.tagger_scorer.v1"}
-[components.tagger.model]
-@architectures = "spacy.Tagger.v2"
-nO = null
-normalize = false
-[components.tagger.model.tok2vec]
 @architectures = "spacy.Tok2VecListener.v1"
 width = ${components.tok2vec.model.encode.width}
 upstream = "*"
@@ -97,24 +62,6 @@ depth = 8
 window_size = 1
 maxout_pieces = 3
-[components.trainable_lemmatizer]
-factory = "trainable_lemmatizer"
-backoff = "orth"
-min_tree_freq = 3
-overwrite = false
-scorer = {"@scorers":"spacy.lemmatizer_scorer.v1"}
-top_k = 1
-[components.trainable_lemmatizer.model]
-@architectures = "spacy.Tagger.v2"
-nO = null
-normalize = false
-[components.trainable_lemmatizer.model.tok2vec]
-@architectures = "spacy.Tok2VecListener.v1"
-width = ${components.tok2vec.model.encode.width}
-upstream = "*"
 [corpora]
 [corpora.dev]
@@ -178,17 +125,10 @@ eps = 0.00000001
 learn_rate = 0.001
 [training.score_weights]
-tag_acc = 0.26
-pos_acc = 0.12
-morph_acc = 0.12
-morph_per_feat = null
-lemma_acc = 0.26
-dep_uas = 0.12
-dep_las = 0.12
-dep_las_per_type = null
-sents_p = null
-sents_r = null
-sents_f = 0.0
 [pretraining]

 [paths]
+train = "./ner_id_train.spacy"
+dev = "./ner_id_dev.spacy"
 vectors = null
 init_tok2vec = null
 [nlp]
 lang = "id"
+pipeline = ["tok2vec","ner"]
 batch_size = 1000
 disabled = []
 before_creation = null
 [components]
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
 moves = null
+scorer = {"@scorers":"spacy.ner_scorer.v1"}
 update_with_oracle_cut_size = 100
+[components.ner.model]
 @architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
 extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
 use_upper = true
 nO = null
+[components.ner.model.tok2vec]
 @architectures = "spacy.Tok2VecListener.v1"
 width = ${components.tok2vec.model.encode.width}
 upstream = "*"
 window_size = 1
 maxout_pieces = 3
 [corpora]
 [corpora.dev]
 learn_rate = 0.001
 [training.score_weights]
+ents_f = 1.0
+ents_p = 0.0
+ents_r = 0.0
+ents_per_type = null
 [pretraining]

id_core_news_sm-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8a2b7591fd92c9bc67958b9efb5a7f4b2be00928f42c768933ffc12298300a4
-size 34069443

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f5b707caf40cf9fdea315f2e5d792baa07e4a95b1ca2d7b66447a5dffb556b9
+size 32101183

meta.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
   "lang":"id",
   "name":"core_news_sm",
-  "version":"0.0.0",
   "description":"",
   "author":"",
   "email":"",
   "url":"",
   "license":"",
-  "spacy_version":">=3.7.2,<3.8.0",
-  "spacy_git_version":"a89eae928",
   "vectors":{
     "width":0,
     "vectors":0,
@@ -19,495 +19,136 @@
     "tok2vec":[
     ],
-    "tagger":[
-      "APP",
-      "ASP",
-      "ASP+PS3",
-      "ASS",
-      "B--",
-      "B--+PS3",
-      "CC-",
-      "CCONJ",
-      "CD-",
-      "CO-",
-      "D--",
-      "D--+PS3",
-      "F--",
-      "F--+PS2",
-      "G--",
-      "G--+PS3",
-      "H--",
-      "I--",
-      "M--",
-      "M--+PS3",
-      "NOUN",
-      "NPD",
-      "NSD",
-      "NSD+PS3",
-      "NSF",
-      "NSM",
-      "NUM",
-      "O--",
-      "PP1",
-      "PP2",
-      "PP3",
-      "PROPN",
-      "PS1",
-      "PS1+VSA",
-      "PS2",
-      "PS3",
-      "R--",
-      "R--+PS3",
-      "S--",
-      "SYM",
-      "T--",
-      "VERB",
-      "VPA",
-      "VSA",
-      "VSA+PS2",
-      "VSA+PS3",
-      "VSP",
-      "W--",
-      "X--",
-      "Z--"
-    ],
-    "morphologizer":[
-      "POS=PROPN",
-      "POS=AUX",
-      "Definite=Ind|POS=DET|PronType=Art",
-      "Number=Sing|POS=NOUN",
-      "POS=PRON|PronType=Rel",
-      "Mood=Ind|POS=VERB|Voice=Pass",
-      "POS=ADP",
-      "POS=PUNCT",
-      "POS=NOUN",
-      "POS=ADV",
-      "POS=CCONJ",
-      "POS=SCONJ",
-      "Mood=Ind|POS=VERB|Voice=Act",
-      "POS=VERB",
-      "POS=DET|PronType=Tot",
-      "Number=Sing|POS=PRON|Person=3|PronType=Prs",
-      "Number=Plur|POS=PRON|Person=3|PronType=Prs",
-      "POS=PRON|PronType=Prs|Reflex=Yes",
-      "POS=DET|PronType=Dem",
-      "NumType=Card|POS=NUM",
-      "POS=ADJ",
-      "Number=Plur|POS=DET|PronType=Ind",
-      "NumType=Card|POS=NUM|PronType=Tot",
-      "POS=PART|Polarity=Neg",
-      "POS=PRON|PronType=Int",
-      "NumType=Ord|POS=ADJ",
-      "POS=PART",
-      "POS=PRON|PronType=Dem",
-      "POS=DET|PronType=Ind",
-      "Number=Plur|POS=NOUN",
-      "Number=Sing|POS=PRON|Person=1|Polite=Form|PronType=Prs",
-      "POS=ADV|PronType=Int",
-      "Clusivity=In|Number=Plur|POS=PRON|Person=1|PronType=Prs",
-      "Definite=Def|POS=DET|PronType=Art",
-      "POS=SYM",
-      "Degree=Sup|POS=ADJ",
-      "POS=INTJ",
-      "Number=Sing|POS=PRON|Person=2|Polite=Infm|PronType=Prs",
-      "POS=ADV|PronType=Ind",
-      "Number=Sing|POS=PRON|Person=3|Polite=Form|PronType=Prs",
-      "Number=Sing|POS=PRON|Person=1|Polite=Infm|PronType=Prs",
-      "Number=Sing|POS=PRON|PronType=Ind",
-      "POS=VERB|Voice=Act",
-      "POS=DET|PronType=Emp",
-      "POS=VERB|Voice=Pass",
-      "POS=ADV|PronType=Dem",
-      "POS=NOUN|Typo=Yes",
-      "POS=ADP|Typo=Yes",
-      "Number=Plur|POS=PRON|PronType=Ind",
-      "POS=VERB|Typo=Yes|Voice=Pass",
-      "POS=X",
-      "POS=PRON|PronType=Tot",
-      "POS=SCONJ|Typo=Yes",
-      "Number=Plur|POS=PRON|Person=2|Polite=Infm|PronType=Prs",
-      "NumType=Card|POS=NUM|Typo=Yes",
-      "Clusivity=Ex|Number=Plur|POS=PRON|Person=1|PronType=Prs",
-      "Number=Sing|POS=PRON|Person=2|Polite=Form|PronType=Prs",
-      "Foreign=Yes|POS=X",
-      "POS=ADV|PronType=Rel",
-      "Mood=Imp|POS=VERB|Voice=Act",
-      "Number=Sing|POS=NOUN|Typo=Yes",
-      "POS=PROPN|Typo=Yes",
-      "POS=DET",
-      "Number=Sing|POS=DET|PronType=Ind",
-      "POS=DET|PronType=Ind|Typo=Yes",
-      "Abbr=Yes|POS=DET|PronType=Dem",
-      "POS=PRON|PronType=Ind",
-      "POS=VERB|Typo=Yes",
-      "Abbr=Yes|POS=PROPN",
-      "Abbr=Yes|POS=PRON|PronType=Rel",
-      "Number=Plur|POS=PRON|PronType=Int",
-      "Abbr=Yes|POS=PART|Polarity=Neg",
-      "POS=ADV|PronType=Tot",
-      "Abbr=Yes|POS=ADV",
-      "POS=ADV|Typo=Yes",
-      "POS=X|Typo=Yes",
-      "Number=Sing|POS=PRON|Person=2|PronType=Prs",
-      "POS=ADV|PronType=Int|Typo=Yes",
-      "NumType=Ord|POS=ADJ|Typo=Yes"
-    ],
-    "parser":[
-      "ROOT",
-      "acl",
-      "acl:relcl",
-      "advcl",
-      "advmod",
-      "advmod:emph",
-      "amod",
-      "appos",
-      "aux",
-      "case",
-      "case:adv",
-      "cc",
-      "ccomp",
-      "compound",
-      "conj",
-      "cop",
-      "dep",
-      "det",
-      "fixed",
-      "flat",
-      "flat:foreign",
-      "flat:name",
-      "mark",
-      "nmod",
-      "nmod:lmod",
-      "nmod:poss",
-      "nmod:tmod",
-      "nsubj",
-      "nsubj:pass",
-      "nummod",
-      "obj",
-      "obl",
-      "obl:agent",
-      "obl:tmod",
-      "parataxis",
-      "punct",
-      "xcomp"
     ]
   },
   "pipeline":[
     "tok2vec",
-    "tagger",
-    "morphologizer",
-    "trainable_lemmatizer",
-    "parser"
   ],
   "components":[
     "tok2vec",
-    "tagger",
-    "morphologizer",
-    "trainable_lemmatizer",
-    "parser"
   ],
   "disabled":[
   ],
   "performance":{
-    "tag_acc":0.9051536414,
-    "pos_acc":0.9125297415,
-    "morph_acc":0.9296115526,
-    "morph_per_feat":{
-      "Number":{
-        "p":0.9799159271,
-        "r":0.8237141735,
-        "f":0.8950511945
-      },
-      "Mood":{
-        "p":0.997098646,
-        "r":0.9246636771,
-        "f":0.959516054
-      },
-      "Voice":{
-        "p":0.9942084942,
-        "r":0.9221128021,
-        "f":0.9568044589
-      },
-      "PronType":{
-        "p":0.9915662651,
-        "r":0.7786187323,
-        "f":0.8722840488
-      },
-      "Polarity":{
-        "p":1.0,
-        "r":0.862745098,
-        "f":0.9263157895
-      },
-      "Person":{
-        "p":1.0,
-        "r":0.4039735099,
-        "f":0.5754716981
-      },
-      "NumType":{
-        "p":0.9952606635,
-        "r":0.9480812641,
-        "f":0.9710982659
-      },
-      "Typo":{
-        "p":1.0,
-        "r":0.4,
-        "f":0.5714285714
-      },
-      "Definite":{
-        "p":0.9838709677,
-        "r":0.7922077922,
-        "f":0.8776978417
-      },
-      "Polite":{
-        "p":1.0,
-        "r":0.71875,
-        "f":0.8363636364
-      },
-      "Reflex":{
-        "p":1.0,
-        "r":0.5,
-        "f":0.6666666667
-      },
-      "Degree":{
-        "p":0.9375,
-        "r":0.8823529412,
-        "f":0.9090909091
-      },
-      "Foreign":{
-        "p":1.0,
-        "r":0.0625,
         "f":0.1176470588
       },
-      "Clusivity":{
-        "p":1.0,
-        "r":1.0,
-        "f":1.0
-      },
-      "Abbr":{
-        "p":1.0,
-        "r":0.2,
-        "f":0.3333333333
-      }
-    },
-    "lemma_acc":0.9369920335,
-    "dep_uas":0.7753785754,
-    "dep_las":0.6871555348,
-    "dep_las_per_type":{
-      "nsubj":{
-        "p":0.7731092437,
-        "r":0.7459459459,
-        "f":0.7592847318
-      },
-      "compound":{
-        "p":0.6962676963,
-        "r":0.6874205845,
-        "f":0.6918158568
-      },
-      "root":{
-        "p":0.7585616438,
-        "r":0.7924865832,
-        "f":0.7751531059
-      },
-      "obj":{
-        "p":0.7978142077,
-        "r":0.7630662021,
-        "f":0.7800534283
-      },
-      "case":{
-        "p":0.9049295775,
-        "r":0.8877374784,
-        "f":0.8962510898
-      },
-      "obl":{
-        "p":0.6753246753,
-        "r":0.6409861325,
-        "f":0.6577075099
-      },
-      "amod":{
-        "p":0.6421568627,
-        "r":0.568329718,
-        "f":0.6029919448
-      },
-      "conj":{
-        "p":0.5394736842,
-        "r":0.5354477612,
-        "f":0.5374531835
-      },
-      "cc":{
-        "p":0.8705882353,
-        "r":0.8433048433,
-        "f":0.8567293777
-      },
-      "acl:relcl":{
-        "p":0.7086614173,
-        "r":0.6428571429,
-        "f":0.6741573034
-      },
-      "flat:name":{
-        "p":0.7908571429,
-        "r":0.8218527316,
-        "f":0.8060570763
-      },
-      "advmod":{
-        "p":0.7546174142,
-        "r":0.7132169576,
-        "f":0.7333333333
-      },
-      "nmod":{
-        "p":0.6468085106,
-        "r":0.5435041716,
-        "f":0.5906735751
-      },
-      "nsubj:pass":{
-        "p":0.698630137,
-        "r":0.7083333333,
-        "f":0.7034482759
-      },
-      "det":{
-        "p":0.8745980707,
-        "r":0.7661971831,
-        "f":0.8168168168
-      },
-      "aux":{
-        "p":0.9064748201,
-        "r":0.9402985075,
-        "f":0.9230769231
-      },
-      "nmod:poss":{
-        "p":0.5714285714,
-        "r":0.0727272727,
-        "f":0.1290322581
-      },
-      "dep":{
-        "p":0.0967741935,
-        "r":0.0535714286,
-        "f":0.0689655172
       },
-      "mark":{
-        "p":0.8391959799,
-        "r":0.7076271186,
-        "f":0.767816092
       },
-      "cop":{
-        "p":0.9607843137,
-        "r":0.9423076923,
-        "f":0.9514563107
-      },
-      "acl":{
-        "p":0.2297297297,
-        "r":0.3035714286,
-        "f":0.2615384615
-      },
-      "nummod":{
-        "p":0.7834224599,
-        "r":0.7855227882,
-        "f":0.7844712182
-      },
-      "appos":{
-        "p":0.5615384615,
-        "r":0.553030303,
-        "f":0.5572519084
-      },
-      "xcomp":{
-        "p":0.3630573248,
-        "r":0.456,
-        "f":0.4042553191
-      },
-      "ccomp":{
-        "p":0.4,
-        "r":0.0408163265,
-        "f":0.0740740741
-      },
-      "obl:tmod":{
-        "p":0.6551724138,
-        "r":0.6229508197,
-        "f":0.6386554622
-      },
-      "advcl":{
-        "p":0.2831858407,
-        "r":0.2269503546,
-        "f":0.2519685039
-      },
-      "advmod:emph":{
-        "p":0.6666666667,
-        "r":0.0434782609,
-        "f":0.0816326531
-      },
-      "case:adv":{
         "p":0.6666666667,
-        "r":0.4615384615,
-        "f":0.5454545455
-      },
-      "obl:agent":{
-        "p":0.0,
-        "r":0.0,
-        "f":0.0
       },
-      "flat":{
-        "p":0.5185185185,
-        "r":0.3255813953,
-        "f":0.4
-      },
-      "parataxis":{
-        "p":0.25,
-        "r":0.1020408163,
-        "f":0.1449275362
-      },
-      "nmod:lmod":{
-        "p":0.8333333333,
-        "r":0.3846153846,
-        "f":0.5263157895
-      },
-      "flat:foreign":{
-        "p":0.0,
-        "r":0.0,
-        "f":0.0
       },
-      "nmod:tmod":{
-        "p":0.4,
-        "r":0.3636363636,
-        "f":0.380952381
       },
-      "iobj":{
-        "p":0.0,
-        "r":0.0,
-        "f":0.0
       },
-      "csubj":{
-        "p":0.0,
-        "r":0.0,
-        "f":0.0
       },
-      "fixed":{
         "p":0.5555555556,
-        "r":0.3846153846,
-        "f":0.4545454545
       },
-      "discourse":{
-        "p":0.0,
-        "r":0.0,
-        "f":0.0
       },
-      "cc:preconj":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
-      "compound:a":{
-        "p":0.0,
-        "r":0.0,
-        "f":0.0
       }
     },
-    "sents_p":0.8272425249,
-    "sents_r":0.8908765653,
-    "sents_f":0.857881137,
-    "tok2vec_loss":7567.4337583379,
-    "tagger_loss":736.1438090745,
-    "morphologizer_loss":1556.8932885677,
-    "trainable_lemmatizer_loss":350.339323577,
-    "parser_loss":10378.5765946195
   },
   "requirements":[

 {
   "lang":"id",
   "name":"core_news_sm",
+  "version":"0.0.1",
   "description":"",
   "author":"",
   "email":"",
   "url":"",
   "license":"",
+  "spacy_version":">=3.7.4,<3.8.0",
+  "spacy_git_version":"bff8725f4",
   "vectors":{
     "width":0,
     "vectors":0,
     "tok2vec":[
     ],
+    "ner":[
+      "CARDINAL",
+      "DATE",
+      "EVENT",
+      "FAC",
+      "GPE",
+      "LANGUAGE",
+      "LAW",
+      "LOC",
+      "MONEY",
+      "NORP",
+      "ORDINAL",
+      "ORG",
+      "PERCENT",
+      "PERSON",
+      "PRODUCT",
+      "QUANTITY",
+      "TIME",
+      "WORK_OF_ART"
     ]
   },
   "pipeline":[
     "tok2vec",
+    "ner"
   ],
   "components":[
     "tok2vec",
+    "ner"
   ],
   "disabled":[
   ],
   "performance":{
+    "ents_f":0.6362633321,
+    "ents_p":0.6721056721,
+    "ents_r":0.6040502793,
+    "ents_per_type":{
+      "PRODUCT":{
+        "p":0.3571428571,
+        "r":0.0704225352,
         "f":0.1176470588
       },
+      "GPE":{
+        "p":0.7411167513,
+        "r":0.7934782609,
+        "f":0.7664041995
       },
+      "LOC":{
+        "p":0.7142857143,
+        "r":0.4651162791,
+        "f":0.5633802817
       },
+      "FAC":{
         "p":0.6666666667,
+        "r":0.1666666667,
+        "f":0.2666666667
       },
+      "ORG":{
+        "p":0.4651162791,
+        "r":0.3174603175,
+        "f":0.3773584906
       },
+      "PERSON":{
+        "p":0.6809815951,
+        "r":0.6434782609,
+        "f":0.6616989568
       },
+      "WORK_OF_ART":{
+        "p":0.1785714286,
+        "r":0.4,
+        "f":0.2469135802
+      },
+      "DATE":{
+        "p":0.75,
+        "r":0.7804878049,
+        "f":0.764940239
+      },
+      "ORDINAL":{
+        "p":0.6956521739,
+        "r":0.5925925926,
+        "f":0.64
+      },
+      "CARDINAL":{
+        "p":0.7155963303,
+        "r":0.75,
+        "f":0.7323943662
+      },
+      "NORP":{
+        "p":0.7894736842,
+        "r":0.4918032787,
+        "f":0.6060606061
+      },
+      "LAW":{
+        "p":0.8,
+        "r":0.3333333333,
+        "f":0.4705882353
+      },
+      "QUANTITY":{
+        "p":0.6666666667,
+        "r":0.5925925926,
+        "f":0.6274509804
       },
+      "EVENT":{
+        "p":0.6875,
+        "r":0.2619047619,
+        "f":0.3793103448
       },
+      "PERCENT":{
         "p":0.5555555556,
+        "r":0.7142857143,
+        "f":0.625
       },
+      "LANGUAGE":{
+        "p":0.8,
+        "r":0.9230769231,
+        "f":0.8571428571
       },
+      "MONEY":{
         "p":0.0,
         "r":0.0,
         "f":0.0
       },
+      "TIME":{
+        "p":0.5,
+        "r":1.0,
+        "f":0.6666666667
       }
     },
+    "tok2vec_loss":457.675804386,
+    "ner_loss":1277.2143377495
   },
   "requirements":[

ner/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":1,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

ner/model ADDED Viewed

Binary file (186 kB). View file

ner/moves ADDED Viewed

	@@ -0,0 +1 @@

+ ��moves��{"0":{},"1":{"GPE":3540,"PERSON":3236,"ORG":1843,"DATE":1451,"CARDINAL":743,"WORK_OF_ART":705,"PRODUCT":642,"EVENT":629,"LOC":491,"FAC":486,"QUANTITY":429,"NORP":427,"LANGUAGE":194,"ORDINAL":177,"LAW":137,"PERCENT":126,"TIME":103,"MONEY":65},"2":{"GPE":3540,"PERSON":3236,"ORG":1843,"DATE":1451,"CARDINAL":743,"WORK_OF_ART":705,"PRODUCT":642,"EVENT":629,"LOC":491,"FAC":486,"QUANTITY":429,"NORP":427,"LANGUAGE":194,"ORDINAL":177,"LAW":137,"PERCENT":126,"TIME":103,"MONEY":65},"3":{"GPE":3540,"PERSON":3236,"ORG":1843,"DATE":1451,"CARDINAL":743,"WORK_OF_ART":705,"PRODUCT":642,"EVENT":629,"LOC":491,"FAC":486,"QUANTITY":429,"NORP":427,"LANGUAGE":194,"ORDINAL":177,"LAW":137,"PERCENT":126,"TIME":103,"MONEY":65},"4":{"GPE":3540,"PERSON":3236,"ORG":1843,"DATE":1451,"CARDINAL":743,"WORK_OF_ART":705,"PRODUCT":642,"EVENT":629,"LOC":491,"FAC":486,"QUANTITY":429,"NORP":427,"LANGUAGE":194,"ORDINAL":177,"LAW":137,"PERCENT":126,"TIME":103,"MONEY":65,"":1},"5":{"":1}}�cfg��neg_key�

tok2vec/model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b0c198567f39ac6146d7716317c079ec7977eeac835e0e6d3fb926c4076d8e6
 size 34126801

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2f4155df88b3296a30602bab1237736752867c37007f3d4b05233c2e0c46780
 size 34126801

vocab/strings.json CHANGED Viewed

The diff for this file is too large to render. See raw diff