melll-uff
/

bertweetbr

Model card Files Files and versions

Fernando Carneiro commited on Sep 11, 2022

Commit

1bcd20e

·

1 Parent(s): 786a2bc

README

Files changed (1) hide show

README.md +25 -3

README.md CHANGED Viewed

@@ -21,10 +21,10 @@ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=
 # INPUT TWEET IS ALREADY NORMALIZED!
 line = "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL"
-input_ids = tokenizer(line, return_tensors="pt")
 with torch.no_grad():
-    features = model(**input_ids)  # Models outputs are now tuples
 ```
  ### Normalize raw input Tweets
@@ -35,7 +35,7 @@ import torch
 from transformers import AutoModel, AutoTokenizer
 model = AutoModel.from_pretrained('melll-uff/bertweetbr')
-tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
 tokenizer.demojizer = lambda x: demojize(x, language='pt')
 ```
@@ -51,4 +51,26 @@ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=
 filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
 filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
 ```

 # INPUT TWEET IS ALREADY NORMALIZED!
 line = "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL"
+encoded_input = = tokenizer(line, return_tensors="pt")
 with torch.no_grad():
+    features = model(**encoded_input)  # Models outputs are now tuples
 ```
  ### Normalize raw input Tweets
 from transformers import AutoModel, AutoTokenizer
 model = AutoModel.from_pretrained('melll-uff/bertweetbr')
+tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
 tokenizer.demojizer = lambda x: demojize(x, language='pt')
 ```
 filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
 filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
+[{'sequence': 'Rio é a melhor cidade do Brasil.',
+  'score': 0.9871652126312256,
+  'token': 120,
+  'token_str': 'm e l h o r'},
+ {'sequence': 'Rio é a pior cidade do Brasil.',
+  'score': 0.005050931591540575,
+  'token': 316,
+  'token_str': 'p i o r'},
+ {'sequence': 'Rio é a maior cidade do Brasil.',
+  'score': 0.004420778248459101,
+  'token': 389,
+  'token_str': 'm a i o r'},
+ {'sequence': 'Rio é a minha cidade do Brasil.',
+  'score': 0.0021856199018657207,
+  'token': 38,
+  'token_str': 'm i n h a'},
+ {'sequence': 'Rio é a segunda cidade do Brasil.',
+  'score': 0.0002110043278662488,
+  'token': 667,
+  'token_str': 's e g u n d a'}]
 ```