Fernando Carneiro commited on
Commit
5c8dfaa
·
1 Parent(s): f38ec9f
Files changed (1) hide show
  1. README.md +20 -5
README.md CHANGED
@@ -19,15 +19,16 @@ model = AutoModel.from_pretrained('melll-uff/bertweetbr')
19
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
20
 
21
  # INPUT TWEETS ALREADY NORMALIZED!
22
- line = [
23
  "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
24
  "Que jogo ontem @USER :mãos_juntas:",
25
- "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:"]
 
26
 
27
- encoded_input = tokenizer(line, return_tensors="pt", padding=True)
28
 
29
  with torch.no_grad():
30
- last_hidden_states = model(**encoded_input)
31
 
32
  # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
33
  last_hidden_states[0][:,0,:]
@@ -43,7 +44,21 @@ from transformers import AutoModel, AutoTokenizer
43
  model = AutoModel.from_pretrained('melll-uff/bertweetbr')
44
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
45
 
 
 
 
 
 
46
  tokenizer.demojizer = lambda x: demojize(x, language='pt')
 
 
 
 
 
 
 
 
 
47
  ```
48
 
49
  ### Mask Filling with Pipeline
@@ -55,9 +70,9 @@ model_name = 'melll-uff/bertweetbr'
55
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
56
 
57
  filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
58
-
59
  filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
60
 
 
61
  [{'sequence': 'Rio é a melhor cidade do Brasil.',
62
  'score': 0.9871652126312256,
63
  'token': 120,
 
19
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
20
 
21
  # INPUT TWEETS ALREADY NORMALIZED!
22
+ inputs = [
23
  "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
24
  "Que jogo ontem @USER :mãos_juntas:",
25
+ "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
26
+ "Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
27
 
28
+ encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
29
 
30
  with torch.no_grad():
31
+ last_hidden_states = model(**encoded_inputs)
32
 
33
  # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
34
  last_hidden_states[0][:,0,:]
 
44
  model = AutoModel.from_pretrained('melll-uff/bertweetbr')
45
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
46
 
47
+ inputs = [
48
+ "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim 🎵",
49
+ "Que jogo ontem @cristiano 🙏",
50
+ "Demojizer para Python é 👍 e está disponível em https://pypi.org/project/emoji/"]
51
+
52
  tokenizer.demojizer = lambda x: demojize(x, language='pt')
53
+
54
+ [tokenizer.tokenize(s) for s in inputs]
55
+
56
+ # Tokenizer first normalize sentences
57
+ ['Procuro', 'um', 'amor', ',', 'que', 'seja', 'bom', 'pra', 'mim', '...', 'vou', 'procurar', ',', 'eu', 'vou', 'até', 'o', 'fim', ':nota_musical:']
58
+ ['Que', 'jogo', 'ontem', '@USER', ':mãos_juntas:']
59
+ ['D@@', 'emo@@', 'j@@', 'izer', 'para', 'Py@@', 'thon', 'é', ':polegar_para_cima:', 'e', 'está', 'disponível', 'em', 'HTTPURL']
60
+
61
+
62
  ```
63
 
64
  ### Mask Filling with Pipeline
 
70
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
71
 
72
  filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
 
73
  filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
74
 
75
+ # Output
76
  [{'sequence': 'Rio é a melhor cidade do Brasil.',
77
  'score': 0.9871652126312256,
78
  'token': 120,