melll-uff
/

bertweetbr

@@ -19,15 +19,16 @@ model = AutoModel.from_pretrained('melll-uff/bertweetbr')
 tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
 # INPUT TWEETS ALREADY NORMALIZED!
-line = [
     "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
     "Que jogo ontem @USER :mãos_juntas:",
-    "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:"]
-encoded_input = tokenizer(line, return_tensors="pt", padding=True)
 with torch.no_grad():
-    last_hidden_states = model(**encoded_input)
 # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
 last_hidden_states[0][:,0,:]
@@ -43,7 +44,21 @@ from transformers import AutoModel, AutoTokenizer
 model = AutoModel.from_pretrained('melll-uff/bertweetbr')
 tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
 tokenizer.demojizer = lambda x: demojize(x, language='pt')
 ```
  ### Mask Filling with Pipeline
@@ -55,9 +70,9 @@ model_name = 'melll-uff/bertweetbr'
 tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
 filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
 filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
 [{'sequence': 'Rio é a melhor cidade do Brasil.',
   'score': 0.9871652126312256,
   'token': 120,

 tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
 # INPUT TWEETS ALREADY NORMALIZED!
+inputs = [
     "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
     "Que jogo ontem @USER :mãos_juntas:",
+    "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
+    "Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
+encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
 with torch.no_grad():
+    last_hidden_states = model(**encoded_inputs)
 # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
 last_hidden_states[0][:,0,:]
 model = AutoModel.from_pretrained('melll-uff/bertweetbr')
 tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
+inputs = [
+    "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim 🎵",
+    "Que jogo ontem @cristiano 🙏",
+    "Demojizer para Python é 👍 e está disponível em https://pypi.org/project/emoji/"]
 tokenizer.demojizer = lambda x: demojize(x, language='pt')
+[tokenizer.tokenize(s) for s in inputs]
+# Tokenizer first normalize sentences
+['Procuro', 'um', 'amor', ',', 'que', 'seja', 'bom', 'pra', 'mim', '...', 'vou', 'procurar', ',', 'eu', 'vou', 'até', 'o', 'fim', ':nota_musical:']
+['Que', 'jogo', 'ontem', '@USER', ':mãos_juntas:']
+['D@@', 'emo@@', 'j@@', 'izer', 'para', 'Py@@', 'thon', 'é', ':polegar_para_cima:', 'e', 'está', 'disponível', 'em', 'HTTPURL']
 ```
  ### Mask Filling with Pipeline
 tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
 filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
 filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
+# Output
 [{'sequence': 'Rio é a melhor cidade do Brasil.',
   'score': 0.9871652126312256,
   'token': 120,