Fernando Carneiro
commited on
Commit
·
5c8dfaa
1
Parent(s):
f38ec9f
README
Browse files
README.md
CHANGED
|
@@ -19,15 +19,16 @@ model = AutoModel.from_pretrained('melll-uff/bertweetbr')
|
|
| 19 |
tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
|
| 20 |
|
| 21 |
# INPUT TWEETS ALREADY NORMALIZED!
|
| 22 |
-
|
| 23 |
"Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
|
| 24 |
"Que jogo ontem @USER :mãos_juntas:",
|
| 25 |
-
"Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:"
|
|
|
|
| 26 |
|
| 27 |
-
|
| 28 |
|
| 29 |
with torch.no_grad():
|
| 30 |
-
last_hidden_states = model(**
|
| 31 |
|
| 32 |
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
| 33 |
last_hidden_states[0][:,0,:]
|
|
@@ -43,7 +44,21 @@ from transformers import AutoModel, AutoTokenizer
|
|
| 43 |
model = AutoModel.from_pretrained('melll-uff/bertweetbr')
|
| 44 |
tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
|
| 45 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 46 |
tokenizer.demojizer = lambda x: demojize(x, language='pt')
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 47 |
```
|
| 48 |
|
| 49 |
### Mask Filling with Pipeline
|
|
@@ -55,9 +70,9 @@ model_name = 'melll-uff/bertweetbr'
|
|
| 55 |
tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
|
| 56 |
|
| 57 |
filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
|
| 58 |
-
|
| 59 |
filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
|
| 60 |
|
|
|
|
| 61 |
[{'sequence': 'Rio é a melhor cidade do Brasil.',
|
| 62 |
'score': 0.9871652126312256,
|
| 63 |
'token': 120,
|
|
|
|
| 19 |
tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
|
| 20 |
|
| 21 |
# INPUT TWEETS ALREADY NORMALIZED!
|
| 22 |
+
inputs = [
|
| 23 |
"Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
|
| 24 |
"Que jogo ontem @USER :mãos_juntas:",
|
| 25 |
+
"Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
|
| 26 |
+
"Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
|
| 27 |
|
| 28 |
+
encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
|
| 29 |
|
| 30 |
with torch.no_grad():
|
| 31 |
+
last_hidden_states = model(**encoded_inputs)
|
| 32 |
|
| 33 |
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
| 34 |
last_hidden_states[0][:,0,:]
|
|
|
|
| 44 |
model = AutoModel.from_pretrained('melll-uff/bertweetbr')
|
| 45 |
tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
|
| 46 |
|
| 47 |
+
inputs = [
|
| 48 |
+
"Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim 🎵",
|
| 49 |
+
"Que jogo ontem @cristiano 🙏",
|
| 50 |
+
"Demojizer para Python é 👍 e está disponível em https://pypi.org/project/emoji/"]
|
| 51 |
+
|
| 52 |
tokenizer.demojizer = lambda x: demojize(x, language='pt')
|
| 53 |
+
|
| 54 |
+
[tokenizer.tokenize(s) for s in inputs]
|
| 55 |
+
|
| 56 |
+
# Tokenizer first normalize sentences
|
| 57 |
+
['Procuro', 'um', 'amor', ',', 'que', 'seja', 'bom', 'pra', 'mim', '...', 'vou', 'procurar', ',', 'eu', 'vou', 'até', 'o', 'fim', ':nota_musical:']
|
| 58 |
+
['Que', 'jogo', 'ontem', '@USER', ':mãos_juntas:']
|
| 59 |
+
['D@@', 'emo@@', 'j@@', 'izer', 'para', 'Py@@', 'thon', 'é', ':polegar_para_cima:', 'e', 'está', 'disponível', 'em', 'HTTPURL']
|
| 60 |
+
|
| 61 |
+
|
| 62 |
```
|
| 63 |
|
| 64 |
### Mask Filling with Pipeline
|
|
|
|
| 70 |
tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
|
| 71 |
|
| 72 |
filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
|
|
|
|
| 73 |
filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
|
| 74 |
|
| 75 |
+
# Output
|
| 76 |
[{'sequence': 'Rio é a melhor cidade do Brasil.',
|
| 77 |
'score': 0.9871652126312256,
|
| 78 |
'token': 120,
|