Fernando Carneiro
commited on
Commit
·
5af2a4f
1
Parent(s):
24940da
README
Browse files
README.md
CHANGED
|
@@ -20,9 +20,8 @@ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=
|
|
| 20 |
|
| 21 |
# INPUT TWEETS ALREADY NORMALIZED!
|
| 22 |
inputs = [
|
| 23 |
-
"Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
|
| 24 |
-
"Que jogo ontem @USER :mãos_juntas:",
|
| 25 |
"Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
|
|
|
|
| 26 |
"Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
|
| 27 |
|
| 28 |
encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
|
|
@@ -32,6 +31,10 @@ with torch.no_grad():
|
|
| 32 |
|
| 33 |
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
| 34 |
last_hidden_states[0][:,0,:]
|
|
|
|
|
|
|
|
|
|
|
|
|
| 35 |
```
|
| 36 |
|
| 37 |
### Normalize raw input Tweets
|
|
@@ -58,7 +61,17 @@ tokenizer.demojizer = lambda x: demojize(x, language='pt')
|
|
| 58 |
'Que jogo ontem @USER :mãos_juntas:',
|
| 59 |
'Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL']
|
| 60 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 61 |
|
|
|
|
|
|
|
|
|
|
| 62 |
```
|
| 63 |
|
| 64 |
### Mask Filling with Pipeline
|
|
|
|
| 20 |
|
| 21 |
# INPUT TWEETS ALREADY NORMALIZED!
|
| 22 |
inputs = [
|
|
|
|
|
|
|
| 23 |
"Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
|
| 24 |
+
"Que jogo ontem @USER :mãos_juntas:",
|
| 25 |
"Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
|
| 26 |
|
| 27 |
encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
|
|
|
|
| 31 |
|
| 32 |
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
| 33 |
last_hidden_states[0][:,0,:]
|
| 34 |
+
|
| 35 |
+
tensor([[-0.1430, -0.1325, 0.1595, ..., -0.0802, -0.0153, -0.1358],
|
| 36 |
+
[-0.0108, 0.1415, 0.0695, ..., 0.1420, 0.1153, -0.0176],
|
| 37 |
+
[-0.1854, 0.1866, 0.3163, ..., -0.2117, 0.2123, -0.1907]])
|
| 38 |
```
|
| 39 |
|
| 40 |
### Normalize raw input Tweets
|
|
|
|
| 61 |
'Que jogo ontem @USER :mãos_juntas:',
|
| 62 |
'Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL']
|
| 63 |
|
| 64 |
+
encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
|
| 65 |
+
|
| 66 |
+
with torch.no_grad():
|
| 67 |
+
last_hidden_states = model(**encoded_inputs)
|
| 68 |
+
|
| 69 |
+
# CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
|
| 70 |
+
last_hidden_states[0][:,0,:]
|
| 71 |
|
| 72 |
+
tensor([[-0.1430, -0.1325, 0.1595, ..., -0.0802, -0.0153, -0.1358],
|
| 73 |
+
[-0.0108, 0.1415, 0.0695, ..., 0.1420, 0.1153, -0.0176],
|
| 74 |
+
[-0.1854, 0.1866, 0.3163, ..., -0.2117, 0.2123, -0.1907]])
|
| 75 |
```
|
| 76 |
|
| 77 |
### Mask Filling with Pipeline
|