Spaces:

ilan541
/

OncUponTim

Sleeping

ilan541 commited on Jun 30, 2022

Commit

65367f6

1 Parent(s): 9b4bd92

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,12 +9,39 @@ tokenizer = AutoTokenizer.from_pretrained('roberta-base')
 from transformers import TFAutoModelForSequenceClassification
 model = TFAutoModelForSequenceClassification.from_pretrained("ilan541/OncUponTim")
 def predict(your_text):
   # split the text
   # inference
-  inp = tokenizer(your_text, return_tensors='tf')
-  if np.argmax(softmax(model(inp).logits)) == 0:
     return 'This content is not of high standard. It needs editing. '
   else:
     return 'Promising content! Our algorithm predicts it will be very popular.'

 from transformers import TFAutoModelForSequenceClassification
 model = TFAutoModelForSequenceClassification.from_pretrained("ilan541/OncUponTim")
+def split_text(text, nb_splits):
+  cols = ['split_'+ str(i) for i in range(1, nb_splits+1)]
+  l = len(text)
+  chars = int(l/nb_splits)
+  out = []
+  for i in range(0, l, chars):
+    out.append(text[ i : i+chars])
+  return out
+def get_probs(list_of_portions):
+  y_pred_logits_0 = []
+  y_pred_logits_1 = []
+  for text in list_of_portions:
+    inp = tokenizer(text, return_tensors='tf')
+    y_pred = model(inp)
+    y_pred_logits_0.append(y_pred.logits[:,0])
+    y_pred_logits_1.append(y_pred.logits[:,1])
+  return np.mean(y_pred_logits_0), np.mean(y_pred_logits_1)
 def predict(your_text):
   # split the text
+  nb_splits = 3
+  splits = split_text(text, nb_splits)
+  y_logits_0, y_logits_1 = get_probs(splits)
   # inference
+  if np.argmax([y_logits_0, y_logits_1]) == 0:
     return 'This content is not of high standard. It needs editing. '
   else:
     return 'Promising content! Our algorithm predicts it will be very popular.'