Spaces:

Roman79
/

citation-predictor2

Running

App Files Files Community

Roman79 commited on Apr 6

Commit

68ae6f5

verified ·

1 Parent(s): bd4ad87

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -11

app.py CHANGED Viewed

@@ -54,20 +54,24 @@ def to_class(pred: float) -> int:
     if pred < THRESHOLDS_5Y[2]: return 2
     return 3
 def compute_meta_from_inputs(
     publication_year: int,
     abstract: str,
     title: str,
     author_count: int,
-    s2_fields: list,
 ) -> torch.Tensor:
     meta = [
         float(publication_year) / 2026,
         float(np.log1p(len(abstract))),
         float(np.log1p(len(title))),
         float(np.log1p(min(author_count, 200))),
-        1.0 if len(s2_fields) > 0 else 0.0,
     ]
     return torch.tensor([meta], dtype=torch.float)
@@ -147,19 +151,15 @@ def predict(title: str, abstract: str, meta_tensor: torch.Tensor):
     est_citations   = float(np.expm1(max(score, 0)))   # inverse of log1p
     return pred_class, score, est_citations
 st.title("📊 Citation Impact Predictor")
 st.markdown("""
 ### 🤔 Зачем это нужно?
 Узнать заранее по названию абстракту, числу авторов, году выхода и наличию открытого доступа стоит ли вообще тратить время на изучение статьи
 Мы делим работы на 4 категории:
 - 🗑️ **Мусор** — не стоит читать
 - 📄 **Середняк** — можно читать, если это ваша область и более сильных работ сейчас нет
 - 📈 **Сильная работа** — стоит обратить внимание
 - 🏆 **Топ** — читать обязательно
 💡 Это не заменяет экспертную оценку —
 но помогает быстро отфильтровать поток научных работ.
 """)
@@ -187,8 +187,6 @@ st.sidebar.header("🔢 Metadata")
 pub_year      = st.sidebar.number_input("Publication year", 2000, 2024, 2020)
 author_count  = st.sidebar.number_input("Author count", min_value=1, max_value=200, value=3)
-has_s2_fields = st.sidebar.checkbox("Has field-of-study tags?", value=True)
-s2_fields     = ["Computer Science"] if has_s2_fields else []
 # ── Main panel: wide left for input, narrow right for button ──────────────────
 col_left, col_right = st.columns([4, 1])
@@ -241,12 +239,12 @@ if run:
     if not title and not abstract:
         st.warning("Please provide at least a title or abstract.")
     else:
         meta_tensor = compute_meta_from_inputs(
             publication_year=int(pub_year),
             abstract=abstract,
             title=title,
-            author_count=int(author_count),
-            s2_fields=s2_fields,
         )
         with st.spinner("Running inference…"):
@@ -312,4 +310,4 @@ st.caption(
     "Model: fine-tuned `allenai/specter2_base` · "
     "Classes defined by log1p(5-year citations) thresholds [1.5, 3.5, 5.5] · "
     "© 2026 Citation Predictor"
-)

     if pred < THRESHOLDS_5Y[2]: return 2
     return 3
+def noise_score(text: str) -> float:
+    """Доля букв в тексте — простая метрика осмысленности"""
+    letters = sum(c.isalpha() for c in text)
+    return letters / max(len(text), 1)
 def compute_meta_from_inputs(
     publication_year: int,
     abstract: str,
     title: str,
     author_count: int,
 ) -> torch.Tensor:
+    text = (title + " " + abstract).strip()
     meta = [
         float(publication_year) / 2026,
         float(np.log1p(len(abstract))),
         float(np.log1p(len(title))),
         float(np.log1p(min(author_count, 200))),
+        noise_score(text)  # осмысленность текста
     ]
     return torch.tensor([meta], dtype=torch.float)
     est_citations   = float(np.expm1(max(score, 0)))   # inverse of log1p
     return pred_class, score, est_citations
 st.title("📊 Citation Impact Predictor")
 st.markdown("""
 ### 🤔 Зачем это нужно?
 Узнать заранее по названию абстракту, числу авторов, году выхода и наличию открытого доступа стоит ли вообще тратить время на изучение статьи
 Мы делим работы на 4 категории:
 - 🗑️ **Мусор** — не стоит читать
 - 📄 **Середняк** — можно читать, если это ваша область и более сильных работ сейчас нет
 - 📈 **Сильная работа** — стоит обратить внимание
 - 🏆 **Топ** — читать обязательно
 💡 Это не заменяет экспертную оценку —
 но помогает быстро отфильтровать поток научных работ.
 """)
 pub_year      = st.sidebar.number_input("Publication year", 2000, 2024, 2020)
 author_count  = st.sidebar.number_input("Author count", min_value=1, max_value=200, value=3)
 # ── Main panel: wide left for input, narrow right for button ──────────────────
 col_left, col_right = st.columns([4, 1])
     if not title and not abstract:
         st.warning("Please provide at least a title or abstract.")
     else:
+        text = (title + " " + abstract).strip()
         meta_tensor = compute_meta_from_inputs(
             publication_year=int(pub_year),
             abstract=abstract,
             title=title,
+            author_count=int(author_count)
         )
         with st.spinner("Running inference…"):
     "Model: fine-tuned `allenai/specter2_base` · "
     "Classes defined by log1p(5-year citations) thresholds [1.5, 3.5, 5.5] · "
     "© 2026 Citation Predictor"
+)