Spaces:
Build error
Build error
Ilia Tambovtsev commited on
Commit ·
7a0766b
1
Parent(s): dfee524
feat: add more corner cases to regex
Browse files- src/rag/preprocess.py +9 -3
src/rag/preprocess.py
CHANGED
|
@@ -2,6 +2,7 @@ import re
|
|
| 2 |
from dataclasses import dataclass
|
| 3 |
from typing import List, Optional, Set
|
| 4 |
|
|
|
|
| 5 |
import nltk
|
| 6 |
from nltk.corpus import stopwords
|
| 7 |
|
|
@@ -42,10 +43,13 @@ class RegexQueryPreprocessor:
|
|
| 42 |
self._patterns = {
|
| 43 |
"presentation_patterns": [
|
| 44 |
self.QueryPattern(
|
| 45 |
-
r"^в какой презентации (?:был[аи]?|рассматривали?|говорили?|обсуждали?|показывали?|рассказывали?) ",
|
| 46 |
),
|
| 47 |
self.QueryPattern(
|
| 48 |
-
r"^в презентации (?:был[аио]?|рассматривал
|
|
|
|
|
|
|
|
|
|
| 49 |
),
|
| 50 |
self.QueryPattern(
|
| 51 |
r"^презентация (?:про|с|в которой|где|со?) ",
|
|
@@ -126,11 +130,13 @@ if __name__ == "__main__":
|
|
| 126 |
|
| 127 |
import fire
|
| 128 |
|
|
|
|
|
|
|
| 129 |
class CLI:
|
| 130 |
"""Command line interface for QueryPreprocessor."""
|
| 131 |
|
| 132 |
def __init__(self):
|
| 133 |
-
self.preprocessor =
|
| 134 |
|
| 135 |
def clean(self, *queries: str, remove_stopwords: bool = True) -> None:
|
| 136 |
"""
|
|
|
|
| 2 |
from dataclasses import dataclass
|
| 3 |
from typing import List, Optional, Set
|
| 4 |
|
| 5 |
+
from dotenv import load_dotenv
|
| 6 |
import nltk
|
| 7 |
from nltk.corpus import stopwords
|
| 8 |
|
|
|
|
| 43 |
self._patterns = {
|
| 44 |
"presentation_patterns": [
|
| 45 |
self.QueryPattern(
|
| 46 |
+
r"^в какой презентации (?:был[аи]?|рассматривали?|говорили?|обсуждали?|показывали?|рассказывали?|перечисляли?) ",
|
| 47 |
),
|
| 48 |
self.QueryPattern(
|
| 49 |
+
r"^в презентации (?:был[аио]?|рассматривал?|говорил?|обсуждал?|показывал?|сравнивал?)(?:и?|ась|ось|а) ",
|
| 50 |
+
),
|
| 51 |
+
self.QueryPattern(
|
| 52 |
+
r"^презентация (?:про|с|в которой|где|со?) ",
|
| 53 |
),
|
| 54 |
self.QueryPattern(
|
| 55 |
r"^презентация (?:про|с|в которой|где|со?) ",
|
|
|
|
| 130 |
|
| 131 |
import fire
|
| 132 |
|
| 133 |
+
load_dotenv()
|
| 134 |
+
|
| 135 |
class CLI:
|
| 136 |
"""Command line interface for QueryPreprocessor."""
|
| 137 |
|
| 138 |
def __init__(self):
|
| 139 |
+
self.preprocessor = RegexQueryPreprocessor()
|
| 140 |
|
| 141 |
def clean(self, *queries: str, remove_stopwords: bool = True) -> None:
|
| 142 |
"""
|