Ilia Tambovtsev commited on
Commit
7a0766b
·
1 Parent(s): dfee524

feat: add more corner cases to regex

Browse files
Files changed (1) hide show
  1. src/rag/preprocess.py +9 -3
src/rag/preprocess.py CHANGED
@@ -2,6 +2,7 @@ import re
2
  from dataclasses import dataclass
3
  from typing import List, Optional, Set
4
 
 
5
  import nltk
6
  from nltk.corpus import stopwords
7
 
@@ -42,10 +43,13 @@ class RegexQueryPreprocessor:
42
  self._patterns = {
43
  "presentation_patterns": [
44
  self.QueryPattern(
45
- r"^в какой презентации (?:был[аи]?|рассматривали?|говорили?|обсуждали?|показывали?|рассказывали?) ",
46
  ),
47
  self.QueryPattern(
48
- r"^в презентации (?:был[аио]?|рассматривали?|говорили?|обсуждали?|показывали?|сравнивали?) ",
 
 
 
49
  ),
50
  self.QueryPattern(
51
  r"^презентация (?:про|с|в которой|где|со?) ",
@@ -126,11 +130,13 @@ if __name__ == "__main__":
126
 
127
  import fire
128
 
 
 
129
  class CLI:
130
  """Command line interface for QueryPreprocessor."""
131
 
132
  def __init__(self):
133
- self.preprocessor = QueryPreprocessor()
134
 
135
  def clean(self, *queries: str, remove_stopwords: bool = True) -> None:
136
  """
 
2
  from dataclasses import dataclass
3
  from typing import List, Optional, Set
4
 
5
+ from dotenv import load_dotenv
6
  import nltk
7
  from nltk.corpus import stopwords
8
 
 
43
  self._patterns = {
44
  "presentation_patterns": [
45
  self.QueryPattern(
46
+ r"^в какой презентации (?:был[аи]?|рассматривали?|говорили?|обсуждали?|показывали?|рассказывали?|перечисляли?) ",
47
  ),
48
  self.QueryPattern(
49
+ r"^в презентации (?:был[аио]?|рассматривал?|говорил?|обсуждал?|показывал?|сравнивал?)(?:и?|ась|ось|а) ",
50
+ ),
51
+ self.QueryPattern(
52
+ r"^презентация (?:про|с|в которой|где|со?) ",
53
  ),
54
  self.QueryPattern(
55
  r"^презентация (?:про|с|в которой|где|со?) ",
 
130
 
131
  import fire
132
 
133
+ load_dotenv()
134
+
135
  class CLI:
136
  """Command line interface for QueryPreprocessor."""
137
 
138
  def __init__(self):
139
+ self.preprocessor = RegexQueryPreprocessor()
140
 
141
  def clean(self, *queries: str, remove_stopwords: bool = True) -> None:
142
  """