antimoda1 commited on
Commit
8199364
·
1 Parent(s): f6aad86
Files changed (2) hide show
  1. app.py +2 -2
  2. vocabulary/parse_vocabulary.py +12 -5
app.py CHANGED
@@ -4,7 +4,7 @@ import plotly.express as px
4
  import plotly.graph_objects as go
5
  import pandas as pd
6
  from generation import wrap_prompt
7
- # from llm import get_llm_answer
8
  from retrieval import Retrieval
9
  from _2_splitting import YEAR_OLD, YEAR_NEW
10
  from vocabulary.parse_vocabulary import parse_vocabulary
@@ -491,5 +491,5 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
491
 
492
  if __name__ == "__main__":
493
  iface.launch(ssr_mode=False,
494
- # share=True
495
  )
 
4
  import plotly.graph_objects as go
5
  import pandas as pd
6
  from generation import wrap_prompt
7
+ from llm import get_llm_answer
8
  from retrieval import Retrieval
9
  from _2_splitting import YEAR_OLD, YEAR_NEW
10
  from vocabulary.parse_vocabulary import parse_vocabulary
 
491
 
492
  if __name__ == "__main__":
493
  iface.launch(ssr_mode=False,
494
+ share=True
495
  )
vocabulary/parse_vocabulary.py CHANGED
@@ -2,7 +2,8 @@ def parse_vocabulary(filepath):
2
  """
3
  Парсит файл vocabulary.md и возвращает словарь: термин -> определение
4
 
5
- Формат файла:
 
6
  ### Термин1, Синоним1, Синоним2
7
  Определение термина
8
 
@@ -18,10 +19,15 @@ def parse_vocabulary(filepath):
18
  while i < len(lines):
19
  line = lines[i].strip()
20
 
21
- # Если это заголовок (начинается с ###)
22
- if line.startswith('###'):
 
 
 
 
 
23
  # Взять текст после ###
24
- terms_line = line[3:].strip()
25
 
26
  # Разбить на отдельные термины (синонимы разделены ", ")
27
  terms = [term.strip() for term in terms_line.split(',')]
@@ -31,7 +37,8 @@ def parse_vocabulary(filepath):
31
  definition = ''
32
  while i < len(lines):
33
  def_line = lines[i].strip()
34
- if def_line and not def_line.startswith('###'):
 
35
  definition = def_line
36
  break
37
  i += 1
 
2
  """
3
  Парсит файл vocabulary.md и возвращает словарь: термин -> определение
4
 
5
+ Новый формат файла:
6
+ ## Категория
7
  ### Термин1, Синоним1, Синоним2
8
  Определение термина
9
 
 
19
  while i < len(lines):
20
  line = lines[i].strip()
21
 
22
+ # Пропускаем категории (##)
23
+ if line.startswith('## '):
24
+ i += 1
25
+ continue
26
+
27
+ # Если это заголовок термина (начинается с ###)
28
+ if line.startswith('### '):
29
  # Взять текст после ###
30
+ terms_line = line[4:].strip()
31
 
32
  # Разбить на отдельные термины (синонимы разделены ", ")
33
  terms = [term.strip() for term in terms_line.split(',')]
 
37
  definition = ''
38
  while i < len(lines):
39
  def_line = lines[i].strip()
40
+ # Если это не пустая строка и не заголовок
41
+ if def_line and not def_line.startswith('###') and not def_line.startswith('## '):
42
  definition = def_line
43
  break
44
  i += 1