daihui.zhang commited on
Commit
9522b50
·
1 Parent(s): 1c053c4

update prompt keywords

Browse files
config/hotwords.json CHANGED
@@ -3,5 +3,10 @@
3
  "GO SIM": "GOSIM",
4
  "go sim": "GOSIM",
5
  "GO SAME": "GOSIM",
6
- "go same": "GOSIM"
 
 
 
 
 
7
  }
 
3
  "GO SIM": "GOSIM",
4
  "go sim": "GOSIM",
5
  "GO SAME": "GOSIM",
6
+ "go same": "GOSIM",
7
+ "GoSync": "GOSIM",
8
+ "CSN": "CSDN",
9
+ "CSDF": "CSDN",
10
+ "CSTN": "CSDN",
11
+ "OpenAZI": "Open AGI"
12
  }
config/keyword_list.txt DELETED
File without changes
config/keywords.txt ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ OpenAGI
2
+ GOSIM
3
+ Rust
4
+ LLaMA Factory
config/prompt.py CHANGED
@@ -13,24 +13,16 @@ hotwords_file = CONFIG_DIR / 'hotwords.txt'
13
  hotwords_json = json.loads((CONFIG_DIR / 'hotwords.json').read_text())
14
 
15
  # 翻译提示词
16
- keywords_list = [
17
- "GOSIM",
18
- "GO SIM",
19
- 'Rust',
20
- ]
21
- keywords_mapping_string = '\n'.join([
22
- f' * {value}'
23
- for value in keywords_list
24
- ])
25
 
26
  LLM_SYS_7B_PROMPT_EN = """
27
- 你是一位精通简体中文的专业翻译,尤其擅长将专业学术论文翻译成浅显易懂的科普文章。请你帮我将以下英文段落翻译成中文,风格与中文科普读物相似。
28
 
29
  规则:
30
  - 翻译时要准确传达原文的事实和背景;
31
  - 即使上意译也要保留原始段落格式,以及保留术语,例如 FLAC,JPEG 等。保留公司缩写,例如 Microsoft, Amazon, OpenAI 等;
32
  - 人物的名称不需要翻译;
33
- - 全角括号换成半角括号,并在左括号前面加半角空格,右括号后面加半角空格;
34
  - 在翻译专业术语时,第一次出现时要在括号里面写上英文原文,例如:“生成式 AI (Generative AI)”,之后就可以只写中文了;
35
  - 以下是常见的AI相关术语,这部分的术语不需要翻译;
36
 
@@ -40,14 +32,13 @@ LLM_SYS_7B_PROMPT_EN = """
40
  """.format(keywords_mapping_string=keywords_mapping_string)
41
 
42
  LLM_SYS_7B_PROMPT_ZH = """
43
- 你是一个英中文翻译专家,请将以下文本从中文翻译成英文,但保留所有英文专业术语、产品名称、代码片段和专有名词的原始英文形式。遇到英文专业术语或需要保留的内容时,请使用原始英文表达,不要翻译。
44
  翻译规则:
45
  1. 保留以下内容的原始英文形式,不翻译:
46
  - 技术术语和专业词汇
47
  - 产品名称、品牌名称
48
  - 代码片段、函数名、变量名
49
  - 专有名词、缩写和首字母缩略词
50
- - 网址、路径和文件名
51
  2. 翻译其余内容时,请确保:
52
  - 保持原文的段落结构
53
  - 翻译内容符合中文表达习惯
 
13
  hotwords_json = json.loads((CONFIG_DIR / 'hotwords.json').read_text())
14
 
15
  # 翻译提示词
16
+ keywords_list = [i.strip() for i in (CONFIG_DIR / 'keywords.txt').read_text().split('\n') if i.strip()]
17
+ keywords_mapping_string = '\n'.join([f' * {value}' for value in keywords_list ])
 
 
 
 
 
 
 
18
 
19
  LLM_SYS_7B_PROMPT_EN = """
20
+ 你是一个英中文翻译专家,尤其擅长将专业学术语言翻译成浅显易懂的口语。请你帮我将以下英文段落翻译成中文,风格与中文科普读物相似。
21
 
22
  规则:
23
  - 翻译时要准确传达原文的事实和背景;
24
  - 即使上意译也要保留原始段落格式,以及保留术语,例如 FLAC,JPEG 等。保留公司缩写,例如 Microsoft, Amazon, OpenAI 等;
25
  - 人物的名称不需要翻译;
 
26
  - 在翻译专业术语时,第一次出现时要在括号里面写上英文原文,例如:“生成式 AI (Generative AI)”,之后就可以只写中文了;
27
  - 以下是常见的AI相关术语,这部分的术语不需要翻译;
28
 
 
32
  """.format(keywords_mapping_string=keywords_mapping_string)
33
 
34
  LLM_SYS_7B_PROMPT_ZH = """
35
+ 你是一个中英文翻译专家,请将以下文本从中文翻译成英文,但保留所有英文专业术语、产品名称、代码片段和专有名词的原始英文形式。遇到英文专业术语或需要保留的内容时,请使用原始英文表达,不要翻译。
36
  翻译规则:
37
  1. 保留以下内容的原始英文形式,不翻译:
38
  - 技术术语和专业词汇
39
  - 产品名称、品牌名称
40
  - 代码片段、函数名、变量名
41
  - 专有名词、缩写和首字母缩略词
 
42
  2. 翻译其余内容时,请确保:
43
  - 保持原文的段落结构
44
  - 翻译内容符合中文表达习惯
config/settings.py CHANGED
@@ -13,9 +13,9 @@ logging.basicConfig(
13
  filename='translator.log',
14
  datefmt="%H:%M:%S"
15
  )
16
- # save pipelines data to disk
17
  SAVE_DATA_SAVE = False
18
- # Add terminal log
19
  console_handler = logging.StreamHandler()
20
  console_handler.setLevel(LOG_LEVEL)
21
  console_formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")
 
13
  filename='translator.log',
14
  datefmt="%H:%M:%S"
15
  )
16
+
17
  SAVE_DATA_SAVE = False
18
+
19
  console_handler = logging.StreamHandler()
20
  console_handler.setLevel(LOG_LEVEL)
21
  console_formatter = logging.Formatter("%(asctime)s - %(levelname)s - %(message)s")