datbkpro commited on
Commit
f16065f
·
verified ·
1 Parent(s): 673edb9

Update config/settings.py

Browse files
Files changed (1) hide show
  1. config/settings.py +15 -11
config/settings.py CHANGED
@@ -70,7 +70,11 @@ class Settings:
70
  DEFAULT_EMBEDDING_MODEL = 'sentence-transformers/all-MiniLM-L6-v2'
71
  DEFAULT_LLM_MODEL = "llama-3.1-8b-instant"
72
 
73
- # Whisper Settings - TỐI ƯU HÓA
 
 
 
 
74
  WHISPER_MODEL = "whisper-large-v3"
75
 
76
  # TTS Settings
@@ -84,19 +88,19 @@ class Settings:
84
  EMBEDDING_DIMENSION = 768
85
  TOP_K_RESULTS = 5
86
 
87
- # Audio Processing Settings - TỐI ƯU HÓA QUAN TRỌNG
88
  SAMPLE_RATE = 16000
89
  AUDIO_CHUNK_SIZE = 1024
90
- AUDIO_SILENCE_THRESHOLD = 0.003 # Giảm ngưỡng cho nhạy hơn
91
- MIN_AUDIO_DURATION = 0.8 # Tăng thời gian tối thiểu
92
- MAX_AUDIO_DURATION = 15.0 # Tăng thời gian tối đa
93
 
94
- # SpeechBrain VAD Settings - TỐI ƯU HÓA QUAN TRỌNG
95
  VAD_MODEL = "snakers4/silero-vad"
96
- VAD_THRESHOLD = 0.3 # Tăng threshold để ổn định hơn
97
- VAD_MIN_SPEECH_DURATION = 1.0 # Thời gian speech tối thiểu
98
- VAD_MIN_SILENCE_DURATION = 2.0 # Thời gian silence tối thiểu để kết thúc
99
- VAD_SPEECH_PAD_DURATION = 0.5 # Tăng padding
100
- VAD_PRE_SPEECH_BUFFER = 0.3 # Thêm buffer trước khi speech
101
 
102
  settings = Settings()
 
70
  DEFAULT_EMBEDDING_MODEL = 'sentence-transformers/all-MiniLM-L6-v2'
71
  DEFAULT_LLM_MODEL = "llama-3.1-8b-instant"
72
 
73
+ # OCR Settings - THÊM CÀI ĐẶT OCR
74
+ OCR_MODEL = "kha-white/manga-ocr-base" # OCR cho tiếng Việt và đa ngôn ngữ
75
+ EASYOCR_LANGUAGES = ['vi', 'en', 'fr', 'es', 'de', 'ja', 'ko', 'zh'] # Ngôn ngữ hỗ trợ
76
+
77
+ # Whisper Settings
78
  WHISPER_MODEL = "whisper-large-v3"
79
 
80
  # TTS Settings
 
88
  EMBEDDING_DIMENSION = 768
89
  TOP_K_RESULTS = 5
90
 
91
+ # Audio Processing Settings
92
  SAMPLE_RATE = 16000
93
  AUDIO_CHUNK_SIZE = 1024
94
+ AUDIO_SILENCE_THRESHOLD = 0.003
95
+ MIN_AUDIO_DURATION = 0.8
96
+ MAX_AUDIO_DURATION = 15.0
97
 
98
+ # VAD Settings
99
  VAD_MODEL = "snakers4/silero-vad"
100
+ VAD_THRESHOLD = 0.3
101
+ VAD_MIN_SPEECH_DURATION = 1.0
102
+ VAD_MIN_SILENCE_DURATION = 2.0
103
+ VAD_SPEECH_PAD_DURATION = 0.5
104
+ VAD_PRE_SPEECH_BUFFER = 0.3
105
 
106
  settings = Settings()