Spaces:

datbkpro
/

voicebot

Sleeping

App Files Files Community

datbkpro commited on Oct 21, 2025

Commit

5b64acb

verified ·

1 Parent(s): 5b4cd8d

Update core/multilingual_manager.py

Browse files

Files changed (1) hide show

core/multilingual_manager.py +54 -54

core/multilingual_manager.py CHANGED Viewed

@@ -2,13 +2,15 @@ import re
 from typing import Dict, Tuple, Optional
 from sentence_transformers import SentenceTransformer
 from config.settings import settings
 class MultilingualManager:
     def __init__(self):
-        self.vietnamese_model = None
-        self.multilingual_model = None
-        self.current_language = 'vi'
         # Phát hiện thuộc ngôn ngữ dựa trên các mẫu ký tự và từ phổ biến
         self.language_patterns = {
             'vi': {
@@ -37,31 +39,45 @@ class MultilingualManager:
             },
             'ko': {
                 'chars': set('가-힣'),
-                'common_words': ['이', '그', '에', '를', '의', '에', '에서', '으로', '하다', '이다']
             },
             'zh': {
                 'chars': set('一-鿌'),
                 'common_words': ['的', '是', '在', '有', '和', '了', '人', '我', '他', '这']
             }
         }
-        self._initialize_models()
-    def _initialize_models(self):
-        """Khởi tạo các mô hình đa ngôn ngữ"""
-        try:
-            print("🔄 Đang tải mô hình embedding tiếng Việt...")
-            self.vietnamese_model = SentenceTransformer(settings.VIETNAMESE_EMBEDDING_MODEL)
-            print("✅ Đã tải mô hình embedding tiếng Việt")
-        except Exception as e:
-            print(f"❌ Lỗi tải mô hình embedding tiếng Việt: {e}")
-            self.vietnamese_model = None
-        try:
-            print("🔄 Đang tải mô hình embedding đa ngôn ngữ...")
-            self.multilingual_model = SentenceTransformer(settings.MULTILINGUAL_EMBEDDING_MODEL,trust_remote_code=True )
-            print("✅ Đã tải mô hình embedding đa ngôn ngữ")
-        except Exception as e:
-            print(f"❌ Lỗi tải mô hình embedding đa ngôn ngữ: {e}")
-            self.multilingual_model = None
     def detect_language(self, text: str) -> str:
         """Phát hiện ngôn ngữ với độ chính xác cao"""
@@ -102,45 +118,29 @@ class MultilingualManager:
                 return 'en'  # Default to English for other cases
         return detected_lang
     def get_embedding_model(self, language: str = None) -> Optional[SentenceTransformer]:
-        """Lấy mô hình embedding dựa trên ngôn ngữ đã phát hiện"""
-        lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
-        if lang == 'vi':
-            return self.vietnamese_model
-        else:
-            return self.multilingual_model
-    def get_llm_model_name(self, language: str = None) -> str:
-        """Lấy tên mô hình LLM dựa trên ngôn ngữ đã phát hiện"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
         if lang == 'vi':
-            return settings.VIETNAMESE_LLM_MODEL
         else:
-            return settings.MULTILINGUAL_LLM_MODEL
     def get_language_info(self, language: str = None) -> Dict:
-        """Lấy thông tin ngôn ngữ bao gồm mã và tên đầy đủ"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
-        model_info = {
-            'vi': {
-                'name': 'Tiếng Việt',
-                'embedding_model': settings.VIETNAMESE_EMBEDDING_MODEL,
-                'llm_model': settings.VIETNAMESE_LLM_MODEL,
-                'status': 'active' if self.vietnamese_model else 'inactive'
-            },
-            'other': {
-                'name': 'Multilingual',
-                'embedding_model': settings.MULTILINGUAL_EMBEDDING_MODEL,
-                'llm_model': settings.MULTILINGUAL_LLM_MODEL,
-                'status': 'active' if self.multilingual_model else 'inactive'
-            }
-        }
-        if lang == 'vi':
-            return model_info['vi']
-        else:
-            return model_info['other']

 from typing import Dict, Tuple, Optional
 from sentence_transformers import SentenceTransformer
 from config.settings import settings
+import logging
+logger = logging.getLogger(__name__)
 class MultilingualManager:
     def __init__(self):
+        self.embedding_model = None
+        self.current_language = 'vi'
         # Phát hiện thuộc ngôn ngữ dựa trên các mẫu ký tự và từ phổ biến
         self.language_patterns = {
             'vi': {
             },
             'ko': {
                 'chars': set('가-힣'),
+                'common_words': ['이', '그', '에', '를', 'の', '에', '에서', '으로', '하다', '이다']
             },
             'zh': {
                 'chars': set('一-鿌'),
                 'common_words': ['的', '是', '在', '有', '和', '了', '人', '我', '他', '这']
             }
         }
+        self._initialize_model()
+    def _initialize_model(self):
+        """Khởi tạo mô hình embedding với fallback"""
+        model_attempts = [
+            settings.VIETNAMESE_EMBEDDING_MODEL,
+            settings.MULTILINGUAL_EMBEDDING_MODEL,
+            settings.FALLBACK_EMBEDDING_MODEL,
+            'all-MiniLM-L6-v2',  # Model mặc định
+            'paraphrase-MiniLM-L6-v2'  # Model fallback cuối cùng
+        ]
+        for model_name in model_attempts:
+            try:
+                logger.info(f"🔄 Đang thử tải mô hình embedding: {model_name}")
+                self.embedding_model = SentenceTransformer(model_name)
+                logger.info(f"✅ Đã tải thành công mô hình: {model_name}")
+                break
+            except Exception as e:
+                logger.warning(f"❌ Không thể tải {model_name}: {e}")
+                continue
+        if self.embedding_model is None:
+            logger.error("❌ Không thể tải bất kỳ mô hình embedding nào!")
+            # Tạo một model đơn giản để tránh crash
+            try:
+                self.embedding_model = SentenceTransformer('all-MiniLM-L6-v2', device='cpu')
+            except:
+                # Fallback cứng
+                from sentence_transformers import SentenceTransformer as ST
+                self.embedding_model = ST('sentence-transformers/all-MiniLM-L6-v2')
     def detect_language(self, text: str) -> str:
         """Phát hiện ngôn ngữ với độ chính xác cao"""
                 return 'en'  # Default to English for other cases
         return detected_lang
     def get_embedding_model(self, language: str = None) -> Optional[SentenceTransformer]:
+        """Lấy mô hình embedding - sử dụng model chung cho tất cả ngôn ngữ"""
+        return self.embedding_model
+    def get_llm_model(self, language: str = None) -> str:
+        """Lấy tên mô hình LLM dựa trên ngôn ngữ"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
+        # Groq models - sử dụng model chung
         if lang == 'vi':
+            return "llama-3.1-8b-instant"  # Model Groq hỗ trợ tiếng Việt
         else:
+            return "llama-3.1-8b-instant"  # Model Groq đa ngôn ngữ
     def get_language_info(self, language: str = None) -> Dict:
+        """Lấy thông tin ngôn ngữ"""
         lang = language if language in settings.SUPPORTED_LANGUAGES else self.current_language
+        return {
+            'code': lang,
+            'name': settings.SUPPORTED_LANGUAGES.get(lang, 'Unknown'),
+            'embedding_model': getattr(self.embedding_model, 'get_sentence_embedding_dimension', 'N/A'),
+            'llm_model': self.get_llm_model(lang),
+            'status': 'active' if self.embedding_model else 'inactive'
+        }