Spaces:

TradaAI
/

Chatopus

Running

App Files Files Community

Chatopus / app /gemini_client.py

VietCat

update reranker

fd5dbb4 5 months ago

raw

history blame contribute delete

13.5 kB

	from google.generativeai.embedding import embed_content
	from google.generativeai.client import configure
	from google.generativeai.generative_models import GenerativeModel
	from loguru import logger
	from typing import Dict, List, Optional
	from google.generativeai.types import GenerationConfig, HarmCategory, HarmBlockThreshold

	from .request_limit_manager import RequestLimitManager
	from .utils import _safe_truncate
	from .config import get_settings


	class GeminiResponseError(Exception):
	"""Custom exception for non-retriable Gemini response issues like safety or token limits."""

	def __init__(self, message, finish_reason=None, usage_metadata=None):
	super().__init__(message)
	self.finish_reason = finish_reason
	self.usage_metadata = usage_metadata

	def __str__(self):
	usage_str = (
	f"Prompt: {self.usage_metadata.prompt_token_count}, Candidates: {self.usage_metadata.candidates_token_count}, Total: {self.usage_metadata.total_token_count}"
	if self.usage_metadata
	else "N/A"
	)
	return f"{super().__str__()} (Finish Reason: {self.finish_reason}, Usage: {usage_str})"


	class GeminiClient:
	def __init__(self):
	self.limit_manager = RequestLimitManager("gemini")
	settings = get_settings()
	num_keys = (
	len(settings.gemini_api_keys.split(",")) if settings.gemini_api_keys else 0
	)
	num_models = (
	len(settings.gemini_models.split(",")) if settings.gemini_models else 0
	)
	logger.info(
	f"[GEMINI_INIT] Limiter is considering {num_keys} API keys and {num_models} models."
	)
	self._cached_model = None
	self._cached_key = None
	self._cached_model_instance = None
	# Thêm cấu hình safety_settings để bỏ chặn các phản hồi bị coi là không an toàn
	self.safety_settings: Dict[HarmCategory, HarmBlockThreshold] = {
	HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_NONE,
	HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_NONE,
	HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_NONE,
	HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_NONE,
	}

	def _get_model_instance(self, key: str, model: str):
	"""
	Cache model instance để tránh recreate mỗi lần.
	"""
	if (
	self._cached_key == key
	and self._cached_model == model
	and self._cached_model_instance is not None
	):
	return self._cached_model_instance

	# Configure và tạo model instance mới
	configure(api_key=key)
	self._cached_model_instance = GenerativeModel(model)
	self._cached_key = key
	self._cached_model = model

	logger.info(
	f"[GEMINI] Created new model instance for key={key[:5]}...{key[-5:]} model={model}"
	)
	return self._cached_model_instance # noqa

	def _clear_cache_if_needed(self, new_key: str, new_model: str):
	"""
	Chỉ clear cache khi key/model thực sự thay đổi.
	"""
	if self._cached_key != new_key or self._cached_model != new_model:
	logger.info(
	f"[GEMINI] Clearing cache due to key/model change: {self._cached_key}->{new_key}, {self._cached_model}->{new_model}"
	)
	self._cached_model_instance = None
	self._cached_key = None
	self._cached_model = None

	def generate_text(self, prompt: str, **kwargs) -> str:
	last_error = None
	max_retries = 3

	for attempt in range(max_retries):
	try:
	# Lấy current key/model từ manager
	key, model = self.limit_manager.get_current_key_model()

	# Sử dụng cached model instance
	_model = self._get_model_instance(key, model)

	response = _model.generate_content(
	prompt, safety_settings=self.safety_settings, **kwargs
	)

	# Log toàn bộ nội dung response ở mức INFO để tiện gỡ lỗi
	logger.debug(f"[GEMINI][RAW_RESPONSE] {response}")

	# --- START: Cải tiến logic xử lý response ---
	# 1. Kiểm tra response có hợp lệ không
	if not response.candidates:
	# Lỗi này nên được coi là lỗi tạm thời, thử lại với key/model khác
	raise ValueError(
	"Gemini response is missing 'candidates' field. Retrying..."
	)

	candidate = response.candidates[0]
	finish_reason_name = getattr(
	getattr(candidate, "finish_reason", None), "name", "UNKNOWN"
	)
	# Kiểm tra xem có nội dung thực sự không
	# Sửa: Dùng getattr để tránh AttributeError nếu 'parts' không tồn tại
	has_content = bool(
	candidate.content and getattr(candidate.content, "parts", None)
	)

	# 2. Phân loại lỗi và xử lý
	# Case 1: Lỗi nội dung không thể thử lại (SAFETY, MAX_TOKENS, etc.)
	if finish_reason_name != "STOP":
	usage_metadata = (
	response.usage_metadata
	if hasattr(response, "usage_metadata")
	else None
	)
	error_message = f"Gemini response finished with non-OK reason: {finish_reason_name}."
	raise GeminiResponseError(
	error_message,
	finish_reason=finish_reason_name,
	usage_metadata=usage_metadata,
	)

	# Case 2: Lỗi có thể thử lại (STOP nhưng không có nội dung)
	if (
	not has_content
	): # Tại đây, ta biết chắc chắn finish_reason_name là "STOP"
	usage_metadata = (
	response.usage_metadata
	if hasattr(response, "usage_metadata")
	else None
	)
	last_error = GeminiResponseError(
	"Gemini response finished with STOP but has no content parts.",
	finish_reason="STOP_NO_CONTENT",
	usage_metadata=usage_metadata,
	)
	logger.warning(
	f"[GEMINI] Model returned STOP with no content. Retrying with another key/model... (Attempt {attempt + 1}/{max_retries})"
	)
	self.limit_manager.log_request(
	key, model, success=False, retry_delay=5
	)
	continue # Thử lại vòng lặp với key/model mới

	# Case 3: Thành công (STOP và có nội dung)
	self.limit_manager.log_request(key, model, success=True)
	if hasattr(response, "usage_metadata"):
	logger.info(
	f"[GEMINI][USAGE] Prompt Token Count: {response.usage_metadata.prompt_token_count} - Candidate Token Count: {response.usage_metadata.candidates_token_count} - Total Token Count: {response.usage_metadata.total_token_count}" # noqa
	)

	try:
	logger.debug(
	f"[GEMINI][TEXT_RESPONSE] {_safe_truncate(response.text)}"
	)
	return response.text
	except ValueError as ve:
	# Safety net: Nếu truy cập .text thất bại dù các kiểm tra trước đó đã qua,
	# coi như đây là lỗi STOP_NO_CONTENT và ném ra để tầng trên xử lý.
	usage_metadata = (
	response.usage_metadata
	if hasattr(response, "usage_metadata")
	else None
	)
	raise GeminiResponseError(
	f"Gemini response has no valid content part. Original error: {ve}",
	finish_reason="STOP_NO_CONTENT",
	usage_metadata=usage_metadata,
	) from ve
	# --- END: Cải tiến logic xử lý response ---
	except GeminiResponseError as e:
	# Lỗi nội dung, không thể retry bằng cách đổi key. Propagate lên.
	logger.error(f"[GEMINI] Non-retriable content error: {e}")
	raise e
	except Exception as e:
	import re

	msg = str(e)
	# Kiểm tra lỗi rate limit hoặc lỗi server (5xx)
	is_rate_limit = "429" in msg or "rate limit" in msg.lower()
	is_server_error = any(
	code in msg for code in ["500", "502", "503", "504"]
	)

	if is_rate_limit or is_server_error:
	retry_delay = 60 # Mặc định cho lỗi server
	if is_rate_limit:
	m = re.search(r"retry_delay.*?seconds: (\d+)", msg)
	if m:
	retry_delay = int(m.group(1))

	# Log lỗi và chặn cặp key/model hiện tại trong một khoảng thời gian
	self.limit_manager.log_request(
	key, model, success=False, retry_delay=retry_delay
	)

	error_type = "Rate limit" if is_rate_limit else "Server"
	logger.warning(
	f"[GEMINI] {error_type} error hit, will retry with new key/model "
	f"(attempt {attempt + 1}/{max_retries}). Error: {e}"
	)
	last_error = e
	continue # Tiếp tục vòng lặp để thử key/model mới
	else:
	# Các lỗi khác không phải rate limit hoặc server error (vd: network timeout, invalid argument)
	# sẽ được propagate lên để lớp llm.py/reranker.py xử lý retry với backoff.
	logger.error(
	f"[GEMINI] Unhandled error generating text, propagating up: {e}"
	)
	raise e

	raise last_error or RuntimeError("No available Gemini API key/model")

	def count_tokens(self, prompt: str) -> int:
	try:
	key, model = self.limit_manager.get_current_key_model()
	_model = self._get_model_instance(key, model)
	return _model.count_tokens(prompt).total_tokens
	except Exception as e:
	logger.error(f"[GEMINI] Error counting tokens: {e}")
	return 0

	def create_embedding(
	self, text: str, model: Optional[str] = None, task_type: str = "retrieval_query"
	) -> list:
	last_error = None
	max_retries = 3

	for attempt in range(max_retries):
	try:
	key, default_model = self.limit_manager.get_current_key_model()

	# Ưu tiên model được truyền vào parameter, chỉ fallback về default_model nếu không có
	use_model = model if model and model.strip() else default_model

	if not use_model:
	raise ValueError("No model specified for embedding")

	logger.debug(
	f"[GEMINI][EMBEDDING] Using model={use_model} (requested={model}, default={default_model}), task_type={task_type}"
	)

	configure(api_key=key)
	response = embed_content(
	model=use_model, content=text, task_type=task_type
	)

	self.limit_manager.log_request(key, use_model, success=True)
	logger.debug(
	f"[GEMINI][EMBEDDING][RAW_RESPONSE] {response['embedding'][:10]} ..... {response['embedding'][-10:]}"
	)
	return response["embedding"]

	except Exception as e:
	import re

	msg = str(e)
	if "429" in msg or "rate limit" in msg.lower():
	retry_delay = 60
	m_retry = re.search(r"retry_delay.*?seconds: (\d+)", msg)
	if m_retry:
	retry_delay = int(m_retry.group(1))

	# Log failure và trigger scan cho key/model mới
	self.limit_manager.log_request(
	key, use_model, success=False, retry_delay=retry_delay
	)

	logger.warning(
	f"[GEMINI] Rate limit hit in embedding, will retry with new key/model (attempt {attempt + 1}/{max_retries})"
	)
	last_error = e
	continue
	else:
	logger.error(f"[GEMINI] Error creating embedding: {e}")
	last_error = e
	break

	raise last_error or RuntimeError("No available Gemini API key/model")