kilo-k

Sleeping

App Files Files Community

letterm commited on Nov 1, 2025

Commit

9875b72

verified ·

1 Parent(s): 8acb2f9

Upload 8 files

Browse files

Files changed (8) hide show

.py +70 -0
Dockerfile +12 -0
app.py +120 -0
config.yaml +9 -0
requirements.txt +6 -0
search.py +109 -0
tag_extractor.py +272 -0
translations_converted.json +0 -0

.py ADDED Viewed

	@@ -0,0 +1,70 @@

+import os
+import json
+import argparse
+def extract_pairs(obj):
+    """
+    递归提取 obj 中所有键值对（仅当键和值均为字符串时）。
+    返回一个字典，包含所有提取到的键值对。
+    """
+    pairs = {}
+    if isinstance(obj, dict):
+        for key, value in obj.items():
+            # 如果键和值均为字符串，则记录该对
+            if isinstance(key, str) and isinstance(value, str):
+                if key in pairs and pairs[key] != value:
+                    print(f"警告：键 '{key}' 重复，但值不同：'{pairs[key]}' 与 '{value}'。保留首次出现的值。")
+                else:
+                    pairs[key] = value
+            # 无论 value 是否为字符串，都递归检查其内部结构
+            sub_pairs = extract_pairs(value)
+            for sub_key, sub_value in sub_pairs.items():
+                if sub_key in pairs and pairs[sub_key] != sub_value:
+                    print(f"警告：键 '{sub_key}' 重复，但值不同：'{pairs[sub_key]}' 与 '{sub_value}'。保留首次出现的值。")
+                else:
+                    pairs[sub_key] = sub_value
+    elif isinstance(obj, list):
+        for item in obj:
+            sub_pairs = extract_pairs(item)
+            for sub_key, sub_value in sub_pairs.items():
+                if sub_key in pairs and pairs[sub_key] != sub_value:
+                    print(f"警告：键 '{sub_key}' 重复，但值不同：'{pairs[sub_key]}' 与 '{sub_value}'。保留首次出现的值。")
+                else:
+                    pairs[sub_key] = sub_value
+    return pairs
+def merge_json_pairs(directory, output_file):
+    """
+    遍历指定目录下所有 JSON 文件，
+    提取每个文件中所有层级的键值对（仅当键和值均为字符串时），
+    并将它们合并到一个平面字典中，最后写入 output_file。
+    """
+    merged_pairs = {}
+    for filename in os.listdir(directory):
+        if filename.endswith(".json"):
+            file_path = os.path.join(directory, filename)
+            try:
+                with open(file_path, "r", encoding="utf-8") as f:
+                    data = json.load(f)
+                file_pairs = extract_pairs(data)
+                for key, value in file_pairs.items():
+                    if key in merged_pairs and merged_pairs[key] != value:
+                        print(f"警告：文件 '{filename}' 中键 '{key}' 的值 '{value}' 与之前值 '{merged_pairs[key]}' 不同，保留首次出现的值。")
+                    else:
+                        merged_pairs[key] = value
+            except Exception as e:
+                print(f"读取文件 '{filename}' 时发生错误：{e}")
+    try:
+        with open(output_file, "w", encoding="utf-8") as out_f:
+            json.dump(merged_pairs, out_f, ensure_ascii=False, indent=4)
+        print(f"合并后的键值对已写入：{output_file}")
+    except Exception as e:
+        print(f"写入输出文件 '{output_file}' 时发生错误：{e}")
+if __name__ == '__main__':
+    directory = 'public\TagJson'
+    output_file = 'TagJson.json'
+    merge_json_pairs(directory, output_file)

Dockerfile ADDED Viewed

	@@ -0,0 +1,12 @@

+FROM python:3.10-slim
+WORKDIR /app
+RUN pip install Flask==2.3.3 requests==2.31.0 beautifulsoup4==4.13.0 PyYAML==6.0.1 jieba==0.42.1 python-Levenshtein==0.21.1
+COPY . .
+ENV PORT=3000
+EXPOSE 3000
+CMD ["python", "app.py"]

app.py ADDED Viewed

	@@ -0,0 +1,120 @@

+import os
+import json
+import requests
+from flask import Flask, jsonify, send_from_directory, request, abort
+from flask_cors import CORS
+from tag_extractor import tag_extractorbp
+from search import search_blueprint
+app = Flask(__name__)
+CORS(app)  # 允许所有跨域请求
+TAG_JSON_DIR = os.path.join(os.getcwd(), 'public', 'TagJson')
+TURNSTILE_SECRET_KEY = "xxx"
+app.register_blueprint(search_blueprint, url_prefix='/search')
+app.register_blueprint(tag_extractorbp, url_prefix='/api')
+@app.route('/')
+def index():
+    return send_from_directory('static/frontend', 'index.html')
+# 用于Turnstile验证的新接口
+@app.route('/api/verify-turnstile', methods=['POST'])
+def verify_turnstile():
+    data = request.get_json()
+    token = data.get('token')
+    if not token:
+        return jsonify({"success": False, "message": "缺少Token。"}), 400
+    # 使用Cloudflare进行验证
+    try:
+        response = requests.post(
+            'https://challenges.cloudflare.com/turnstile/v0/siteverify',
+            data={
+                'secret': TURNSTILE_SECRET_KEY,
+                'response': token,
+            }
+        )
+        response.raise_for_status() # 如果请求失败 (状态码 4xx or 5xx), 抛出异常
+        result = response.json()
+        if result.get('success'):
+            return jsonify({"success": True, "message": "验证成功。"}), 200
+        else:
+            error_codes = result.get('error-codes', [])
+            return jsonify({"success": False, "message": "验证失败。", "error-codes": error_codes}), 400
+    except requests.exceptions.RequestException as e:
+        return jsonify({"success": False, "message": f"连接验证服务器时出错: {e}"}), 500
+# 列出TagJson目录中的所有JSON文件
+@app.route('/api/json-files', methods=['GET'])
+def get_json_files():
+    try:
+        # 获取目录下的所有文件名
+        files = [f for f in os.listdir(TAG_JSON_DIR) if f.endswith('.json')]
+        return jsonify(files), 200
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
+# 获取指定JSON文件中的字典键
+@app.route('/api/json-files/<filename>/keys', methods=['GET'])
+def get_json_file_keys(filename):
+    if not filename.endswith('.json'):
+        abort(400, description="Invalid file extension")
+    file_path = os.path.join(TAG_JSON_DIR, filename)
+    # 检查文件是否存在
+    if not os.path.exists(file_path):
+        abort(404, description="File not found")
+    try:
+        # 打开文件并提取字典的键
+        with open(file_path, 'r', encoding='utf-8') as f:
+            data = json.load(f)
+        keys = list(data.keys())  # 获取字典的所有键
+        return jsonify(keys), 200
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
+# 获取指定JSON文件和字典键的内容
+@app.route('/api/json-files/<filename>/keys/<key>', methods=['GET'])
+def get_json_key_content(filename, key):
+    if not filename.endswith('.json'):
+        abort(400, description="Invalid file extension")
+    file_path = os.path.join(TAG_JSON_DIR, filename)
+    # 检查文件是否存在
+    if not os.path.exists(file_path):
+        abort(404, description="File not found")
+    try:
+        # 打开文件并获取指定字典键的内容
+        with open(file_path, 'r', encoding='utf-8') as f:
+            data = json.load(f)
+        if key not in data:
+            abort(404, description="Key not found in JSON file")
+        return jsonify(data[key]), 200
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
+# 设置Flask的静态文件目录
+@app.route('/public/TagJson/<filename>')
+def serve_json_file(filename):
+    return send_from_directory(TAG_JSON_DIR, filename)
+if __name__ == '__main__':
+    # 运行Flask应用
+    app.run(debug=True)

config.yaml ADDED Viewed

	@@ -0,0 +1,9 @@

+baidu_translate_url: 'https://fanyi-api.baidu.com/api/trans/vip/translate'
+tencent_translate_url: "https://tmt.tencentcloudapi.com"
+tencent_secret_id: "tencent_secret_id"
+tencent_secret_key: "tencent_secret_key"
+baidu_translate_credentials:
+  - app_id: 'app_id'
+    secret_key: 'secret_key'
+  - app_id: 'app_id'
+    secret_key: 'secret_key'

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+Flask==2.3.3
+requests==2.31.0
+beautifulsoup4==4.13.0
+PyYAML==6.0.1
+jieba==0.42.1
+python-Levenshtein==0.21.1

search.py ADDED Viewed

	@@ -0,0 +1,109 @@

+# search.py
+# -*- coding: utf-8 -*-
+from flask import Flask, jsonify, request, Blueprint
+import json
+import re
+import jieba
+import Levenshtein as lev
+search_blueprint = Blueprint('search', __name__)
+# 加载 JSON 数据
+def load_json(file_path):
+    try:
+        with open(file_path, 'r', encoding='utf-8') as file:
+            return json.load(file)
+    except Exception as e:
+        print(f"Error loading JSON file: {e}")
+        return None
+data = load_json('translations_converted.json')
+if data is None:
+    raise Exception("Failed to load JSON data. Please check the file path and format.")
+# 预先对所有键和值进行分词，提升模糊搜索的性能
+segmented_data = {}
+for key, value in data.items():
+    segmented_data[key] = {
+         "key_words": list(jieba.cut(str(key))),
+         "value_words": list(jieba.cut(str(value)))
+    }
+# 正则匹配搜索函数
+def search_keywords(data, query, max_results):
+    results = []
+    # 构建正则模式，将查询的每个字符之间用 .* 连接
+    pattern = '.*'.join(map(re.escape, query))
+    regex = re.compile(pattern, re.IGNORECASE)
+    for key, value in data.items():
+        # 将键和值转换为字符串进行匹配
+        if regex.search(str(key)) or regex.search(str(value)):
+            results.append({key: value})
+            if len(results) >= max_results:
+                break
+    return results
+# 精确匹配搜索函数
+def exact_search(data, query, max_results):
+    results = []
+    query_lower = query.lower()
+    for key, value in data.items():
+        if str(key).lower() == query_lower or str(value).lower() == query_lower:
+            results.append({key: value})
+            if len(results) >= max_results:
+                break
+    return results
+# 模糊匹配搜索函数
+def fuzzy_search(data, query, max_distance, max_results):
+    results = []
+    query_words = list(jieba.cut(query))
+    for key, value in data.items():
+        seg = segmented_data[key]
+        key_words = seg["key_words"]
+        value_words = seg["value_words"]
+        # 当查询中所有词在键或值中均有匹配时，认为匹配成功
+        key_match = all(any(lev.distance(qw, kw) <= max_distance for kw in key_words) for qw in query_words)
+        value_match = all(any(lev.distance(qw, vw) <= max_distance for vw in value_words) for qw in query_words)
+        if key_match or value_match:
+            results.append({key: value})
+            if len(results) >= max_results:
+                break
+    return results
+# 限制返回最大数量不超过300
+def limit_max_results(max_results):
+    if max_results is None or max_results > 300:
+        return 300
+    return max_results
+@search_blueprint.route('/regular_expression', methods=['GET'])
+def regular_expression_api():
+    query = request.args.get('query')
+    max_results = request.args.get('max_results', type=int)
+    if not query:
+        return jsonify({"error": "No query provided"}), 400
+    max_results = limit_max_results(max_results)
+    results = search_keywords(data, query, max_results)
+    return jsonify(results)
+@search_blueprint.route('/fuzzy_search', methods=['GET'])
+def fuzzy_search_api():
+    query = request.args.get('query')
+    max_results = request.args.get('max_results', type=int)
+    if not query:
+        return jsonify({"error": "No query provided"}), 400
+    max_results = limit_max_results(max_results)
+    # max_distance 可根据需求调整
+    results = fuzzy_search(data, query, max_distance=1, max_results=max_results)
+    return jsonify(results)
+@search_blueprint.route('/exact_search', methods=['GET'])
+def exact_search_api():
+    query = request.args.get('query')
+    max_results = request.args.get('max_results', type=int)
+    if not query:
+        return jsonify({"error": "No query provided"}), 400
+    max_results = limit_max_results(max_results)
+    results = exact_search(data, query, max_results)
+    return jsonify(results)

tag_extractor.py ADDED Viewed

	@@ -0,0 +1,272 @@

+import hashlib
+import hmac
+import json
+import random
+import time
+from datetime import datetime
+import requests
+from flask import Blueprint, request, jsonify
+import yaml
+# 从yaml文件加载配置
+def load_config(yaml_file):
+    with open(yaml_file, 'r') as file:
+        return yaml.safe_load(file)
+config = load_config('config.yaml')
+# 百度翻译API信息
+BAIDU_TRANSLATE_URL = config['baidu_translate_url']
+BAIDU_TRANSLATE_CREDENTIALS = config['baidu_translate_credentials']
+# 腾讯翻译API信息
+TENCENT_SECRET_ID = config['tencent_secret_id']
+TENCENT_SECRET_KEY = config['tencent_secret_key']
+TENCENT_TRANSLATE_URL = config['tencent_translate_url']
+# 用于轮询的索引
+current_index = 0
+def get_next_credentials():
+    """
+    获取下一个 APP_ID 和 SECRET_KEY 的组合，自动轮询。
+    """
+    global current_index
+    credentials = BAIDU_TRANSLATE_CREDENTIALS[current_index]
+    current_index = (current_index + 1) % len(BAIDU_TRANSLATE_CREDENTIALS)
+    return credentials
+def sign(key, msg):
+    """
+    使用HMAC-SHA256算法生成签名。
+    """
+    return hmac.new(key, msg.encode("utf-8"), hashlib.sha256).digest()
+def generate_tc3_signature(secret_key, date, service, string_to_sign):
+    """
+    生成腾讯云TC3-HMAC-SHA256签名。
+    """
+    secret_date = sign(("TC3" + secret_key).encode("utf-8"), date)
+    secret_service = sign(secret_date, service)
+    secret_signing = sign(secret_service, "tc3_request")
+    return hmac.new(secret_signing, string_to_sign.encode("utf-8"), hashlib.sha256).hexdigest()
+def translate_with_tencent(texts, from_lang='auto', to_lang='zh'):
+    """
+    使用腾讯翻译API翻译文本列表。
+    """
+    service = "tmt"
+    host = "tmt.tencentcloudapi.com"
+    action = "TextTranslate"
+    version = "2018-03-21"
+    region = "ap-beijing"
+    timestamp = int(time.time())
+    date = datetime.utcfromtimestamp(timestamp).strftime("%Y-%m-%d")
+    algorithm = "TC3-HMAC-SHA256"  # 在这里定义 algorithm
+    # 构造请求参数
+    payload = {
+        "SourceText": "\n".join(texts),
+        "Source": from_lang,
+        "Target": to_lang,
+        "ProjectId": 0
+    }
+    payload_str = json.dumps(payload)
+    # ************* 步骤 1：拼接规范请求串 *************
+    http_request_method = "POST"
+    canonical_uri = "/"
+    canonical_querystring = ""
+    ct = "application/json; charset=utf-8"
+    canonical_headers = f"content-type:{ct}\nhost:{host}\nx-tc-action:{action.lower()}\n"
+    signed_headers = "content-type;host;x-tc-action"
+    hashed_request_payload = hashlib.sha256(payload_str.encode("utf-8")).hexdigest()
+    canonical_request = (http_request_method + "\n" +
+                         canonical_uri + "\n" +
+                         canonical_querystring + "\n" +
+                         canonical_headers + "\n" +
+                         signed_headers + "\n" +
+                         hashed_request_payload)
+    # ************* 步骤 2：拼接待签名字符串 *************
+    credential_scope = date + "/" + service + "/" + "tc3_request"
+    hashed_canonical_request = hashlib.sha256(canonical_request.encode("utf-8")).hexdigest()
+    string_to_sign = (algorithm + "\n" +
+                      str(timestamp) + "\n" +
+                      credential_scope + "\n" +
+                      hashed_canonical_request)
+    # ************* 步骤 3：计算签名 *************
+    signature = generate_tc3_signature(TENCENT_SECRET_KEY, date, service, string_to_sign)
+    # ************* 步骤 4：拼接 Authorization *************
+    authorization = (algorithm + " " +
+                     "Credential=" + TENCENT_SECRET_ID + "/" + credential_scope + ", " +
+                     "SignedHeaders=" + signed_headers + ", " +
+                     "Signature=" + signature)
+    # ************* 步骤 5：构造并发起请求 *************
+    headers = {
+        "Authorization": authorization,
+        "Content-Type": ct,
+        "Host": host,
+        "X-TC-Action": action,
+        "X-TC-Timestamp": str(timestamp),
+        "X-TC-Version": version,
+        "X-TC-Region": region
+    }
+    try:
+        response = requests.post(TENCENT_TRANSLATE_URL, headers=headers, data=payload_str)
+        response.raise_for_status()
+        result = response.json()
+        if "Response" in result and "TargetText" in result["Response"]:
+            return result["Response"]["TargetText"].split("\n")
+        else:
+            return None
+    except Exception as e:
+        print(f"腾讯翻译API请求失败: {e}")
+        return None
+def translate_with_baidu(texts, from_lang='auto', to_lang='zh'):
+    """
+    使用百度翻译API翻译文本列表。
+    """
+    credentials = get_next_credentials()
+    app_id = credentials['app_id']
+    secret_key = credentials['secret_key']
+    salt = random.randint(32768, 65536)
+    query = '\n'.join(texts)
+    sign_str = app_id + query + str(salt) + secret_key
+    sign = hashlib.md5(sign_str.encode('utf-8')).hexdigest()
+    params = {
+        'q': query,
+        'from': from_lang,
+        'to': to_lang,
+        'appid': app_id,
+        'salt': salt,
+        'sign': sign
+    }
+    try:
+        response = requests.get(BAIDU_TRANSLATE_URL, params=params)
+        response.raise_for_status()
+        result = response.json()
+        if 'trans_result' in result:
+            return [item['dst'] for item in result['trans_result']]
+        else:
+            return None
+    except Exception as e:
+        print(f"百度翻译API请求失败: {e}")
+        return None
+def translate_texts(texts, from_lang='auto', to_lang='zh'):
+    """
+    优先使用腾讯翻译API翻译文本列表，失败后使用百度翻译API。
+    如果两者都失败，则返回未翻译的原始文本。
+    """
+    # 优先使用腾讯翻译API
+    translated_texts = translate_with_tencent(texts, from_lang, to_lang)
+    if translated_texts is not None:
+        return translated_texts
+    # 腾讯翻译失败后使用百度翻译API
+    translated_texts = translate_with_baidu(texts, from_lang, to_lang)
+    if translated_texts is not None:
+        return translated_texts
+    # 两者都失败，返回原始文本
+    return texts
+# 创建蓝图
+tag_extractorbp = Blueprint('tag_extractor', __name__)
+# 移除原来的 extract_tags 接口，因为现在前端直接获取和解析HTML
+@tag_extractorbp.route('/Tagtranslate', methods=['POST'])
+def translate():
+    """
+    翻译文本列表接口
+    接收格式: {"texts": ["text1", "text2", ...]}
+    返回格式: {"translated_texts": ["译文1", "译文2", ...]}
+    """
+    try:
+        data = request.get_json()
+        if not data:
+            return jsonify({"error": "请求体为空"}), 400
+        texts = data.get('texts')
+        if not texts:
+            return jsonify({"error": "缺少texts参数"}), 400
+        if not isinstance(texts, list):
+            return jsonify({"error": "texts参数必须是数组"}), 400
+        if len(texts) == 0:
+            return jsonify({"translated_texts": []}), 200
+        # 过滤空字符串
+        valid_texts = [text.strip() for text in texts if text and text.strip()]
+        if len(valid_texts) == 0:
+            return jsonify({"translated_texts": []}), 200
+        print(f"开始翻译 {len(valid_texts)} 个文本...")
+        translated_texts = translate_texts(valid_texts)
+        print(f"翻译完成")
+        return jsonify({"translated_texts": translated_texts})
+    except Exception as e:
+        print(f"翻译接口错误: {e}")
+        return jsonify({"error": f"服务器内部错误: {str(e)}"}), 500
+@tag_extractorbp.route('/translate_batch', methods=['POST'])
+def translate_batch():
+    """
+    批量翻译接口，支持更多参数
+    接收格式: {
+        "texts": ["text1", "text2", ...],
+        "from_lang": "auto",  // 可选，默认auto
+        "to_lang": "zh"       // 可选，默认zh
+    }
+    返回格式: {"translated_texts": ["译文1", "译文2", ...]}
+    """
+    try:
+        data = request.get_json()
+        if not data:
+            return jsonify({"error": "请求体为空"}), 400
+        texts = data.get('texts')
+        if not texts:
+            return jsonify({"error": "缺少texts参数"}), 400
+        if not isinstance(texts, list):
+            return jsonify({"error": "texts参数必须是数组"}), 400
+        from_lang = data.get('from_lang', 'auto')
+        to_lang = data.get('to_lang', 'zh')
+        if len(texts) == 0:
+            return jsonify({"translated_texts": []}), 200
+        # 过滤空字符串
+        valid_texts = [text.strip() for text in texts if text and text.strip()]
+        if len(valid_texts) == 0:
+            return jsonify({"translated_texts": []}), 200
+        print(f"开始批量翻译 {len(valid_texts)} 个文本 ({from_lang} -> {to_lang})...")
+        translated_texts = translate_texts(valid_texts, from_lang, to_lang)
+        print(f"批量翻译完成")
+        return jsonify({
+            "translated_texts": translated_texts,
+            "from_lang": from_lang,
+            "to_lang": to_lang,
+            "count": len(translated_texts)
+        })
+    except Exception as e:
+        print(f"批量翻译接口错误: {e}")
+        return jsonify({"error": f"服务器内部错误: {str(e)}"}), 500

translations_converted.json ADDED Viewed

The diff for this file is too large to render. See raw diff