Spaces:

slxhere
/

Poetic_Mirror

Sleeping

App Files Files Community

kylin0421 commited on May 19, 2025

Commit

24cd111

0 Parent(s):

Clean start

Browse files

Files changed (7) hide show

.gitattributes +35 -0
.gitignore +2 -0
README.md +14 -0
app.py +118 -0
data/__pycache__/to_poem_list.cpython-310.pyc +0 -0
data/to_poem_list.py +30 -0
requirements.txt +103 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ bfg.jar
2	+ ..bfg-report

README.md ADDED Viewed

	@@ -0,0 +1,14 @@

+---
+title: Poetic Mirror
+emoji: 🔥
+colorFrom: green
+colorTo: purple
+sdk: gradio
+sdk_version: 5.29.1
+app_file: app.py
+pinned: false
+license: apache-2.0
+short_description: 'Poetiv mirror is an interesting app. '
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,118 @@

+import json
+import numpy as np
+from sentence_transformers import SentenceTransformer
+from sklearn.metrics.pairwise import cosine_similarity
+from openai import OpenAI
+import time
+import csv
+from data.to_poem_list import to_poem_list
+import os
+import gradio as gr
+from huggingface_hub import hf_hub_download,login
+hf_token = os.environ.get("HF_TOKEN")
+login(token=hf_token)
+#====Settings====
+model_path = "slxhere/modern_ancientpoem_encoder"
+poem_csv_path = hf_hub_download(
+    repo_id="slxhere/tang_poems",
+    repo_type="dataset",
+    filename="tang_poem.csv"
+)
+api_key = os.environ.get("DEEPSEEK_API_KEY")
+base_url = "https://api.deepseek.com"
+top_k = 5
+embedding_cache_path = hf_hub_download(
+    repo_id="slxhere/poetic-mirror-cache-tang-embedding",
+    repo_type="dataset",
+    filename="cached_tang_embedding.npy"
+)
+print("Loading model and data...")
+model = SentenceTransformer(model_path)
+client = OpenAI(api_key=api_key, base_url=base_url)
+poem_sentences = to_poem_list(poem_csv_path)
+#========
+if os.path.exists(embedding_cache_path):
+    poem_embeddings = np.load(embedding_cache_path)
+else:
+    print("Cached embeddings not found! Encoding... This might take some time...")
+    poem_embeddings = model.encode(
+        poem_sentences, batch_size=64, show_progress_bar=True, normalize_embeddings=True
+    )
+    np.save(embedding_cache_path, poem_embeddings)
+    print(f"Embedding saved to {embedding_cache_path}")
+def rerank_with_llm(modern, candidates):
+    prompt = f"""
+我说了一句话：“{modern}”，你觉得下面哪一句古诗最能表达这句话的情绪与意境？
+"""
+    for i, c in enumerate(candidates):
+        prompt += f"{i+1}. {c}\n"
+    prompt += "\n请直接回复最匹配的一句编号（如 2），不要解释。"
+    try:
+        resp = client.chat.completions.create(
+            model="deepseek-chat",
+            messages=[
+                {"role": "system", "content": "你是古诗匹配专家。"},
+                {"role": "user", "content": prompt}
+            ]
+        )
+        reply = resp.choices[0].message.content.strip()
+        for line in reply.splitlines():
+            if line.strip().isdigit():
+                idx = int(line.strip()) - 1
+                if 0 <= idx < len(candidates):
+                    return idx
+    except Exception as e:
+        print("LLM error: ", e)
+    return 0
+def retrieve_and_rerank(modern_sentence):
+    start_time = time.time()
+    emb = model.encode([modern_sentence], normalize_embeddings=True)
+    sims = cosine_similarity(emb, poem_embeddings)[0]
+    top_k_idx = sims.argsort()[-top_k:][::-1]
+    top_k_sims = sims[top_k_idx]
+    top_k_poems = [poem_sentences[i] for i in top_k_idx]
+    rerank_idx = rerank_with_llm(modern_sentence, top_k_poems)
+    scores = np.exp(top_k_sims - np.max(top_k_sims))
+    probs = scores / scores.sum()
+    results = [{
+        "poem": top_k_poems[i],
+        "score": round(float(probs[i]), 4),
+        "(LLM selected)": i == rerank_idx
+    } for i in range(top_k)]
+    print(f"Reaction time: {time.time() - start_time:.2f}s")
+    return results
+def poetry_matcher(input_text):
+    results = retrieve_and_rerank(input_text)
+    return "\n".join(
+        [f"{'✅' if r['(LLM selected)'] else '  '} [{r['score']}] {r['poem']}" for r in results]
+    )
+iface = gr.Interface(
+    fn=poetry_matcher,
+    inputs=gr.Textbox(lines=2, placeholder="Enter your sentence..."),
+    outputs="text",
+    title="🔭 Poetic Mirror 🖌",
+    description="穿越千年诗意，为你精准匹配最契合的古诗名句——输入你的句子，邂逅古人共鸣。\nTravel through a thousand years of poetry—enter your sentence, and we'll find the most matching Tang dynasty verse for you."
+)
+iface.launch()

data/__pycache__/to_poem_list.cpython-310.pyc ADDED Viewed

Binary file (804 Bytes). View file

data/to_poem_list.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import csv
+def to_poem_list(file_path,debug=False):
+    poems = []
+    with open(file_path, "r", encoding="utf-8") as f:
+        reader = csv.DictReader(f)
+        for row in reader:
+            content = row["内容"].strip().replace(" ", "")  # 去除空格
+            if not content:
+                continue
+            # 按中文句号分句
+            for part in content.split("。"):
+                part = part.strip()
+                if len(part) >= 9:  # 避免短语/乱码  至少为单句七绝
+                    poems.append(part + "。")  # 补回句号
+    if debug:
+        print(f"共提取单句：{len(poems)} 条")
+        print("示例：", poems[:10])
+        print(len(poems[0]))
+    return poems
+if __name__=="__main__":
+    to_poem_list("Poetry/宋_1.csv",True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,103 @@

+accelerate==1.7.0
+aiofiles==24.1.0
+aiohappyeyeballs==2.6.1
+aiohttp==3.11.18
+aiolimiter==1.2.1
+aiosignal==1.3.2
+annotated-types==0.7.0
+anyio==4.9.0
+async-timeout==5.0.1
+attrs==25.3.0
+certifi==2025.4.26
+charset-normalizer==3.4.2
+click==8.1.8
+datasets==3.6.0
+dill==0.3.8
+distro==1.9.0
+exceptiongroup==1.3.0
+fastapi==0.115.12
+ffmpy==0.5.0
+filelock==3.18.0
+frozenlist==1.6.0
+fsspec==2025.3.0
+gradio==5.29.1
+gradio_client==1.10.1
+groovy==0.1.2
+h11==0.16.0
+httpcore==1.0.9
+httpx==0.28.1
+huggingface-hub==0.31.2
+idna==3.10
+Jinja2==3.1.6
+jiter==0.9.0
+joblib==1.5.0
+markdown-it-py==3.0.0
+MarkupSafe==3.0.2
+mdurl==0.1.2
+mpmath==1.3.0
+multidict==6.4.3
+multiprocess==0.70.16
+networkx==3.4.2
+numpy==2.2.5
+nvidia-cublas-cu12==12.6.4.1
+nvidia-cuda-cupti-cu12==12.6.80
+nvidia-cuda-nvrtc-cu12==12.6.77
+nvidia-cuda-runtime-cu12==12.6.77
+nvidia-cudnn-cu12==9.5.1.17
+nvidia-cufft-cu12==11.3.0.4
+nvidia-cufile-cu12==1.11.1.6
+nvidia-curand-cu12==10.3.7.77
+nvidia-cusolver-cu12==11.7.1.2
+nvidia-cusparse-cu12==12.5.4.2
+nvidia-cusparselt-cu12==0.6.3
+nvidia-nccl-cu12==2.26.2
+nvidia-nvjitlink-cu12==12.6.85
+nvidia-nvtx-cu12==12.6.77
+openai==1.78.1
+orjson==3.10.18
+packaging==25.0
+pandas==2.2.3
+pillow==11.2.1
+propcache==0.3.1
+psutil==7.0.0
+pyarrow==20.0.0
+pydantic==2.11.4
+pydantic_core==2.33.2
+pydub==0.25.1
+Pygments==2.19.1
+python-dateutil==2.9.0.post0
+python-multipart==0.0.20
+pytz==2025.2
+PyYAML==6.0.2
+regex==2024.11.6
+requests==2.32.3
+rich==14.0.0
+ruff==0.11.10
+safehttpx==0.1.6
+safetensors==0.5.3
+scikit-learn==1.6.1
+scipy==1.15.3
+semantic-version==2.10.0
+sentence-transformers==4.1.0
+shellingham==1.5.4
+six==1.17.0
+sniffio==1.3.1
+starlette==0.46.2
+sympy==1.14.0
+tenacity==9.1.2
+threadpoolctl==3.6.0
+tokenizers==0.21.1
+tomlkit==0.13.2
+torch==2.7.0
+tqdm==4.67.1
+transformers==4.51.3
+triton==3.3.0
+typer==0.15.4
+typing-inspection==0.4.0
+typing_extensions==4.13.2
+tzdata==2025.2
+urllib3==2.4.0
+uvicorn==0.34.2
+websockets==15.0.1
+xxhash==3.5.0
+yarl==1.20.0