Spaces:

chewing
/

nai3_TagsQuester

Sleeping

App Files Files Community

chewing commited on Jan 16, 2024

Commit

5c5acec

1 Parent(s): 4e8832f

添加tagger

Browse files

Files changed (8) hide show

app.py +15 -0
data/all.pkl +3 -0
data/all_name_id_cut.pkl +3 -0
data/all_name_id_zh.txt +0 -0
data/safe.pkl +3 -0
data/safe_name_id_cut.pkl +3 -0
requirements.txt +2 -0
tagger_map.py +66 -0

app.py CHANGED Viewed

@@ -1,5 +1,20 @@
 import streamlit as st
 x = st.slider('Select a value')

 import streamlit as st
+from tagger_map import Tagger as Tagger_Map
+from tagger_map import zh_dict
+tagger_map = Tagger_Map()
+def search_text(search_sentences,topn= 5):
+    search_sentences = search_sentences.replace("_"," ")
+    search_sentences = search_sentences.strip()
+    if search_sentences not in zh_dict:
+        return ["error"]
+    else:
+        rtn0 = tagger_map.get_top_weighted_neighbors(search_sentences,topn)
+    rtn = []
+    for tag in rtn0:
+        rtn.append(f"{tag.replace(' ','_')}《{zh_dict[tag]}》")
+    return rtn
 x = st.slider('Select a value')

data/all.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85cf84f331fca6e0ef00f6b94f99d9e0d40330df46e32a41d8bd4a9b4b3a69bb
+size 56671846

data/all_name_id_cut.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c6250b7f2bcb8ea507d5d11bc82747c6fa0959f360c403145facf7c68a46c0c
+size 326486

data/all_name_id_zh.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

data/safe.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0169ed4790fd9b54450bb12980b29ac29d6553719f533fe2715ce82808ddfb0e
+size 20330969

data/safe_name_id_cut.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:250b9c37df828de0d4ad208fc8e4886ce8e6e2f476400be3027e5dc832aba488
+size 185038

requirements.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ RainbowPrint
2	+ bidict

tagger_map.py ADDED Viewed

	@@ -0,0 +1,66 @@

+#!/usr/bin/env python3
+import pickle
+import networkx as nx
+import heapq
+from bidict import bidict
+from RainbowPrint import RainbowPrint as rp
+zh_path = r"./data/all_name_id_zh.txt"
+zh_dict = {}
+with open(zh_path, "r", encoding="utf-8-sig") as f:
+    for line in f.readlines():
+        line = line.replace("\n", "")
+        tag, zh = line.split("|!|!|")
+        zh_dict[tag]=zh
+class Tagger():
+    def __init__(self, pkl_name=r"./data/all.pkl"):
+        with open(pkl_name, 'rb') as f:
+            self.G = pickle.load(f)
+        with open(pkl_name.replace(".pkl", "_name_id_cut.pkl"), 'rb') as f:
+            self.nodes_id = pickle.load(f)
+        zh_dict = {}
+        with open(pkl_name.replace(".pkl", "_name_id_zh.txt"), "r", encoding="utf-8-sig") as f:
+            for line in f.readlines():
+                line = line.replace("\n", "")
+                tag, zh = line.split("|!|!|")
+                zh_dict[tag] = zh
+        self.zh_dict = zh_dict
+        assert len(self.G.nodes) == len(self.nodes_id.keys())
+    def get_top_weighted_neighbors(self, node_str, n=20):
+        rp.debug('map: query:', node_str)
+        node = self.nodes_id[node_str]
+        if node not in self.G:
+            raise ValueError(f"Node {node} is not in the graph")
+        if not nx.get_edge_attributes(self.G, 'weight'):
+            raise nx.NetworkXError("Edges do not have a 'weight' attribute")
+        # 创建一个小顶堆来保持前n个权重最大的邻居
+        min_heap = []
+        for nbr in self.G.neighbors(node):
+            edge_weight = self.G[node][nbr]['weight']
+            nbr_weight = self.G.nodes[nbr]['weight']
+            combined_weight = edge_weight / nbr_weight
+            if len(min_heap) < n:
+                heapq.heappush(min_heap, (combined_weight, nbr))
+            else:
+                heapq.heappushpop(min_heap, (combined_weight, nbr))
+        top_neighbors_with_weights = sorted(min_heap, key=lambda x: x[0], reverse=True)
+        # 仅返回邻居节点的标识
+        return [self.nodes_id.inverse[nbr] for _, nbr in top_neighbors_with_weights]
+if __name__ == '__main__':
+    tagger = Tagger()
+    print(tagger.get_top_weighted_neighbors("doll"))