Spaces:

jinwei12
/

test

Sleeping

App Files Files Community

jinwei12 commited on Dec 8, 2023

Commit

3dffa84

1 Parent(s): acdb896

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -23

app.py CHANGED Viewed

@@ -16,6 +16,7 @@ from haversine import haversine, Unit
 dataset=None
 def generate_human_readable(tokens,labels):
     ret = []
     for t,lab in zip(tokens,labels):
@@ -49,12 +50,8 @@ def getSlice(tensor):
 def getIndex(input):
-    # Model name from Hugging Face model hub
-    model_name = "zekun-li/geolm-base-toponym-recognition"
-    # Load tokenizer and model
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    model = AutoModelForTokenClassification.from_pretrained(model_name)
     # Tokenize input sentence
     tokens = tokenizer.encode(input, return_tensors="pt")
@@ -126,11 +123,7 @@ def cutSlices(tensor, slicesList):
 def MLearningFormInput(input):
-    model_name = "zekun-li/geolm-base-cased"
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    model = GeoLMModel.from_pretrained(model_name)
     tokens = tokenizer.encode(input, return_tensors="pt")
@@ -181,11 +174,8 @@ def generate_human_readable(tokens,labels):
 def getLocationName(input_sentence):
     # Model name from Hugging Face model hub
-    model_name = "zekun-li/geolm-base-toponym-recognition"
-    # Load tokenizer and model
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    model = AutoModelForTokenClassification.from_pretrained(model_name)
     # Tokenize input sentence
     tokens = tokenizer.encode(input_sentence, return_tensors="pt")
@@ -278,12 +268,14 @@ def search_geonames(toponym, df):
 def get50Neigbors(locationID, dataset, k=50):
     input_row = dataset.loc[dataset['GeonameID'] == locationID].iloc[0]
     lat, lon, geohash,name = input_row['Latitude'], input_row['Longitude'], input_row['Geohash'], input_row['Name']
-    filtered_dataset = dataset.loc[dataset['Geohash'].str.startswith(geohash[:5])].copy()
     filtered_dataset['distance'] = filtered_dataset.apply(
         lambda row: haversine((lat, lon), (row['Latitude'], row['Longitude']), Unit.KILOMETERS),
@@ -291,6 +283,10 @@ def get50Neigbors(locationID, dataset, k=50):
     ).copy()
     filtered_dataset = filtered_dataset.sort_values(by='distance')
@@ -301,9 +297,8 @@ def get50Neigbors(locationID, dataset, k=50):
     neighbors=nearest_neighbors.values.tolist()
-    model_name = "zekun-li/geolm-base-toponym-recognition"
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
     sep_token_id = tokenizer.convert_tokens_to_ids(tokenizer.sep_token)
     cls_token_id = tokenizer.convert_tokens_to_ids(tokenizer.cls_token)
@@ -328,8 +323,6 @@ def get50Neigbors(locationID, dataset, k=50):
     #--------------------------------------------
-    model = GeoLMModel.from_pretrained(model_name)
     tokens = torch.Tensor(neighbor_token_list).unsqueeze(0).long()
@@ -351,6 +344,9 @@ def get50Neigbors(locationID, dataset, k=50):
     res=cutSlices(outputs.last_hidden_state, [targetIndex])
     return res
@@ -374,22 +370,55 @@ def cosine_similarity(target_feature, candidate_feature):
 def getCSV():
     dataset = pd.read_csv('geohash.csv')
     return dataset
 def showing(df):
     m = folium.Map(location=[df['lat'].mean(), df['lon'].mean()], zoom_start=5)
-    size_scale = 100
-    color_scale = 255
     for i in range(len(df)):
         lat, lon, prob = df.iloc[i]['lat'], df.iloc[i]['lon'], df.iloc[i]['prob']
         size = int(prob**2 * size_scale )
         color = int(prob**2 * color_scale)
         folium.CircleMarker(
             location=[lat, lon],
             radius=size,
@@ -398,8 +427,10 @@ def showing(df):
             fill_color=f'#{color:02X}0000'
         ).add_to(m)
     m.save("map.html")
     with open("map.html", "r", encoding="utf-8") as f:
         map_html = f.read()

 dataset=None
 def generate_human_readable(tokens,labels):
     ret = []
     for t,lab in zip(tokens,labels):
 def getIndex(input):
+    tokenizer, model= getModel1()
     # Tokenize input sentence
     tokens = tokenizer.encode(input, return_tensors="pt")
 def MLearningFormInput(input):
+    tokenizer,model=getModel2()
     tokens = tokenizer.encode(input, return_tensors="pt")
 def getLocationName(input_sentence):
     # Model name from Hugging Face model hub
+    tokenizer, model= getModel1()
     # Tokenize input sentence
     tokens = tokenizer.encode(input_sentence, return_tensors="pt")
 def get50Neigbors(locationID, dataset, k=50):
+    print("neighbor part----------------------------------------------------------------")
     input_row = dataset.loc[dataset['GeonameID'] == locationID].iloc[0]
     lat, lon, geohash,name = input_row['Latitude'], input_row['Longitude'], input_row['Geohash'], input_row['Name']
+    filtered_dataset = dataset.loc[dataset['Geohash'].str.startswith(geohash[:7])].copy()
     filtered_dataset['distance'] = filtered_dataset.apply(
         lambda row: haversine((lat, lon), (row['Latitude'], row['Longitude']), Unit.KILOMETERS),
     ).copy()
+    print("neighbor end----------------------------------------------------------------")
     filtered_dataset = filtered_dataset.sort_values(by='distance')
     neighbors=nearest_neighbors.values.tolist()
+    tokenizer, model= getModel1_0()
     sep_token_id = tokenizer.convert_tokens_to_ids(tokenizer.sep_token)
     cls_token_id = tokenizer.convert_tokens_to_ids(tokenizer.cls_token)
     #--------------------------------------------
     tokens = torch.Tensor(neighbor_token_list).unsqueeze(0).long()
     res=cutSlices(outputs.last_hidden_state, [targetIndex])
     return res
 def getCSV():
     dataset = pd.read_csv('geohash.csv')
     return dataset
+@st.cache_data
+def getModel1():
+    # Model name from Hugging Face model hub
+    model_name = "zekun-li/geolm-base-toponym-recognition"
+    # Load tokenizer and model
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForTokenClassification.from_pretrained(model_name)
+    return tokenizer,model
+def getModel1_0():
+    # Model name from Hugging Face model hub
+    model_name = "zekun-li/geolm-base-toponym-recognition"
+    # Load tokenizer and model
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = GeoLMModel.from_pretrained(model_name)
+    return tokenizer,model
+def getModel2():
+    model_name = "zekun-li/geolm-base-cased"
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = GeoLMModel.from_pretrained(model_name)
+    return tokenizer,model
 def showing(df):
     m = folium.Map(location=[df['lat'].mean(), df['lon'].mean()], zoom_start=5)
+    size_scale = 100
+    color_scale = 255
     for i in range(len(df)):
         lat, lon, prob = df.iloc[i]['lat'], df.iloc[i]['lon'], df.iloc[i]['prob']
         size = int(prob**2 * size_scale )
         color = int(prob**2 * color_scale)
+        # 在Folium地图上添加标记
         folium.CircleMarker(
             location=[lat, lon],
             radius=size,
             fill_color=f'#{color:02X}0000'
         ).add_to(m)
+    # 保存Folium地图为HTML文件
     m.save("map.html")
+    # 在Streamlit中嵌入HTML文件
     with open("map.html", "r", encoding="utf-8") as f:
         map_html = f.read()