FindMyBook

Build error

App Files Files Community

annafilina

MARI-posa commited on Jun 16, 2023

Commit

7934772

0 Parent(s):

Duplicate from MARI-posa/FindMyBook

Browse files

Co-authored-by: Maria <MARI-posa@users.noreply.huggingface.co>

Files changed (12) hide show

.gitattributes +35 -0
README.md +13 -0
all+.csv +3 -0
book_embeddings.pkl +3 -0
book_embeddings256.pkl +3 -0
book_embeddings32.pkl +3 -0
book_embeddings512.pkl +3 -0
book_embeddingsN.pkl +3 -0
book_train.csv +0 -0
books_6000.csv +0 -0
requirements.txt +6 -0
stri.py +87 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+all+.csv filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: FindMyBook
+emoji: 📈
+colorFrom: purple
+colorTo: pink
+sdk: streamlit
+sdk_version: 1.21.0
+app_file: stri.py
+pinned: false
+duplicated_from: MARI-posa/FindMyBook
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

all+.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b79018ba5f2577b5108959e89e426e1869ba6e566495b8f800f14ffe60aad418
+size 57131790

book_embeddings.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9ed0a393395706781e1cb5d80546a8673c47639b7db96a6f5e1a4dd6d5fbced
+size 805276449

book_embeddings256.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96567b92c365d75bdacf525bccd2f901ac57098112e1428482a966ac2478bf9f
+size 49487624

book_embeddings32.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40717110f053c22c3aa9e023c4e4e3773bda27390b1a2bd2f8a205496bc2fae1
+size 49221494

book_embeddings512.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19b399d56a5eb48491ac7262b0fc442a4cfe25bcf8ab3d6fe21ee4655b2278d5
+size 49487624

book_embeddingsN.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0826b4c501e65f4cca3449d2b05283326c56bb0cda692d19be8ccece1366153
+size 46007197

book_train.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

books_6000.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+streamlit==1.23.1
+torch==2.0.1
+numpy==1.23.5
+pandas==1.5.3
+transformers==4.30.0
+regex==2022.10.31

stri.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import streamlit as st
+import torch
+import numpy as np
+import pandas as pd
+from PIL import Image
+from transformers import AutoTokenizer, AutoModel
+import re
+import pickle
+import requests
+from io import BytesIO
+st.title("Книжные рекомендации")
+# Загрузка модели и токенизатора
+model_name = "cointegrated/rubert-tiny2"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModel.from_pretrained(model_name, output_hidden_states=True)
+# Загрузка датасета и аннотаций к книгам
+books = pd.read_csv('all+.csv')
+books.dropna(inplace=True)
+books = books[books['annotation'].apply(lambda x: len(x.split()) >= 40)]
+books.drop_duplicates(subset='title', keep='first', inplace=True)
+books = books.reset_index(drop=True)
+def data_preprocessing(text: str) -> str:
+    text = re.sub(r'http\S+', " ", text)  # удаляем ссылки
+    text = re.sub(r'@\w+', ' ', text)  # удаляем упоминания пользователей
+    text = re.sub(r'#\w+', ' ', text)  # удаляем хэштеги
+    text = re.sub(r'<.*?>', ' ', text)  # html tags
+    return text
+for i in ['author', 'title', 'annotation']:
+    books[i] = books[i].apply(data_preprocessing)
+annot = books['annotation']
+# Получение эмбеддингов аннотаций каждой книги в датасете
+length = 512
+# Определение запроса пользователя
+query = st.text_input("Введите запрос")
+if st.button('Сгенерировать'):
+    with open("book_embeddingsN.pkl", "rb") as f:
+        book_embeddings = pickle.load(f)
+    query_tokens = tokenizer.encode_plus(
+            query,
+            add_special_tokens=True,
+            max_length=length, # Ограничение на максимальную длину входной последовательности
+            pad_to_max_length=True, # Дополним последовательность нулями до максимальной длины
+            return_tensors='pt' # Вернём тензоры PyTorch
+        )
+    with torch.no_grad():
+            query_outputs = model(**query_tokens)
+            query_hidden_states = query_outputs.hidden_states[-1][:,0,:]
+            query_hidden_states = torch.nn.functional.normalize(query_hidden_states)
+    # Вычисление косинусного расстояния между эмбеддингом запроса и каждой аннотацией
+    cosine_similarities = torch.nn.functional.cosine_similarity(
+        query_embedding.squeeze(0),
+        torch.stack(book_embeddings.cpu())
+    )
+    cosine_similarities = cosine_similarities.numpy()
+    indices = np.argsort(cosine_similarities)[::-1]  # Сортировка по убыванию
+    num_books_per_page = st.selectbox("Количество книг на странице:", [3, 5, 10], index=0)
+    for i in indices[:num_books_per_page]:
+        cols = st.columns(2)  # Создание двух столбцов для размещения информации и изображения
+        cols[1].write("## " + books['title'][i])
+        cols[1].markdown("**Автор:** " + books['author'][i])
+        cols[1].markdown("**Аннотация:** " + books['annotation'][i])
+        image_url = books['image_url'][i]
+        response = requests.get(image_url)
+        image = Image.open(BytesIO(response.content))
+        cols[0].image(image)
+        cols[0].write(cosine_similarities[i])
+        cols[1].write("---")