Spaces:
Sleeping
Sleeping
Commit ·
7e00fac
1
Parent(s): 4a13453
progress more 20
Browse files
app.py
CHANGED
|
@@ -112,7 +112,14 @@ def process_file(uploaded_file):
|
|
| 112 |
df = df.groupby('Объект').apply(
|
| 113 |
lambda x: fuzzy_deduplicate(x, 'Выдержки из текста', 65)
|
| 114 |
).reset_index(drop=True)
|
| 115 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 116 |
# Translate texts
|
| 117 |
translated_texts = []
|
| 118 |
progress_bar = st.progress(0)
|
|
@@ -120,7 +127,7 @@ def process_file(uploaded_file):
|
|
| 120 |
total_news = len(df)
|
| 121 |
|
| 122 |
for i, text in enumerate(df['Выдержки из текста']):
|
| 123 |
-
translated_text = translate(str(text))
|
| 124 |
translated_texts.append(translated_text)
|
| 125 |
progress_bar.progress((i + 1) / len(df))
|
| 126 |
progress_text.text(f"{i + 1} из {total_news} сообщений переведено")
|
|
@@ -136,15 +143,16 @@ def process_file(uploaded_file):
|
|
| 136 |
df['FinBERT'] = finbert_results
|
| 137 |
df['RoBERTa'] = roberta_results
|
| 138 |
df['FinBERT-Tone'] = finbert_tone_results
|
|
|
|
| 139 |
|
| 140 |
# Reorder columns
|
| 141 |
-
columns_order = ['Объект', 'VADER', 'FinBERT', 'RoBERTa', 'FinBERT-Tone', 'Выдержки из текста']
|
| 142 |
df = df[columns_order]
|
| 143 |
|
| 144 |
return df
|
| 145 |
|
| 146 |
def main():
|
| 147 |
-
st.title("... приступим к анализу... версия
|
| 148 |
|
| 149 |
uploaded_file = st.file_uploader("Выбирайте Excel-файл", type="xlsx")
|
| 150 |
|
|
|
|
| 112 |
df = df.groupby('Объект').apply(
|
| 113 |
lambda x: fuzzy_deduplicate(x, 'Выдержки из текста', 65)
|
| 114 |
).reset_index(drop=True)
|
| 115 |
+
|
| 116 |
+
original_news_count = len(pre_df)
|
| 117 |
+
remaining_news_count = len(df)
|
| 118 |
+
duplicates_removed = original_news_count - remaining_news_count
|
| 119 |
+
|
| 120 |
+
st.write(f"Из {original_news_count} новостных сообщений удалены {duplicates_removed} дублирующих. Осталось {remaining_news_count}.")
|
| 121 |
+
|
| 122 |
+
|
| 123 |
# Translate texts
|
| 124 |
translated_texts = []
|
| 125 |
progress_bar = st.progress(0)
|
|
|
|
| 127 |
total_news = len(df)
|
| 128 |
|
| 129 |
for i, text in enumerate(df['Выдержки из текста']):
|
| 130 |
+
translated_text = translate(str(lemmatize_text(text)))
|
| 131 |
translated_texts.append(translated_text)
|
| 132 |
progress_bar.progress((i + 1) / len(df))
|
| 133 |
progress_text.text(f"{i + 1} из {total_news} сообщений переведено")
|
|
|
|
| 143 |
df['FinBERT'] = finbert_results
|
| 144 |
df['RoBERTa'] = roberta_results
|
| 145 |
df['FinBERT-Tone'] = finbert_tone_results
|
| 146 |
+
df['Translated']
|
| 147 |
|
| 148 |
# Reorder columns
|
| 149 |
+
columns_order = ['Объект', 'VADER', 'FinBERT', 'RoBERTa', 'FinBERT-Tone', 'Выдержки из текста', 'Translated' ]
|
| 150 |
df = df[columns_order]
|
| 151 |
|
| 152 |
return df
|
| 153 |
|
| 154 |
def main():
|
| 155 |
+
st.title("... приступим к анализу... версия 20")
|
| 156 |
|
| 157 |
uploaded_file = st.file_uploader("Выбирайте Excel-файл", type="xlsx")
|
| 158 |
|