solved the stop words conflict
Browse files
app.py
CHANGED
|
@@ -72,25 +72,9 @@ def clean_bengali_text(text):
|
|
| 72 |
# Remove extra spaces
|
| 73 |
cleaned = re.sub(r'\s+', ' ', cleaned).strip()
|
| 74 |
return cleaned
|
| 75 |
-
|
| 76 |
-
'এবং', 'ও', 'বা', 'কিংবা', 'অথবা', 'কিন্তু', 'এর', 'এ', 'এই', 'সেই', 'ওই', 'এক', 'জন্য',
|
| 77 |
-
'আমার', 'তোমার', 'তার', 'আমাদের', 'তাদের', 'সে', 'তিনি', 'আমি', 'তুমি', 'যে', 'যায়', 'হয়',
|
| 78 |
-
'হবে', 'ছিল', 'আছে', 'নেই', 'এটা', 'ওটা', 'সেটা', 'করে', 'করতে', 'করেছে', 'করছেন', 'থেকে',
|
| 79 |
-
'সাথে', 'মধ্যে', 'উপরে', 'নিচে', 'পরে', 'আগে', 'শুধু', 'খুব', 'অনেক', 'আরও', 'হিসাবে', 'তাহলে',
|
| 80 |
-
'হলে', 'তাই', 'সুতরাং', 'কারণে', 'একটি', 'হয়ে', 'হয়েছিল', 'হচ্ছে', 'হয়েছে', 'না', 'হ্যাঁ', 'কি',
|
| 81 |
-
'কী', 'কে', 'কোন', 'গুলো', 'কিছু', 'বলেন', 'বললেন', 'বলল', 'আর', 'ভাই', 'হোক', 'চাই', 'বাদ',
|
| 82 |
-
'দিতে', 'দিয়ে', 'দিলেন', 'দেন', 'যাবে', 'যাক', 'পারা', 'পারে', 'করা', 'করি', 'করার', 'করছে',
|
| 83 |
-
'করবে', 'সব', 'এখন', 'যদি', 'কেন', 'কবে', 'কেমন', 'ইনশাআল্লাহ', 'আপনি', 'আপনার', 'আপনারা', 'আমরা'
|
| 84 |
-
])
|
| 85 |
-
COMBINED_STOPWORDS = set(BANGLA_STOP_WORDS) | NOTEBOOK_STOPWORDS
|
| 86 |
-
PHRASES_TO_JOIN = {
|
| 87 |
-
"তারেক রহমান": "তারেক_রহমান",
|
| 88 |
-
"খালেদা জিয়া": "খালেদা_জিয়া",
|
| 89 |
-
"বিএনপি জিন্দাবাদ": "বিএনপি_জিন্দাবাদ"
|
| 90 |
-
# Add more as needed
|
| 91 |
-
}
|
| 92 |
-
# ==============================================================================
|
| 93 |
|
|
|
|
| 94 |
BANGLA_STOP_WORDS = [
|
| 95 |
'অতএব', 'অথচ', 'অথবা', 'অনুযায়ী', 'অনেক', 'অনেকে', 'অনেকেই', 'অন্তত', 'অন্য', 'অবধি', 'অবশ্য',
|
| 96 |
'অভিপ্রায়', 'একে', 'একই', 'একেবারে', 'একটি', 'একবার', 'এখন', 'এখনও', 'এখানে', 'এখানেই', 'এটি',
|
|
@@ -109,6 +93,27 @@ BANGLA_STOP_WORDS = [
|
|
| 109 |
'সম্পর্কে', 'সঙ্গেও', 'সর্বাধিক', 'সর্বদা', 'সহ', 'হৈতে', 'হইবে', 'হইয়া', 'হৈল', 'জানিয়েছেন', 'প্রতিবেদক'
|
| 110 |
]
|
| 111 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 112 |
def get_dynamic_time_agg(start_date, end_date):
|
| 113 |
"""Hardened helper to determine time aggregation level."""
|
| 114 |
if not isinstance(start_date, pd.Timestamp) or not isinstance(end_date, pd.Timestamp):
|
|
|
|
| 72 |
# Remove extra spaces
|
| 73 |
cleaned = re.sub(r'\s+', ' ', cleaned).strip()
|
| 74 |
return cleaned
|
| 75 |
+
# --- DEFINE ALL YOUR STOPWORDS FIRST ---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 76 |
|
| 77 |
+
# List of Bengali stop words
|
| 78 |
BANGLA_STOP_WORDS = [
|
| 79 |
'অতএব', 'অথচ', 'অথবা', 'অনুযায়ী', 'অনেক', 'অনেকে', 'অনেকেই', 'অন্তত', 'অন্য', 'অবধি', 'অবশ্য',
|
| 80 |
'অভিপ্রায়', 'একে', 'একই', 'একেবারে', 'একটি', 'একবার', 'এখন', 'এখনও', 'এখানে', 'এখানেই', 'এটি',
|
|
|
|
| 93 |
'সম্পর্কে', 'সঙ্গেও', 'সর্বাধিক', 'সর্বদা', 'সহ', 'হৈতে', 'হইবে', 'হইয়া', 'হৈল', 'জানিয়েছেন', 'প্রতিবেদক'
|
| 94 |
]
|
| 95 |
|
| 96 |
+
# Another set of stop words from your notebook
|
| 97 |
+
NOTEBOOK_STOPWORDS = set([
|
| 98 |
+
'এবং', 'ও', 'বা', 'কিংবা', 'অথবা', 'কিন্তু', 'এর', 'এ', 'এই', 'সেই', 'ওই', 'এক', 'জন্য',
|
| 99 |
+
'আমার', 'তোমার', 'তার', 'আমাদের', 'তাদের', 'সে', 'তিনি', 'আমি', 'তুমি', 'যে', 'যায়', 'হয়',
|
| 100 |
+
'হবে', 'ছিল', 'আছে', 'নেই', 'এটা', 'ওটা', 'সেটা', 'করে', 'করতে', 'করেছে', 'করছেন', 'থেকে',
|
| 101 |
+
'সাথে', 'মধ্যে', 'উপরে', 'নিচে', 'পরে', 'আগে', 'শুধু', 'খুব', 'অনেক', 'আরও', 'হিসাবে', 'তাহলে',
|
| 102 |
+
'হলে', 'তাই', 'সুতরাং', 'কারণে', 'একটি', 'হয়ে', 'হয়েছিল', 'হচ্ছে', 'হয়েছে', 'না', 'হ্যাঁ', 'কি',
|
| 103 |
+
'কী', 'কে', 'কোন', 'গুলো', 'কিছু', 'বলেন', 'বললেন', 'বলল', 'আর', 'ভাই', 'হোক', 'চাই', 'বাদ',
|
| 104 |
+
'দিতে', 'দিয়ে', 'দিলেন', 'দেন', 'যাবে', 'যাক', 'পারা', 'পারে', 'করা', 'করি', 'করার', 'করছে',
|
| 105 |
+
'করবে', 'সব', 'এখন', 'যদি', 'কেন', 'কবে', 'কেমন', 'ইনশাআল্লাহ', 'আপনি', 'আপনার', 'আপনারা', 'আমরা'
|
| 106 |
+
])
|
| 107 |
+
|
| 108 |
+
COMBINED_STOPWORDS = set(BANGLA_STOP_WORDS) | NOTEBOOK_STOPWORDS
|
| 109 |
+
PHRASES_TO_JOIN = {
|
| 110 |
+
"তারেক রহমান": "তারেক_রহমান",
|
| 111 |
+
"খালেদা জিয়া": "খালেদা_জিয়া",
|
| 112 |
+
"বিএনপি জিন্দাবাদ": "বিএনপি_জিন্দাবাদ"
|
| 113 |
+
# Add more as needed
|
| 114 |
+
}
|
| 115 |
+
|
| 116 |
+
|
| 117 |
def get_dynamic_time_agg(start_date, end_date):
|
| 118 |
"""Hardened helper to determine time aggregation level."""
|
| 119 |
if not isinstance(start_date, pd.Timestamp) or not isinstance(end_date, pd.Timestamp):
|