Arjon07CSE commited on
Commit
cc763e1
·
verified ·
1 Parent(s): 8c82701

solved the stop words conflict

Browse files
Files changed (1) hide show
  1. app.py +23 -18
app.py CHANGED
@@ -72,25 +72,9 @@ def clean_bengali_text(text):
72
  # Remove extra spaces
73
  cleaned = re.sub(r'\s+', ' ', cleaned).strip()
74
  return cleaned
75
- NOTEBOOK_STOPWORDS = set([
76
- 'এবং', 'ও', 'বা', 'কিংবা', 'অথবা', 'কিন্তু', 'এর', 'এ', 'এই', 'সেই', 'ওই', 'এক', 'জন্য',
77
- 'আমার', 'তোমার', 'তার', 'আমাদের', 'তাদের', 'সে', 'তিনি', 'আমি', 'তুমি', 'যে', 'যায়', 'হয়',
78
- 'হবে', 'ছিল', 'আছে', 'নেই', 'এটা', 'ওটা', 'সেটা', 'করে', 'করতে', 'করেছে', 'করছেন', 'থেকে',
79
- 'সাথে', 'মধ্যে', 'উপরে', 'নিচে', 'পরে', 'আগে', 'শুধু', 'খুব', 'অনেক', 'আরও', 'হিসাবে', 'তাহলে',
80
- 'হলে', 'তাই', 'সুতরাং', 'কারণে', 'একটি', 'হয়ে', 'হয়েছিল', 'হচ্ছে', 'হয়েছে', 'না', 'হ্যাঁ', 'কি',
81
- 'কী', 'কে', 'কোন', 'গুলো', 'কিছু', 'বলেন', 'বললেন', 'বলল', 'আর', 'ভাই', 'হোক', 'চাই', 'বাদ',
82
- 'দিতে', 'দিয়ে', 'দিলেন', 'দেন', 'যাবে', 'যাক', 'পারা', 'পারে', 'করা', 'করি', 'করার', 'করছে',
83
- 'করবে', 'সব', 'এখন', 'যদি', 'কেন', 'কবে', 'কেমন', 'ইনশাআল্লাহ', 'আপনি', 'আপনার', 'আপনারা', 'আমরা'
84
- ])
85
- COMBINED_STOPWORDS = set(BANGLA_STOP_WORDS) | NOTEBOOK_STOPWORDS
86
- PHRASES_TO_JOIN = {
87
- "তারেক রহমান": "তারেক_রহমান",
88
- "খালেদা জিয়া": "খালেদা_জিয়া",
89
- "বিএনপি জিন্দাবাদ": "বিএনপি_জিন্দাবাদ"
90
- # Add more as needed
91
- }
92
- # ==============================================================================
93
 
 
94
  BANGLA_STOP_WORDS = [
95
  'অতএব', 'অথচ', 'অথবা', 'অনুযায়ী', 'অনেক', 'অনেকে', 'অনেকেই', 'অন্তত', 'অন্য', 'অবধি', 'অবশ্য',
96
  'অভিপ্রায়', 'একে', 'একই', 'একেবারে', 'একটি', 'একবার', 'এখন', 'এখনও', 'এখানে', 'এখানেই', 'এটি',
@@ -109,6 +93,27 @@ BANGLA_STOP_WORDS = [
109
  'সম্পর্কে', 'সঙ্গেও', 'সর্বাধিক', 'সর্বদা', 'সহ', 'হৈতে', 'হইবে', 'হইয়া', 'হৈল', 'জানিয়েছেন', 'প্রতিবেদক'
110
  ]
111
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
112
  def get_dynamic_time_agg(start_date, end_date):
113
  """Hardened helper to determine time aggregation level."""
114
  if not isinstance(start_date, pd.Timestamp) or not isinstance(end_date, pd.Timestamp):
 
72
  # Remove extra spaces
73
  cleaned = re.sub(r'\s+', ' ', cleaned).strip()
74
  return cleaned
75
+ # --- DEFINE ALL YOUR STOPWORDS FIRST ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
76
 
77
+ # List of Bengali stop words
78
  BANGLA_STOP_WORDS = [
79
  'অতএব', 'অথচ', 'অথবা', 'অনুযায়ী', 'অনেক', 'অনেকে', 'অনেকেই', 'অন্তত', 'অন্য', 'অবধি', 'অবশ্য',
80
  'অভিপ্রায়', 'একে', 'একই', 'একেবারে', 'একটি', 'একবার', 'এখন', 'এখনও', 'এখানে', 'এখানেই', 'এটি',
 
93
  'সম্পর্কে', 'সঙ্গেও', 'সর্বাধিক', 'সর্বদা', 'সহ', 'হৈতে', 'হইবে', 'হইয়া', 'হৈল', 'জানিয়েছেন', 'প্রতিবেদক'
94
  ]
95
 
96
+ # Another set of stop words from your notebook
97
+ NOTEBOOK_STOPWORDS = set([
98
+ 'এবং', 'ও', 'বা', 'কিংবা', 'অথবা', 'কিন্তু', 'এর', 'এ', 'এই', 'সেই', 'ওই', 'এক', 'জন্য',
99
+ 'আমার', 'তোমার', 'তার', 'আমাদের', 'তাদের', 'সে', 'তিনি', 'আমি', 'তুমি', 'যে', 'যায়', 'হয়',
100
+ 'হবে', 'ছিল', 'আছে', 'নেই', 'এটা', 'ওটা', 'সেটা', 'করে', 'করতে', 'করেছে', 'করছেন', 'থেকে',
101
+ 'সাথে', 'মধ্যে', 'উপরে', 'নিচে', 'পরে', 'আগে', 'শুধু', 'খুব', 'অনেক', 'আরও', 'হিসাবে', 'তাহলে',
102
+ 'হলে', 'তাই', 'সুতরাং', 'কারণে', 'একটি', 'হয়ে', 'হয়েছিল', 'হচ্ছে', 'হয়েছে', 'না', 'হ্যাঁ', 'কি',
103
+ 'কী', 'কে', 'কোন', 'গুলো', 'কিছু', 'বলেন', 'বললেন', 'বলল', 'আর', 'ভাই', 'হোক', 'চাই', 'বাদ',
104
+ 'দিতে', 'দিয়ে', 'দিলেন', 'দেন', 'যাবে', 'যাক', 'পারা', 'পারে', 'করা', 'করি', 'করার', 'করছে',
105
+ 'করবে', 'সব', 'এখন', 'যদি', 'কেন', 'কবে', 'কেমন', 'ইনশাআল্লাহ', 'আপনি', 'আপনার', 'আপনারা', 'আমরা'
106
+ ])
107
+
108
+ COMBINED_STOPWORDS = set(BANGLA_STOP_WORDS) | NOTEBOOK_STOPWORDS
109
+ PHRASES_TO_JOIN = {
110
+ "তারেক রহমান": "তারেক_রহমান",
111
+ "খালেদা জিয়া": "খালেদা_জিয়া",
112
+ "বিএনপি জিন্দাবাদ": "বিএনপি_জিন্দাবাদ"
113
+ # Add more as needed
114
+ }
115
+
116
+
117
  def get_dynamic_time_agg(start_date, end_date):
118
  """Hardened helper to determine time aggregation level."""
119
  if not isinstance(start_date, pd.Timestamp) or not isinstance(end_date, pd.Timestamp):