Spaces:

lawlevisan
/

Reddit-Analysis

Sleeping

App Files Files Community

lawlevisan commited on Oct 22, 2025

Commit

7e698a8

verified ·

1 Parent(s): f6c54d5

Create config/settings.py

Browse files

Files changed (1) hide show

config/settings.py +160 -0

config/settings.py ADDED Viewed

	@@ -0,0 +1,160 @@

+# config/settings.py
+import os
+from dotenv import load_dotenv
+load_dotenv()
+# --------------------
+# Reddit API Credentials
+# --------------------
+REDDIT_CLIENT_ID = os.getenv("REDDIT_CLIENT_ID")
+REDDIT_CLIENT_SECRET = os.getenv("REDDIT_CLIENT_SECRET")
+REDDIT_USER_AGENT = os.getenv("REDDIT_USER_AGENT")
+# --------------------
+# MongoDB Configuration
+# --------------------
+MONGO_URI = os.getenv("MONGO_URI")
+MONGO_DB_NAME = os.getenv("MONGO_DB_NAME", "reddit_db")
+# --------------------
+# Logging
+# --------------------
+LOG_FILE = "logs/reddit_scraper.log"
+LOG_LEVEL = "INFO"  # or DEBUG
+# --------------------
+# Automation Flags
+# --------------------
+AUTOMATED_FETCH_LIMITS = True   # Fetch max posts/comments dynamically
+AUTOMATED_RISK = True           # Compute risk dynamically from data
+AUTOMATED_LOCATION_EXTRACTION = True  # Extract locations from text automatically
+# --------------------
+# Fetching Settings
+# --------------------
+FETCH_DAYS = 90
+POST_LIMIT = None     # If AUTOMATED_FETCH_LIMITS = True, fetch max allowed
+COMMENT_LIMIT = None
+MAX_COMMENTS_PER_POST = None
+# --------------------
+# Subreddits & Keywords (Auto-updated from data)
+# --------------------
+SUBREDDITS = [
+    "India", "Karnataka", "Drugs", "bangalore",
+    "narcotics", "DarkNetMarkets", "IndianEnts"
+]
+DRUG_KEYWORDS = [
+    # Common drugs
+    "weed", "charas", "brown sugar", "cocaine", "MDMA", "ganja",
+    "mdma", "lsd", "drug", "smuggle", "heroin", "meth", "cannabis",
+    # Drug-related activities
+    "dealer", "peddler", "trafficking", "bust", "raid", "seized",
+    "arrested", "narcotics", "contraband", "substance abuse",
+    # Street names and slang will be handled separately
+]
+LOCATIONS = [
+    "Bengaluru", "BTM", "Majestic", "Koramangala", "Indiranagar",
+    "Whitefield", "Electronic City", "Marathahalli", "HSR Layout",
+    "Jayanagar", "Malleshwaram", "Rajajinagar", "Yelahanka"
+]
+SLANG_DICT = [
+    # Cannabis slang
+    "chronic", "blunt", "dope", "kush", "420", "ganja", "pot", "mary jane",
+    "grass", "herb", "green", "bud",
+    # MDMA/Ecstasy slang
+    "molly", "x", "e", "rolls",
+    # Cocaine slang
+    "coke", "snow", "blow", "white", "powder",
+    # LSD slang
+    "acid", "tabs", "doses",
+    # General slang
+    "stash", "score", "plug", "connect", "trap", "deal"
+]
+# --------------------
+# Location Coordinates (Auto-detected from data)
+# These are fallback coordinates if location detection fails
+# --------------------
+LOCATION_COORDS = {
+    # Bengaluru areas
+    "BTM": (12.917, 77.610),
+    "Majestic": (12.976, 77.592),
+    "Koramangala": (12.935, 77.622),
+    "Indiranagar": (12.971, 77.641),
+    "Whitefield": (12.970, 77.750),
+    "Electronic City": (12.839, 77.677),
+    "Marathahalli": (12.959, 77.697),
+    "HSR Layout": (12.912, 77.641),
+    "Jayanagar": (12.926, 77.584),
+    "Malleshwaram": (13.003, 77.571),
+    "Rajajinagar": (12.990, 77.552),
+    "Yelahanka": (13.100, 77.594),
+    "Bengaluru": (12.9716, 77.5946),
+    # Karnataka cities (for district-level analysis)
+    "Mysuru": (12.2958, 76.6394),
+    "Hubli": (15.3647, 75.1240),
+    "Mangaluru": (12.9141, 74.8560),
+    "Belagavi": (15.8497, 74.4977),
+    "Tumakuru": (13.3392, 77.1012)
+}
+# --------------------
+# Data paths
+# --------------------
+RAW_DATA_PATH = "data/raw/"
+PROCESSED_DATA_PATH = "data/processed/"
+# --------------------
+# Risk Score Weights (for automated risk calculation)
+# --------------------
+RISK_WEIGHTS = {
+    "keyword_frequency": 0.4,
+    "location_frequency": 0.3,
+    "sentiment_negative": 0.2,
+    "slang_usage": 0.1
+}
+# --------------------
+# Sentiment Thresholds
+# --------------------
+SENTIMENT_POSITIVE_THRESHOLD = 0.05
+SENTIMENT_NEGATIVE_THRESHOLD = -0.05
+# --------------------
+# High-Risk Keywords (weighted higher in risk calculation)
+# --------------------
+HIGH_RISK_KEYWORDS = [
+    "smuggle", "trafficking", "dealer", "peddler", "bust",
+    "raid", "seized", "arrested", "contraband"
+]
+# --------------------
+# Dashboard Configuration
+# --------------------
+DASHBOARD_REFRESH_INTERVAL = 300  # seconds (5 minutes)
+MAX_POSTS_DISPLAY = 100
+MAP_DEFAULT_ZOOM = 11
+# --------------------
+# Alert Thresholds (for automated alerts)
+# --------------------
+HIGH_RISK_THRESHOLD = 0.75  # Top 25% risk scores
+ALERT_KEYWORDS = ["bust", "raid", "arrested", "seized"]
+# --------------------
+# Export Settings
+# --------------------
+EXPORT_FORMAT = "csv"  # or "json", "excel"
+INCLUDE_METADATA = True