Spaces:

Deepakraj2006
/

News_Scraper_TTS

Running

App Files Files Community

Deepakraj2006 commited on Mar 22

Commit

bf539d4

verified ·

1 Parent(s): 49a053d

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -16

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import os
 from dotenv import load_dotenv
 load_dotenv()
@@ -15,31 +15,34 @@ from transformers import (
     MarianMTModel, MarianTokenizer,
     BarkModel, AutoProcessor
 )
 # -------------------------
 # Global Setup and Environment Variables
 # -------------------------
 NEWS_API_KEY = os.getenv("NEWS_API_KEY")  # Set this in your .env file
-device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # -------------------------
 # News Extraction Functions
 # -------------------------
-def fetch_and_scrape_news(company, api_key, count=11, output_file='news_articles.xlsx'):
     newsapi = NewsApiClient(api_key=api_key)
     all_articles = newsapi.get_everything(q=company, language='en', sort_by='relevancy', page_size=count)
     articles = all_articles.get('articles', [])
     scraped_data = []
-    for article in articles:
         url = article.get('url')
         if url:
             scraped_article = scrape_news(url)
             if scraped_article:
                 scraped_article['url'] = url
                 scraped_data.append(scraped_article)
     df = pd.DataFrame(scraped_data)
     df.to_excel(output_file, index=False, header=True)
     print(f"News scraping complete. Data saved to {output_file}")
@@ -47,9 +50,11 @@ def fetch_and_scrape_news(company, api_key, count=11, output_file='news_articles
 def scrape_news(url):
     headers = {"User-Agent": "Mozilla/5.0"}
-    response = requests.get(url, headers=headers)
-    if response.status_code != 200:
-        print(f"Failed to fetch the page: {url}")
         return None
     soup = BeautifulSoup(response.text, "html.parser")
     headline = soup.find("h1").get_text(strip=True) if soup.find("h1") else "No headline found"
@@ -60,19 +65,20 @@ def scrape_news(url):
 # -------------------------
 # Sentiment Analysis Setup
 # -------------------------
 sentiment_model_name = "cross-encoder/nli-distilroberta-base"
 sentiment_model = AutoModelForSequenceClassification.from_pretrained(
     sentiment_model_name,
-    torch_dtype=torch.float16,
-    device_map="auto"
 )
 sentiment_tokenizer = AutoTokenizer.from_pretrained(sentiment_model_name)
-classifier = pipeline("zero-shot-classification", model=sentiment_model, tokenizer=sentiment_tokenizer)
 labels = ["positive", "negative", "neutral"]
 # -------------------------
 # Summarization Setup
 # -------------------------
 bart_tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
 bart_model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
@@ -97,6 +103,7 @@ def split_into_chunks(text, tokenizer, max_tokens=1024):
 # -------------------------
 # Translation Setup (English to Hindi)
 # -------------------------
 translation_model_name = 'Helsinki-NLP/opus-mt-en-hi'
 trans_tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
 trans_model = MarianMTModel.from_pretrained(translation_model_name)
@@ -109,14 +116,29 @@ def translate_text(text):
 # -------------------------
 # Bark TTS Setup (Hindi)
 # -------------------------
-bark_model = BarkModel.from_pretrained("suno/bark-small").to(device)
 processor = AutoProcessor.from_pretrained("suno/bark")
 # -------------------------
 # Main Pipeline Function
 # -------------------------
 def process_company(company):
     # Step 1: Fetch and scrape news
     fetch_and_scrape_news(company, NEWS_API_KEY)
     df = pd.read_excel('news_articles.xlsx')
     print("Scraped Articles:")
@@ -124,17 +146,20 @@ def process_company(company):
     articles_data = []
     for index, row in df.iterrows():
         article_text = row.get("content", "")
         title = row.get("headline", "No title")
         url = row.get("url", "")
         chunks = split_into_chunks(article_text, bart_tokenizer)
         chunk_summaries = []
-        for chunk in chunks:
             inputs = bart_tokenizer([chunk], max_length=1024, return_tensors='pt', truncation=True)
-            summary_ids = bart_model.generate(inputs.input_ids, num_beams=4, max_length=130, min_length=30, early_stopping=True)
             chunk_summary = bart_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
             chunk_summaries.append(chunk_summary)
         final_summary = ' '.join(chunk_summaries)
         sentiment_result = classifier(final_summary, labels)
         sentiment = sentiment_result["labels"][0]
@@ -150,14 +175,19 @@ def process_company(company):
     for article in articles_data:
         key = article["Sentiment"].capitalize()
         sentiment_distribution[key] += 1
     # Step 2: Translate summaries and generate Hindi speech
     translated_summaries = [translate_text(article["Summary"]) for article in articles_data]
     final_translated_text = "\n\n".join(translated_summaries)
-    inputs = processor(final_translated_text, return_tensors="pt").to(device)
     speech_output = bark_model.generate(**inputs)
     audio_path = "final_summary.wav"
     sf.write(audio_path, speech_output[0].cpu().numpy(), bark_model.generation_config.sample_rate)
     # Build final report
     report = {
@@ -171,10 +201,14 @@ def process_company(company):
         "Final Sentiment Analysis": "Overall sentiment analysis not fully computed",
         "Audio": audio_path
     }
     return report, audio_path
 # Gradio Interface Function
 def gradio_interface(company):
     report, audio_path = process_company(company)
     return report, audio_path

+import os
 from dotenv import load_dotenv
 load_dotenv()
     MarianMTModel, MarianTokenizer,
     BarkModel, AutoProcessor
 )
+import librosa
+import re
 # -------------------------
 # Global Setup and Environment Variables
 # -------------------------
 NEWS_API_KEY = os.getenv("NEWS_API_KEY")  # Set this in your .env file
+device = "cpu"  # Force CPU since no GPU is available in Hugging Face Spaces
 # -------------------------
 # News Extraction Functions
 # -------------------------
+def fetch_and_scrape_news(company, api_key, count=5, output_file='news_articles.xlsx'):
+    print("Starting news fetch from NewsAPI...")
     newsapi = NewsApiClient(api_key=api_key)
     all_articles = newsapi.get_everything(q=company, language='en', sort_by='relevancy', page_size=count)
     articles = all_articles.get('articles', [])
     scraped_data = []
+    print(f"Found {len(articles)} articles. Starting scraping individual articles...")
+    for i, article in enumerate(articles):
         url = article.get('url')
         if url:
+            print(f"Scraping article {i+1}: {url}")
             scraped_article = scrape_news(url)
             if scraped_article:
                 scraped_article['url'] = url
                 scraped_data.append(scraped_article)
     df = pd.DataFrame(scraped_data)
     df.to_excel(output_file, index=False, header=True)
     print(f"News scraping complete. Data saved to {output_file}")
 def scrape_news(url):
     headers = {"User-Agent": "Mozilla/5.0"}
+    try:
+        response = requests.get(url, headers=headers, timeout=10)
+        response.raise_for_status()
+    except Exception as e:
+        print(f"Failed to fetch the page: {url} ({e})")
         return None
     soup = BeautifulSoup(response.text, "html.parser")
     headline = soup.find("h1").get_text(strip=True) if soup.find("h1") else "No headline found"
 # -------------------------
 # Sentiment Analysis Setup
 # -------------------------
+print("Loading sentiment analysis model...")
 sentiment_model_name = "cross-encoder/nli-distilroberta-base"
 sentiment_model = AutoModelForSequenceClassification.from_pretrained(
     sentiment_model_name,
+    torch_dtype=torch.float32
 )
 sentiment_tokenizer = AutoTokenizer.from_pretrained(sentiment_model_name)
+classifier = pipeline("zero-shot-classification", model=sentiment_model, tokenizer=sentiment_tokenizer, device=-1)
 labels = ["positive", "negative", "neutral"]
 # -------------------------
 # Summarization Setup
 # -------------------------
+print("Loading summarization model (BART)...")
 bart_tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
 bart_model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
 # -------------------------
 # Translation Setup (English to Hindi)
 # -------------------------
+print("Loading translation model (MarianMT)...")
 translation_model_name = 'Helsinki-NLP/opus-mt-en-hi'
 trans_tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
 trans_model = MarianMTModel.from_pretrained(translation_model_name)
 # -------------------------
 # Bark TTS Setup (Hindi)
 # -------------------------
+print("Loading Bark TTS model...")
+bark_model = BarkModel.from_pretrained("suno/bark-small")
+bark_model.to(device)
 processor = AutoProcessor.from_pretrained("suno/bark")
+# -------------------------
+# Helper Functions for Audio and Text Preprocessing
+# -------------------------
+def normalize_text(text):
+    return re.sub(r"[^\w\s]", "", text.lower()).strip()
+def resample_audio(audio_array, orig_sr, target_sr=16000):
+    if orig_sr != target_sr:
+        audio_array = librosa.resample(audio_array, orig_sr=orig_sr, target_sr=target_sr)
+    return audio_array
 # -------------------------
 # Main Pipeline Function
 # -------------------------
 def process_company(company):
+    print(f"Processing company: {company}")
     # Step 1: Fetch and scrape news
+    print("Fetching and scraping news...")
     fetch_and_scrape_news(company, NEWS_API_KEY)
     df = pd.read_excel('news_articles.xlsx')
     print("Scraped Articles:")
     articles_data = []
     for index, row in df.iterrows():
+        print(f"Processing article {index+1}...")
         article_text = row.get("content", "")
         title = row.get("headline", "No title")
         url = row.get("url", "")
         chunks = split_into_chunks(article_text, bart_tokenizer)
         chunk_summaries = []
+        for i, chunk in enumerate(chunks):
+            print(f"Summarizing chunk {i+1}/{len(chunks)}...")
             inputs = bart_tokenizer([chunk], max_length=1024, return_tensors='pt', truncation=True)
+            summary_ids = bart_model.generate(inputs.input_ids, num_beams=2, max_length=130, min_length=30, early_stopping=True)
             chunk_summary = bart_tokenizer.decode(summary_ids[0], skip_special_tokens=True)
             chunk_summaries.append(chunk_summary)
         final_summary = ' '.join(chunk_summaries)
+        print("Performing sentiment analysis...")
         sentiment_result = classifier(final_summary, labels)
         sentiment = sentiment_result["labels"][0]
     for article in articles_data:
         key = article["Sentiment"].capitalize()
         sentiment_distribution[key] += 1
+    print("Sentiment distribution computed.")
     # Step 2: Translate summaries and generate Hindi speech
+    print("Translating summaries to Hindi...")
     translated_summaries = [translate_text(article["Summary"]) for article in articles_data]
     final_translated_text = "\n\n".join(translated_summaries)
+    print("Generating Hindi speech with Bark TTS...")
+    inputs = processor(final_translated_text, return_tensors="pt")
     speech_output = bark_model.generate(**inputs)
     audio_path = "final_summary.wav"
     sf.write(audio_path, speech_output[0].cpu().numpy(), bark_model.generation_config.sample_rate)
+    print("Audio generated and saved.")
     # Build final report
     report = {
         "Final Sentiment Analysis": "Overall sentiment analysis not fully computed",
         "Audio": audio_path
     }
+    print("Final report prepared.")
     return report, audio_path
+# -------------------------
 # Gradio Interface Function
+# -------------------------
 def gradio_interface(company):
+    print(f"Received input: {company}")
     report, audio_path = process_company(company)
     return report, audio_path