Spaces:

amaisto
/

CO3

Sleeping

App Files Files Community

CO3 / src /modules /frequencies.py

amaisto

Upload 7 files

b47539a verified about 1 month ago

raw

history blame contribute delete

3.29 kB

	import math
	from collections import Counter
	import pandas as pd
	from sklearn.feature_extraction.text import TfidfVectorizer
	import re

	class FrequenciesModule:
	def get_pmi(self, lemmas, n=2, min_freq=2, top_n=15):
	if len(lemmas) < n:
	return pd.DataFrame()

	ngrams = list(zip(*[lemmas[i:] for i in range(n)]))
	ngram_counts = Counter(ngrams)
	word_counts = Counter(lemmas)
	tot_words = len(lemmas)
	tot_ngrams = len(ngrams)

	res = []
	for ng, freq in ngram_counts.items():
	if freq >= min_freq:
	# Calcolo probabilità congiunta
	p_xy = freq / tot_ngrams
	# Calcolo probabilità marginali
	p_x_p_y = math.prod([word_counts[w] / tot_words for w in ng])

	pmi = math.log2(p_xy / p_x_p_y) if p_x_p_y > 0 else 0
	res.append({"N-gram": " ".join(ng), "PMI": pmi, "Freq": freq})

	df = pd.DataFrame(res)
	if not df.empty:
	return df.sort_values("PMI", ascending=False).head(top_n)
	return df

	def chunk_doc(self, text, doc, mode="numeric", val=5):
	chunks_lemmas = []
	if mode == "numeric":
	lemmas = [t.lemma_.lower() for t in doc if not t.is_punct and not t.is_space]
	try:
	val = int(val)
	chunk_size = math.ceil(len(lemmas) / val) if val > 0 else len(lemmas)
	chunks_lemmas = [lemmas[i:i+chunk_size] for i in range(0, len(lemmas), chunk_size)]
	except ValueError:
	chunks_lemmas = [lemmas]
	elif mode == "regex":
	# Attenzione: la regex ri-processa il testo approssimativamente per estrarre lemmi veloci
	parts = re.split(str(val), text)
	for p in parts:
	if p.strip():
	# Estrazione rapida per non richiamare spacy interamente
	tokens = re.findall(r'\b\w+\b', p.lower())
	chunks_lemmas.append(tokens) # Fallback ai token per velocità se si usa regex grezza
	return chunks_lemmas

	def get_trends(self, chunks_lemmas):
	docs = [" ".join(chunk) for chunk in chunks_lemmas]
	if not docs:
	return pd.DataFrame(), pd.DataFrame()

	# Frequenze Assolute
	freq_data = []
	for i, chunk in enumerate(chunks_lemmas):
	counts = Counter(chunk)
	for word, count in counts.items():
	freq_data.append({"Part": i+1, "Word": word, "Count": count})
	df_freq = pd.DataFrame(freq_data)

	# TF-IDF
	vectorizer = TfidfVectorizer()
	try:
	tfidf_matrix = vectorizer.fit_transform(docs)
	df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())
	df_tfidf["Part"] = range(1, len(docs) + 1)
	# Melt per renderlo compatibile con Plotly
	df_tfidf = df_tfidf.melt(id_vars=["Part"], var_name="Word", value_name="TF-IDF")
	except ValueError:
	df_tfidf = pd.DataFrame(columns=["Part", "Word", "TF-IDF"])

	return df_freq, df_tfidf