Spaces:

AliMustapha
/

Geo-GenderStudy

Runtime error

App Files Files Community

Geo-GenderStudy / get_gender.py

AliMustapha

fix the name handler

d86077e over 2 years ago

raw

history blame contribute delete

2.67 kB

	__copyright__ = "Copyright (C) 2023 Ali Mustapha"
	__license__ = "GPL-3.0-or-later"

	import tensorflow as tf
	import numpy as np
	import re
	import unicodedata
	from utils import data_utils
	from unidecode import unidecode

	# from utils import self
	class GenderPredictor:
	def __init__(self, model_path):
	self.model = self.load_model(model_path)

	def load_model(self, path):
	model = tf.keras.models.load_model(path)
	# Compile and train the model
	model.compile(
	loss=tf.keras.losses.categorical_crossentropy,
	optimizer=tf.keras.optimizers.Adam(),
	metrics=['accuracy']
	)
	return model

	def predict_gender(self, name):
	EMAIL_re = re.compile(r"^[^\s@]+@[^\s@]+$")
	proba=100

	if EMAIL_re.match(name):
	prediction = 2
	else:

	translator = str.maketrans(r"-._\/+", " ")

	name = name.translate(translator)
	name = data_utils.text_to_romanize(name)
	name=data_utils.remove_spaces_from_ends(name)
	if (len(name) < 3 or data_utils.is_most_common_char(name)) and data_utils.is_roman_language(name):
	prediction = 2
	elif not data_utils.is_alpha(name):
	prediction = 2
	else:
	translator = str.maketrans("", "", "0123456789")
	name = name.translate(translator)
	name = name.split()[0] if len(name.split()[0]) > 2 else name

	try:
	predictions_proba = self.model.predict([name], verbose=0).astype('float')
	prediction,proba = self.get_label(predictions_proba)
	prediction_part = []
	if prediction == 2:
	parts = name.split()
	if len(parts) >1:
	for part in parts:
	prediction = self.predict_gender(part)
	prediction_part.append(prediction)
	prediction=data_utils.find_common_item(prediction_part)
	except Exception:
	prediction = 2
	return prediction,proba

	def get_label(self, predictions_proba):
	for index, row in enumerate(predictions_proba):
	proba=100
	if row[2] >= 0.1:
	max_index = 2
	else:
	max_index = np.argmax(row)
	if max_index == 2:
	proba= 100
	else:
	proba =int(row[max_index] * 100)


	return max_index,proba