Spaces:

AliMustapha
/

Geo-GenderStudy

Runtime error

App Files Files Community

AliMustapha commited on Sep 1, 2023

Commit

7249102

1 Parent(s): ca893a9

add region plot

Browse files

Files changed (2) hide show

app.py +10 -10
get_region.py +4 -3

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ __license__ = "GPL-3.0-or-later"
 import gradio as gr
 from get_gender import GenderPredictor
 from GitScraping import CommitInfo
 import pandas as pd
 import utils.plot as plot
 class GenderPredictorApp:
@@ -20,9 +21,10 @@ class GenderPredictorApp:
         name = gr.inputs.Textbox(label="Git-url")
         pie_chart_output = gr.Plot(label="Authors by gender")
         histo_chart = gr.Plot(label="Known commits by gender")
         data_output =gr.Dataframe(headers=None,label="Contributers Details")
         # name_buttom = gr.Button("Predict")
-        interface2_fn = gr.Interface(self.predict_github_url, inputs=name, outputs=[pie_chart_output, histo_chart,data_output], title="GitGender: Exploring Global Gender Disparities in Public Code Contributions",cache_examples=True )
         demo = gr.TabbedInterface([interface1_fn, interface2_fn], ["Test Model", "Exploring Diversity in GitHub Repositories"])
         self.demo = demo
@@ -42,24 +44,22 @@ class GenderPredictorApp:
         return prediction
     def predict_github_url(self, url):
         commit_info = CommitInfo(url)
-        print(url)
         df,first_commit_dates = commit_info.get_first_commit_dates()
         first_commit_dates[['Predicted_Gender', 'Confidence']] = first_commit_dates['Author'].apply(lambda name: pd.Series(self.gender_predictor.predict_gender(name)))
         first_commit_dates['Predicted_Gender'] = first_commit_dates['Predicted_Gender'].replace({0: "Male", 1: "Female", 2: "Unknown"})
-        print(first_commit_dates)
         Gender_Percentage=plot.get_gender_percentage(first_commit_dates)
-        # ******************************
-        merged_df = df.merge(first_commit_dates[["Author","Predicted_Gender","Confidence"]], on=["Author"])
         # Group by Year and Predicted_Gender, then count the occurrences
         commit_per_gender_counts = merged_df.groupby(['Year', 'Predicted_Gender']).size().reset_index(name='Count')
-        fig=plot.get_commits_per_gender(commit_per_gender_counts)
         # Convert the chart to HTML and return it
-        return Gender_Percentage,fig,first_commit_dates[["Author","First_Commit_Date","Predicted_Gender"]]
     def launch(self):
         self.demo.launch()

 import gradio as gr
 from get_gender import GenderPredictor
 from GitScraping import CommitInfo
+from get_region import RegionPredictor
 import pandas as pd
 import utils.plot as plot
 class GenderPredictorApp:
         name = gr.inputs.Textbox(label="Git-url")
         pie_chart_output = gr.Plot(label="Authors by gender")
         histo_chart = gr.Plot(label="Known commits by gender")
+        region_commits = gr.Plot(label="Known commits by gender")
         data_output =gr.Dataframe(headers=None,label="Contributers Details")
         # name_buttom = gr.Button("Predict")
+        interface2_fn = gr.Interface(self.predict_github_url, inputs=name, outputs=[pie_chart_output, histo_chart,region_commits,data_output], title="GitGender: Exploring Global Gender Disparities in Public Code Contributions",cache_examples=True )
         demo = gr.TabbedInterface([interface1_fn, interface2_fn], ["Test Model", "Exploring Diversity in GitHub Repositories"])
         self.demo = demo
         return prediction
     def predict_github_url(self, url):
         commit_info = CommitInfo(url)
+        Region_predictor=RegionPredictor("saved_model/Regions")
         df,first_commit_dates = commit_info.get_first_commit_dates()
         first_commit_dates[['Predicted_Gender', 'Confidence']] = first_commit_dates['Author'].apply(lambda name: pd.Series(self.gender_predictor.predict_gender(name)))
         first_commit_dates['Predicted_Gender'] = first_commit_dates['Predicted_Gender'].replace({0: "Male", 1: "Female", 2: "Unknown"})
         Gender_Percentage=plot.get_gender_percentage(first_commit_dates)
+        Results=first_commit_dates[first_commit_dates["Predicted_Gender"]!="Unknown"]
+        Results=Region_predictor.get_region(Results)
+        merged_df = df.merge(Results[["Author","sub-region-prediction","Predicted_Gender","Confidence"]], on=["Author"])
         # Group by Year and Predicted_Gender, then count the occurrences
         commit_per_gender_counts = merged_df.groupby(['Year', 'Predicted_Gender']).size().reset_index(name='Count')
+        commits_per_gender=plot.get_commits_per_gender(commit_per_gender_counts)
+        commits_per_region=plot.get_commits_per_gender(merged_df,url)
         # Convert the chart to HTML and return it
+        return Gender_Percentage,commits_per_gender,Results[["Author","First_Commit_Date","sub-region-prediction","Predicted_Gender"]],commits_per_region
     def launch(self):
         self.demo.launch()

get_region.py CHANGED Viewed

@@ -27,8 +27,8 @@ class RegionPredictor:
     def model_prediction(self, dataset,model,label_encoder,optF1=None,optROC=None):
-        input_Full_name=np.asarray(dataset['Full_Name']).astype('str')
-        input_offset=np.asarray(dataset['offset']).astype('float')
         predictions_proba = model.predict({
             "input_text": input_Full_name,
             "input_offset": input_offset
@@ -51,6 +51,7 @@ class RegionPredictor:
         return y_pred_F1,y_pred_ROC
     def get_region(self,dataset):
         model,label_encoder,optF1,optROC=self.loadModel(self.models_directory+"/region/files/")
         y_pred,_=self.model_prediction(dataset,model,label_encoder,optF1,optROC)
         dataset["region-prediction"]=y_pred
@@ -67,7 +68,7 @@ class RegionPredictor:
         y_pred,_=self.model_prediction(Asia,model,label_encoder,optF1,optROC)
         Asia["sub-region-prediction"]=y_pred
         model,label_encoder,optF1,optROC=self.loadModel(self.models_directory+"/Americas/files/")
-        y_pred=self.model_prediction(Americas,model,label_encoder,optF1,optROC)
         Americas["sub-region-prediction"]=y_pred
         Oceania["sub-region-prediction"]="Australia and New Zealand"
         Africa["sub-region-prediction"]="Africa"

     def model_prediction(self, dataset,model,label_encoder,optF1=None,optROC=None):
+        input_Full_name=np.asarray(dataset['Author']).astype('str')
+        input_offset=np.asarray(dataset['Author_Timezone']).astype('float')
         predictions_proba = model.predict({
             "input_text": input_Full_name,
             "input_offset": input_offset
         return y_pred_F1,y_pred_ROC
     def get_region(self,dataset):
+        dataset["Author_Timezone"]= dataset["Author_Timezone"] /60
         model,label_encoder,optF1,optROC=self.loadModel(self.models_directory+"/region/files/")
         y_pred,_=self.model_prediction(dataset,model,label_encoder,optF1,optROC)
         dataset["region-prediction"]=y_pred
         y_pred,_=self.model_prediction(Asia,model,label_encoder,optF1,optROC)
         Asia["sub-region-prediction"]=y_pred
         model,label_encoder,optF1,optROC=self.loadModel(self.models_directory+"/Americas/files/")
+        y_pred,_=self.model_prediction(Americas,model,label_encoder,optF1,optROC)
         Americas["sub-region-prediction"]=y_pred
         Oceania["sub-region-prediction"]="Australia and New Zealand"
         Africa["sub-region-prediction"]="Africa"