Spaces:

Multichem-PD
/

DFS_Portfolio_Manager

Running

James McCool commited on Jul 1, 2025

Commit

c283108

1 Parent(s): dd908a8

Enhance player selection handling in predict_dupes function

This update improves the player selection process by ensuring only valid string values are added to the unique player set. Additionally, it introduces a check to return a zero vector if no valid players are found, enhancing robustness. The player_columns are dynamically defined based on the portfolio structure, ensuring accurate processing of player data across different lineup configurations.

Files changed (1) hide show

global_func/predict_dupes.py +24 -3

global_func/predict_dupes.py CHANGED Viewed

@@ -56,9 +56,19 @@ def calculate_player_similarity_score(portfolio, player_columns):
     # Get all unique players across all lineups
     all_players = set()
     for col in player_columns:
-        all_players.update(player_data[col].unique())
     all_players = sorted(list(all_players))
     # Create a binary matrix: 1 if player is in lineup, 0 if not
     binary_matrix = np.zeros((len(portfolio), len(all_players)))
@@ -115,7 +125,9 @@ def predict_dupes(portfolio, maps_dict, site_var, type_var, Contest_Size, streng
             dup_count_columns = ['CPT_Own_percent_rank', 'FLEX1_Own_percent_rank', 'FLEX2_Own_percent_rank', 'FLEX3_Own_percent_rank', 'FLEX4_Own_percent_rank']
             own_columns = ['CPT_Own', 'FLEX1_Own', 'FLEX2_Own', 'FLEX3_Own', 'FLEX4_Own']
             calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'own_ratio', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
             player_columns = [col for col in portfolio.columns[:5] if col not in ['salary', 'median', 'Own']]
             flex_ownerships = pd.concat([
                 portfolio.iloc[:,1].map(maps_dict['own_map']),
                 portfolio.iloc[:,2].map(maps_dict['own_map']),
@@ -157,7 +169,9 @@ def predict_dupes(portfolio, maps_dict, site_var, type_var, Contest_Size, streng
             dup_count_columns = [f'player_{i}_percent_rank' for i in range(1, num_players + 1)]
             own_columns = [f'player_{i}_own' for i in range(1, num_players + 1)]
             calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'own_ratio', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
             player_columns = [col for col in portfolio.columns[:num_players] if col not in ['salary', 'median', 'Own']]
             for i in range(1, num_players + 1):
                 portfolio[f'player_{i}_percent_rank'] = portfolio.iloc[:,i-1].map(maps_dict['own_percent_rank'])
                 portfolio[f'player_{i}_own'] = portfolio.iloc[:,i-1].map(maps_dict['own_map']) / 100
@@ -181,7 +195,9 @@ def predict_dupes(portfolio, maps_dict, site_var, type_var, Contest_Size, streng
             dup_count_columns = ['CPT_Own_percent_rank', 'FLEX1_Own_percent_rank', 'FLEX2_Own_percent_rank', 'FLEX3_Own_percent_rank', 'FLEX4_Own_percent_rank', 'FLEX5_Own_percent_rank']
             own_columns = ['CPT_Own', 'FLEX1_Own', 'FLEX2_Own', 'FLEX3_Own', 'FLEX4_Own', 'FLEX5_Own']
             calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
             player_columns = [col for col in portfolio.columns[:6] if col not in ['salary', 'median', 'Own']]
             flex_ownerships = pd.concat([
                 portfolio.iloc[:,1].map(maps_dict['own_map']),
                 portfolio.iloc[:,2].map(maps_dict['own_map']),
@@ -226,7 +242,9 @@ def predict_dupes(portfolio, maps_dict, site_var, type_var, Contest_Size, streng
                 dup_count_columns = ['CPT_Own_percent_rank', 'FLEX1_Own_percent_rank', 'FLEX2_Own_percent_rank', 'FLEX3_Own_percent_rank', 'FLEX4_Own_percent_rank', 'FLEX5_Own_percent_rank']
                 own_columns = ['CPT_Own', 'FLEX1_Own', 'FLEX2_Own', 'FLEX3_Own', 'FLEX4_Own', 'FLEX5_Own']
                 calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
                 player_columns = [col for col in portfolio.columns[:6] if col not in ['salary', 'median', 'Own']]
                 flex_ownerships = pd.concat([
                     portfolio.iloc[:,1].map(maps_dict['own_map']),
                     portfolio.iloc[:,2].map(maps_dict['own_map']),
@@ -271,7 +289,9 @@ def predict_dupes(portfolio, maps_dict, site_var, type_var, Contest_Size, streng
                 dup_count_columns = [f'player_{i}_percent_rank' for i in range(1, num_players + 1)]
                 own_columns = [f'player_{i}_own' for i in range(1, num_players + 1)]
                 calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
                 player_columns = [col for col in portfolio.columns[:num_players] if col not in ['salary', 'median', 'Own']]
                 for i in range(1, num_players + 1):
                     portfolio[f'player_{i}_percent_rank'] = portfolio.iloc[:,i-1].map(maps_dict['own_percent_rank'])
                     portfolio[f'player_{i}_own'] = portfolio.iloc[:,i-1].map(maps_dict['own_map']) / 100
@@ -329,9 +349,10 @@ def predict_dupes(portfolio, maps_dict, site_var, type_var, Contest_Size, streng
     portfolio['Lineup Edge'] = portfolio['Lineup Edge'] - portfolio['Lineup Edge'].mean()
     portfolio['Weighted Own'] = portfolio[own_columns].apply(calculate_weighted_ownership, axis=1)
     portfolio['Geomean'] = np.power((portfolio[own_columns] * 100).product(axis=1), 1 / len(own_columns))
     portfolio['Similarity Score'] = calculate_player_similarity_score(portfolio, player_columns)
     portfolio = portfolio.drop(columns=dup_count_columns)
     portfolio = portfolio.drop(columns=own_columns)
     portfolio = portfolio.drop(columns=calc_columns)

     # Get all unique players across all lineups
     all_players = set()
     for col in player_columns:
+        # Only add string values (player names), skip numeric values
+        unique_vals = player_data[col].unique()
+        for val in unique_vals:
+            if isinstance(val, str) and val.strip() != '':
+                all_players.add(val)
+    # Convert to sorted list
     all_players = sorted(list(all_players))
+    # If no valid players found, return zeros
+    if len(all_players) == 0:
+        return np.zeros(len(portfolio))
     # Create a binary matrix: 1 if player is in lineup, 0 if not
     binary_matrix = np.zeros((len(portfolio), len(all_players)))
             dup_count_columns = ['CPT_Own_percent_rank', 'FLEX1_Own_percent_rank', 'FLEX2_Own_percent_rank', 'FLEX3_Own_percent_rank', 'FLEX4_Own_percent_rank']
             own_columns = ['CPT_Own', 'FLEX1_Own', 'FLEX2_Own', 'FLEX3_Own', 'FLEX4_Own']
             calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'own_ratio', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
+            # Get the original player columns (first 5 columns excluding salary, median, Own)
             player_columns = [col for col in portfolio.columns[:5] if col not in ['salary', 'median', 'Own']]
             flex_ownerships = pd.concat([
                 portfolio.iloc[:,1].map(maps_dict['own_map']),
                 portfolio.iloc[:,2].map(maps_dict['own_map']),
             dup_count_columns = [f'player_{i}_percent_rank' for i in range(1, num_players + 1)]
             own_columns = [f'player_{i}_own' for i in range(1, num_players + 1)]
             calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'own_ratio', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
+            # Get the original player columns (first num_players columns excluding salary, median, Own)
             player_columns = [col for col in portfolio.columns[:num_players] if col not in ['salary', 'median', 'Own']]
             for i in range(1, num_players + 1):
                 portfolio[f'player_{i}_percent_rank'] = portfolio.iloc[:,i-1].map(maps_dict['own_percent_rank'])
                 portfolio[f'player_{i}_own'] = portfolio.iloc[:,i-1].map(maps_dict['own_map']) / 100
             dup_count_columns = ['CPT_Own_percent_rank', 'FLEX1_Own_percent_rank', 'FLEX2_Own_percent_rank', 'FLEX3_Own_percent_rank', 'FLEX4_Own_percent_rank', 'FLEX5_Own_percent_rank']
             own_columns = ['CPT_Own', 'FLEX1_Own', 'FLEX2_Own', 'FLEX3_Own', 'FLEX4_Own', 'FLEX5_Own']
             calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
+            # Get the original player columns (first 6 columns excluding salary, median, Own)
             player_columns = [col for col in portfolio.columns[:6] if col not in ['salary', 'median', 'Own']]
             flex_ownerships = pd.concat([
                 portfolio.iloc[:,1].map(maps_dict['own_map']),
                 portfolio.iloc[:,2].map(maps_dict['own_map']),
                 dup_count_columns = ['CPT_Own_percent_rank', 'FLEX1_Own_percent_rank', 'FLEX2_Own_percent_rank', 'FLEX3_Own_percent_rank', 'FLEX4_Own_percent_rank', 'FLEX5_Own_percent_rank']
                 own_columns = ['CPT_Own', 'FLEX1_Own', 'FLEX2_Own', 'FLEX3_Own', 'FLEX4_Own', 'FLEX5_Own']
                 calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
+                # Get the original player columns (first 6 columns excluding salary, median, Own)
                 player_columns = [col for col in portfolio.columns[:6] if col not in ['salary', 'median', 'Own']]
                 flex_ownerships = pd.concat([
                     portfolio.iloc[:,1].map(maps_dict['own_map']),
                     portfolio.iloc[:,2].map(maps_dict['own_map']),
                 dup_count_columns = [f'player_{i}_percent_rank' for i in range(1, num_players + 1)]
                 own_columns = [f'player_{i}_own' for i in range(1, num_players + 1)]
                 calc_columns = ['own_product', 'own_average', 'own_sum', 'avg_own_rank', 'dupes_calc', 'low_own_count', 'Ref_Proj', 'Max_Proj', 'Min_Proj', 'Avg_Ref', 'own_ratio']
+                # Get the original player columns (first num_players columns excluding salary, median, Own)
                 player_columns = [col for col in portfolio.columns[:num_players] if col not in ['salary', 'median', 'Own']]
                 for i in range(1, num_players + 1):
                     portfolio[f'player_{i}_percent_rank'] = portfolio.iloc[:,i-1].map(maps_dict['own_percent_rank'])
                     portfolio[f'player_{i}_own'] = portfolio.iloc[:,i-1].map(maps_dict['own_map']) / 100
     portfolio['Lineup Edge'] = portfolio['Lineup Edge'] - portfolio['Lineup Edge'].mean()
     portfolio['Weighted Own'] = portfolio[own_columns].apply(calculate_weighted_ownership, axis=1)
     portfolio['Geomean'] = np.power((portfolio[own_columns] * 100).product(axis=1), 1 / len(own_columns))
+    # Calculate similarity score based on actual player selection
     portfolio['Similarity Score'] = calculate_player_similarity_score(portfolio, player_columns)
     portfolio = portfolio.drop(columns=dup_count_columns)
     portfolio = portfolio.drop(columns=own_columns)
     portfolio = portfolio.drop(columns=calc_columns)