Spaces:

EzekielMW
/

Spectroscopy

Sleeping

App Files Files Community

EzekielMW commited on Jul 22, 2025

Commit

78ee49c

verified ·

1 Parent(s): bc4f170

Update app.py

Browse files

Files changed (1) hide show

app.py +161 -78

app.py CHANGED Viewed

@@ -7,119 +7,202 @@ from sklearn.decomposition import PCA
 from scipy.signal import savgol_filter
 from math import pi
 plt.switch_backend('agg')
 # Load dataset
 df = pd.read_csv("milk_absorbance.csv")
 df.rename(columns={df.columns[0]: 'Label'}, inplace=True)
-# Main plot generator
 def plot_all():
     plots = []
-    # --- Previous 6 plots (shortened for clarity) ---
-    # [Same code from the earlier version to generate 6 plots]
-    # ---------- New Plot Group 1: Score + Loadings (2 Subplots) ----------
     fig7, axs = plt.subplots(1, 2, figsize=(14, 5))
-    wavelengths = df.columns[1:]
-    labels = df['Label']
     data = df.iloc[:, 1:].values.astype(float)
-    deriv = np.diff(data, axis=1)
     scaler = StandardScaler()
-    norm_deriv = scaler.fit_transform(deriv)
-    deriv_cols = [f'Der_{w1}-{w2}' for w1, w2 in zip(wavelengths[:-1], wavelengths[1:])]
-    processed_df = pd.DataFrame(norm_deriv, columns=deriv_cols)
     processed_df.insert(0, 'Label', labels)
-    X_proc = processed_df.drop('Label', axis=1)
-    y_proc = processed_df['Label']
     pca = PCA(n_components=2)
-    pcs = pca.fit_transform(X_proc)
-    pca_df = pd.DataFrame(pcs, columns=['PC1', 'PC2'])
-    pca_df['Label'] = y_proc.reset_index(drop=True)
-    cmap = plt.cm.get_cmap('tab10', len(pca_df['Label'].unique()))
-    for i, target in enumerate(pca_df['Label'].unique()):
         idx = pca_df['Label'] == target
-        axs[0].scatter(pca_df.loc[idx, 'PC1'], pca_df.loc[idx, 'PC2'], color=cmap(i), label=f"Label {target}", s=40)
-    axs[0].set_title("Score Plot: PC1 vs PC2")
-    axs[0].set_xlabel("PC1")
-    axs[0].set_ylabel("PC2")
     axs[0].legend()
     axs[0].grid()
     loadings = pca.components_.T
-    axs[1].plot(range(len(X_proc.columns)), loadings[:, 0], label='PC1 Loadings')
-    axs[1].plot(range(len(X_proc.columns)), loadings[:, 1], label='PC2 Loadings', color='black')
-    axs[1].set_title("Loadings Plot")
-    axs[1].set_xlabel("Feature Index")
-    axs[1].set_ylabel("Loading Value")
     axs[1].legend()
     axs[1].grid()
     plt.tight_layout()
     plots.append(fig7)
-    # ---------- New Plot Group 2: 3x2 PCA Analysis ----------
     fig8, axs = plt.subplots(3, 2, figsize=(16, 14))
-    raw = data
-    raw_scaled = scaler.fit_transform(raw)
-    der_scaled = scaler.fit_transform(deriv)
     pca_raw = PCA(n_components=10)
     pca_raw_scores = pca_raw.fit_transform(raw_scaled)
-    exp_var_raw = np.cumsum(pca_raw.explained_variance_ratio_) * 100
     pca_der = PCA(n_components=10)
-    pca_der_scores = pca_der.fit_transform(der_scaled)
-    exp_var_der = np.cumsum(pca_der.explained_variance_ratio_) * 100
-    for i, target in enumerate(np.unique(labels)):
         idx = labels == target
-        axs[0, 0].scatter(pca_raw_scores[idx, 0], pca_raw_scores[idx, 1], label=f'Milk {target}', color=cmap(i))
-        axs[0, 1].scatter(pca_der_scores[idx, 0], pca_der_scores[idx, 1], label=f'Milk {target}', color=cmap(i))
-    axs[0, 0].set_title("Raw PCA Score Plot")
-    axs[0, 1].set_title("1st Derivative PCA Score Plot")
-    axs[1, 0].plot(range(len(wavelengths)), pca_raw.components_[0], label='PC1')
-    axs[1, 0].plot(range(len(wavelengths)), pca_raw.components_[1], label='PC2')
-    axs[1, 1].plot(range(len(deriv_cols)), pca_der.components_[0], label='PC1')
-    axs[1, 1].plot(range(len(deriv_cols)), pca_der.components_[1], label='PC2')
-    axs[2, 0].plot(range(1, 11), exp_var_raw, marker='o')
-    axs[2, 1].plot(range(1, 11), exp_var_der, marker='o')
-    for ax in axs.flat:
-        ax.grid(True)
-    axs[0, 0].legend()
-    axs[0, 1].legend()
-    axs[1, 0].set_title("Raw Loadings")
-    axs[1, 1].set_title("Derivative Loadings")
-    axs[2, 0].set_title("Raw Scree")
-    axs[2, 1].set_title("Derivative Scree")
     plt.tight_layout()
     plots.append(fig8)
     return plots
-# Gradio UI with tabs
 with gr.Blocks() as demo:
     gr.Markdown("# 🧪 Dataset Description")
-    with gr.Tab("Preview Raw Data"):
-        gr.DataFrame(df.head(50), label="Milk Absorbance Data")
-    with gr.Tab("Visualizations"):
-        plot_btn = gr.Button("Generate All Visualizations")
-        plot1 = gr.Plot()
-        plot2 = gr.Plot()
-        plot3 = gr.Plot()
-        plot4 = gr.Plot()
-        plot5 = gr.Plot()
-        plot6 = gr.Plot()
-        plot7 = gr.Plot()
-        plot8 = gr.Plot()
-        plot_btn.click(plot_all, inputs=[], outputs=[plot1, plot2, plot3, plot4, plot5, plot6, plot7, plot8])
 demo.launch(server_name="0.0.0.0", server_port=7860, ssr_mode=False)

 from scipy.signal import savgol_filter
 from math import pi
+# Ensure interactive backend for plotting
 plt.switch_backend('agg')
 # Load dataset
 df = pd.read_csv("milk_absorbance.csv")
 df.rename(columns={df.columns[0]: 'Label'}, inplace=True)
+# Gradio plot function
 def plot_all():
     plots = []
+    # Plot 1: Mean Spectra per Class
+    fig1 = plt.figure(figsize=(12, 6))
+    for label in df['Label'].unique():
+        class_df = df[df['Label'] == label]
+        mean_spectrum = class_df.iloc[:, 1:].mean()
+        plt.plot(mean_spectrum.index.astype(int), mean_spectrum, label=f'Label {label}')
+    plt.title('Mean NIR Spectrum per Milk Ratio Class')
+    plt.xlabel('Wavelength (nm)')
+    plt.ylabel('Absorbance')
+    plt.legend(title='Class (Milk Ratio)')
+    plt.grid(True)
+    plt.tight_layout()
+    plots.append(fig1)
+    # Plot 2: Offset Mean Spectra
+    fig2 = plt.figure(figsize=(12, 6))
+    offset_step = 0.1
+    for i, label in enumerate(df['Label'].unique()):
+        class_df = df[df['Label'] == label]
+        mean_spectrum = class_df.iloc[:, 1:].mean()
+        offset = i * offset_step
+        plt.plot(mean_spectrum.index.astype(int), mean_spectrum + offset, label=f'Label {label}')
+    plt.title('Mean NIR Spectrum per Milk Ratio Class (with Offset)')
+    plt.xlabel('Wavelength (nm)')
+    plt.ylabel('Absorbance (Offset Applied)')
+    plt.legend(title='Class (Milk Ratio)')
+    plt.grid(True)
+    plt.tight_layout()
+    plots.append(fig2)
+    # Plot 3: Radar Plot
+    fig3 = plt.figure(figsize=(8, 8))
+    ax = plt.subplot(111, polar=True)
+    subset_cols = df.columns[1:][::20]
+    labels = df['Label'].unique()
+    N = len(subset_cols)
+    angles = [n / float(N) * 2 * pi for n in range(N)] + [0]
+    for label in labels:
+        class_df = df[df['Label'] == label]
+        mean_spectrum = class_df[subset_cols].mean().values
+        values = mean_spectrum.tolist() + [mean_spectrum[0]]
+        ax.plot(angles, values, label=f'Label {label}')
+        ax.fill(angles, values, alpha=0.1)
+    ax.set_xticks(angles[:-1])
+    ax.set_xticklabels(subset_cols.astype(int))
+    plt.title('Radar Plot of Mean Spectra (Subset Wavelengths)')
+    plt.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1))
+    plt.tight_layout()
+    plots.append(fig3)
+    # Plot 4: Cumulative PCA Explained Variance
+    fig4 = plt.figure(figsize=(8, 5))
+    X = df.iloc[:, 1:].values
+    X_scaled = StandardScaler().fit_transform(X)
+    pca = PCA(n_components=20)
+    pca.fit(X_scaled)
+    explained = np.cumsum(pca.explained_variance_ratio_)
+    plt.plot(range(1, 21), explained, marker='o')
+    plt.axhline(y=0.95, color='r', linestyle='--', label='95% Variance')
+    plt.title('Cumulative Explained Variance by PCA')
+    plt.xlabel('Number of Principal Components')
+    plt.ylabel('Cumulative Variance')
+    plt.legend()
+    plt.grid(True)
+    plt.tight_layout()
+    plots.append(fig4)
+    # Plot 5: Derivative + Normalized Spectra
+    fig5 = plt.figure(figsize=(16, 8))
+    y_vals = df['Label'].values
+    wavelengths = df.columns[1:].astype(float)
+    X = df.iloc[:, 1:].values
+    X_deriv = savgol_filter(X, window_length=25, polyorder=5, deriv=1, axis=1)
+    scaler = MinMaxScaler()
+    X_deriv_norm = np.array([scaler.fit_transform(row.reshape(-1, 1)).flatten() for row in X_deriv])
+    unique_labels = np.unique(y_vals)
+    colors = plt.cm.tab10(np.linspace(0, 1, len(unique_labels)))
+    for label, color in zip(unique_labels, colors):
+        indices = np.where(y_vals == label)[0]
+        for i in indices:
+            plt.plot(wavelengths, X_deriv_norm[i], color=color, alpha=0.3, label=f'Milk {label}' if i == indices[0] else '')
+    plt.title("All Spectra After First Derivative + Normalization")
+    plt.xlabel("Wavelength (nm)")
+    plt.ylabel("Normalized First Derivative")
+    plt.legend(title="Group")
+    plt.grid(True)
+    plt.tight_layout()
+    plots.append(fig5)
+    # Plot 6: Derivative Only (No Norm)
+    fig6 = plt.figure(figsize=(16, 8))
+    for label, color in zip(unique_labels, colors):
+        indices = np.where(y_vals == label)[0]
+        for i in indices:
+            plt.plot(wavelengths, X_deriv[i], color=color, alpha=0.3, label=f'Milk {label}' if i == indices[0] else '')
+    plt.title("All Spectra After First Derivative (No Normalization)")
+    plt.xlabel("Wavelength (nm)")
+    plt.ylabel("First Derivative Absorbance")
+    plt.legend(title="Group")
+    plt.grid(True)
+    plt.tight_layout()
+    plots.append(fig6)
+    # Plot 7: Score + Loadings (side-by-side)
     fig7, axs = plt.subplots(1, 2, figsize=(14, 5))
+    wavelength_columns = df.columns[1:]
+    labels = df.iloc[:, 0]
     data = df.iloc[:, 1:].values.astype(float)
+    derivative_data = np.diff(data, axis=1)
     scaler = StandardScaler()
+    normalized_derivative_data = scaler.fit_transform(derivative_data)
+    derivative_wavelength_columns = [f'Der_{w1}-{w2}' for w1, w2 in zip(wavelength_columns[:-1], wavelength_columns[1:])]
+    processed_df = pd.DataFrame(normalized_derivative_data, columns=derivative_wavelength_columns)
     processed_df.insert(0, 'Label', labels)
+    processed_df['Label'] = processed_df['Label'].astype(int)
+    X_processed = processed_df.drop('Label', axis=1)
+    y_processed = processed_df['Label']
     pca = PCA(n_components=2)
+    principal_components = pca.fit_transform(X_processed)
+    pca_df = pd.DataFrame(data=principal_components, columns=['PC1', 'PC2'])
+    pca_df['Label'] = y_processed.reset_index(drop=True)
+    targets = y_processed.unique()
+    cmap = plt.colormaps.get_cmap('tab10', len(targets))
+    for i, target in enumerate(targets):
         idx = pca_df['Label'] == target
+        axs[0].scatter(pca_df.loc[idx, 'PC1'], pca_df.loc[idx, 'PC2'], color=cmap(i), label=f'Label {target}')
+    axs[0].set_title('Score Plot: PC1 vs. PC2')
     axs[0].legend()
     axs[0].grid()
     loadings = pca.components_.T
+    axs[1].plot(loadings[:, 0], label='PC1 Loadings')
+    axs[1].plot(loadings[:, 1], label='PC2 Loadings', color='black')
+    axs[1].set_title('Loadings Plot')
     axs[1].legend()
     axs[1].grid()
     plt.tight_layout()
     plots.append(fig7)
+    # Plot 8: 3x2 PCA Summary
     fig8, axs = plt.subplots(3, 2, figsize=(16, 14))
+    raw_data = df.iloc[:, 1:].values.astype(float)
+    derivative_data = np.diff(raw_data, axis=1)
+    scaler = StandardScaler()
+    raw_scaled = scaler.fit_transform(raw_data)
+    derivative_scaled = scaler.fit_transform(derivative_data)
     pca_raw = PCA(n_components=10)
     pca_raw_scores = pca_raw.fit_transform(raw_scaled)
+    explained_var_raw = np.cumsum(pca_raw.explained_variance_ratio_) * 100
     pca_der = PCA(n_components=10)
+    pca_der_scores = pca_der.fit_transform(derivative_scaled)
+    explained_var_der = np.cumsum(pca_der.explained_variance_ratio_) * 100
+    targets = np.unique(labels)
+    cmap = plt.colormaps.get_cmap('tab10', len(targets))
+    for i, target in enumerate(targets):
         idx = labels == target
+        axs[0, 0].scatter(pca_raw_scores[idx, 0], pca_raw_scores[idx, 1], s=40, label=f'Milk {target}', color=cmap(i))
+        axs[0, 1].scatter(pca_der_scores[idx, 0], pca_der_scores[idx, 1], s=40, label=f'Milk {target}', color=cmap(i))
+    axs[0, 0].set_title('Raw Data: PCA Score Plot')
+    axs[0, 1].set_title('1st Derivative: PCA Score Plot')
+    axs[1, 0].plot(pca_raw.components_[0], label='PC1')
+    axs[1, 0].plot(pca_raw.components_[1], label='PC2')
+    axs[1, 1].plot(pca_der.components_[0], label='PC1')
+    axs[1, 1].plot(pca_der.components_[1], label='PC2')
+    axs[2, 0].plot(range(1, 11), explained_var_raw, marker='o')
+    axs[2, 1].plot(range(1, 11), explained_var_der, marker='o')
+    axs[0, 0].legend(); axs[0, 1].legend()
+    axs[1, 0].legend(); axs[1, 1].legend()
+    axs[2, 0].set_ylim(0, 105)
+    axs[2, 1].set_ylim(0, 105)
+    axs[2, 0].set_title('Raw Data: Scree Plot')
+    axs[2, 1].set_title('1st Derivative: Scree Plot')
     plt.tight_layout()
     plots.append(fig8)
     return plots
+# Gradio UI
 with gr.Blocks() as demo:
     gr.Markdown("# 🧪 Dataset Description")
+    with gr.Tabs():
+        with gr.Tab("Preview Raw Data"):
+            gr.DataFrame(df.head(50), label="Preview of Raw Data")
+        with gr.Tab("Visualizations"):
+            plot_button = gr.Button("Generate Spectroscopy Visualizations")
+            out_gallery = [gr.Plot() for _ in range(8)]
+            plot_button.click(fn=plot_all, inputs=[], outputs=out_gallery)
 demo.launch(server_name="0.0.0.0", server_port=7860, ssr_mode=False)