import numpy as np

# --- 1. Dữ liệu XOR gate ---
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])
y = np.array([[0], [1], [1], [0]])  # output XOR


# --- 2. Hàm sigmoid & derivative ---
def sigmoid(x):
    return 1 / (1 + np.exp(-x))


def sigmoid_derivative(x):
    return x * (1 - x)


# --- 3. Khởi tạo weights & bias ---
np.random.seed(42)
input_dim = 2
hidden_dim = 2 # thử đổi thành 3, 4, 5...
'''
Ảnh hưởng:
2 neurons: học XOR ổn
1 neuron: không học được
2 neurons: học nhanh hơn, loss giảm mạnh 👉 Đây là chỗ dễ thấy sự thay đổi nhất. 
'''
output_dim = 1
lr = 0.5 # thử 0.1, 1.0, 2.0
'''
Ảnh hưởng:
lr nhỏ → học chậm, mượt
lr lớn → lúc học rất nhanh, lúc bị “nhảy loạn”, dễ diverge 👉 Thay đổi learning rate luôn thấy kết quả khác.
'''
epochs = 10000 # thử 3000, 50000
'''
Ảnh hưởng:
ít epoch → chưa học hết, dự đoán sai
nhiều epoch → XOR học hoàn hảo hơn
'''

# weights: input -> hidden
w1 = np.random.randn(input_dim, hidden_dim) # Có thể thử nhân thêm weight với 0.1 hoặc 0.001
'''
Hiệu ứng: khi nhân với 0.1
Train rất mượt
Loss giảm đều
Tốc độ học nhanh
Đây là “sweet spot”.

Hiệu ứng: khi nhân với 0.001
Activation gần 0 → mô hình học chậm
Loss giảm nhưng rất từ từ
'''
b1 = np.zeros((1, hidden_dim))

# weights: hidden -> output
w2 = np.random.randn(hidden_dim, output_dim)
b2 = np.zeros((1, output_dim)) # Có thể thử Bias random:  b1 = np.random.randn((1, output_dim))
'''
Hiệu ứng CÓ THỂ THẤY RÕ:
Decision boundary bắt đầu lệch → học XOR nhanh hơn
Loss giảm nhanh từ những bước đầu tiên
Output có thể ra đúng từ rất sớm (epoch 10–20)
'''

# --- 4. Huấn luyện bằng Backpropagation ---
for epoch in range(epochs):
    # Forward pass
    z1 = np.dot(X, w1) + b1
    h = sigmoid(z1)
    z2 = np.dot(h, w2) + b2
    y_pred = sigmoid(z2)

    # Tính lỗi
    error = y - y_pred

    # Backward pass
    d_y_pred = error * sigmoid_derivative(y_pred)
    d_h = d_y_pred.dot(w2.T) * sigmoid_derivative(h)

    # Cập nhật weights & bias
    w2 += h.T.dot(d_y_pred) * lr
    b2 += np.sum(d_y_pred, axis=0, keepdims=True) * lr
    w1 += X.T.dot(d_h) * lr
    b1 += np.sum(d_h, axis=0, keepdims=True) * lr

# --- 5. Test MLP ---
print("Testing trained MLP:")
z1 = np.dot(X, w1) + b1
h = sigmoid(z1)
z2 = np.dot(h, w2) + b2
y_pred = sigmoid(z2)
print(np.round(y_pred))

'''
✅ Tóm tắt học thuật:
| Tiêu chí                  | Single Layer Perceptron (SLP)         | Multi-Layer Perceptron (MLP)                                           |
| ------------------------- | ------------------------------------- | ---------------------------------------------------------------------- |
| **Số lớp**                | 1 lớp (input → output)                | Nhiều lớp (input → hidden → output)                                    |
| **Hàm học**               | Tuyến tính                            | Phi tuyến tính (nhờ lớp ẩn và activation)                              |
| **Hàm kích hoạt**         | Step function                         | Sigmoid, ReLU, Tanh hoặc các hàm phi tuyến khác                        |
| **Khả năng học XOR**      | Không                                 | Có                                                                     |
| **Thuật toán huấn luyện** | Perceptron learning rule              | Backpropagation + gradient descent                                     |
| **Ứng dụng**              | Phân loại tuyến tính cơ bản (AND, OR) | Classification, regression, nhận dạng hình ảnh, NLP, dữ liệu phi tuyến |
| **Ưu điểm**               | Đơn giản, dễ hiểu                     | Học được phi tuyến, khả năng biểu diễn cao                             |
| **Hạn chế**               | Chỉ học tuyến tính                    | Dễ overfitting, cần tuning hyperparameters, tốn tài nguyên             |
'''

'''
Epoch không phải là weight hay bias, nhưng về thuật toán học, nó được coi là hyperparameter.
Hyperparameter = tham số do người đặt trước khi huấn luyện (khác với parameter là giá trị học được từ dữ liệu).
Các hyperparameters phổ biến:
  Learning rate (𝜂)
  Batch size
  Số epoch
  Số lớp ẩn, số neuron
  Hàm kích hoạt
Như vậy: Epoch → hyperparameter, ảnh hưởng trực tiếp đến quá trình huấn luyện.
3. Epoch ảnh hưởng đến quá trình học như thế nào
Quá ít epoch → underfitting, model chưa học đủ.
Quá nhiều epoch → overfitting, model nhớ dữ liệu training quá mức, generalization kém.
Kết hợp với learning rate → số epoch quyết định model có hội tụ hay không.
4. Kết luận
Epoch là hyperparameter, nhưng nó không phải parameter học được từ dữ liệu.
Chọn epoch phù hợp = một phần quan trọng trong tuning hyperparameters để đạt hiệu quả tối ưu.
'''