tiendung commited on
Commit
19984ae
·
verified ·
1 Parent(s): f19c7c9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -7
README.md CHANGED
@@ -48,21 +48,23 @@ Ngoài LLM để giải quyết các vấn đề chính, có rất nhiều bài
48
  trong [DOT Collection](https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db)
49
 
50
  ## What if?
51
- Bây giờ là 28/09/2024 và khoảng 1 năm trước [nampdn-ai](https://huggingface.co/nampdn-ai) từng nói với tôi rằng thực sự cần huấn luyện gì cho LLM? Cậu ấy cho rằng skills quan trọng hơn data, và trong các bộ skill reasoning skills (nói chung) là quan trọng nhất.
52
- Giả sử ta thể build đc một reasoning engine mạnh, với context length không quá thì thể giải quyết rất nhiều bài toán ( gần như tất cả) bằng ICL (incontext learning) và reasoning.
 
53
  Và cậu ấy đã đúng. gpt-o1 với hidden CoT được ví như là 1 bước đột phá lớn của năm nay, RAG (Retrieval Augmented Generation) càng phát triển và các models hỗ trợ RAG hoặc chuyên về RAG dần xuất hiện nhiều hơn (commandr là một ví dụ).
54
 
55
- Có lẽ với đa số các bạn, sau khi đã trải qua gần 2 năm với với AI và LLM, trải qua đủ loại models (gpt-3,3.5,4,4o, llama 1,2,3,3.1,3.2 ...) và các loại ứng dụng thì điều kể trên là hiển nhiên.
56
  Hãy tưởng tượng tầm này một năm trước, khi Mistral vừa mới thả quả bom mang tên `Mistral 7b` và LLM Việt còn chưa có open source models nào tốt, và những người làm LLM Việt thường nghĩ giống nhau là hãy cố nhồi dữ liệu tiếng Việt vào model càng nhiều càng tốt
57
  với mong muốn nó giỏi tiếng Việt và không quên tiếng Anh thì Nam đã nhìn vấn đề rộng hơn và có chiều sâu hơn.
58
 
59
- Vào thời điểm đó lời chia sẻ của Nam khiến tôi tỉnh hơn và chia sẻ lại quan điểm này với người khác, tiếc là quán tính quá mạnh nên ý kiến này đã không được lắng nghe và tập trung đủ nguồn lực để có thể biến thành một sản phẩm hoản chỉnh.
60
  Nam đã rất cố gắng tự tạo dữ liệu (xem huggingface của Nam) nhưng lại thiếu computing để huấn luyện và thử nghiệm ... Và câu hỏi là giá như
61
  lúc đó Nam được lắng nghe và hỗ trợ nhiều hơn thì liệu chúng ta có tạo được sản phẩm tốt không những cho tiếng Việt mà cho LLM nói chung?
62
 
63
- Điều cuối cùng tôi muốn nói là **cách bạn đặt vấn đề** quan trọng hơn **khả năng giải quyết vấn đề**. Bạn lựa chọn càng khéo,thì càng có khả năng đi trước
64
- và giải quyết bài toán nhanh, gọn, hiệu quả hơn. Tôi tin rằng chúng ta còn rất nhiều người như Nam nếu chúng ta cùng thử đặt vấn đề cùng nhau giải quyết nó
65
- thì rất có thể chúng ta cũng có thể làm nên một điều gì đó khác biệt và đáng tự hào. Shout out to Nam và cộng đồng LLM Việt!
 
66
 
67
  ### Tham gia cùng chúng tôi
68
  - Discord: https://discord.com/invite/NuYwhH6Kbb
 
48
  trong [DOT Collection](https://huggingface.co/collections/Symato/dot-66f7743758b5ce30d51d56db)
49
 
50
  ## What if?
51
+ Bây giờ là 28/09/2024 và khoảng 1 năm trước [nampdn-ai](https://huggingface.co/nampdn-ai) từng nói với tôi rằng cậu ấy suy nghĩ xem thực sự
52
+ cần huấn luyện cho LLM? Cậu ấy cho rằng skills quan trọng hơn data, trong bộ reasoning skills (nói chung) quan trọng nhất.
53
+ Giả sử ta có thể build được một reasoning engine mạnh, với context length không quá bé thì có thể giải quyết rất nhiều bài toán (và gần như tất cả) bằng ICL (incontext learning) và reasoning.
54
  Và cậu ấy đã đúng. gpt-o1 với hidden CoT được ví như là 1 bước đột phá lớn của năm nay, RAG (Retrieval Augmented Generation) càng phát triển và các models hỗ trợ RAG hoặc chuyên về RAG dần xuất hiện nhiều hơn (commandr là một ví dụ).
55
 
56
+ Có lẽ với đa số các bạn, sau khi đã trải qua gần 2 năm với với AI và LLM, trải qua đủ loại models (gpt-3,3.5,4,4o, llama 1,2,3,3.1,3.2 ...) và các loại ứng dụng thì điều kể trên gần như là hiển nhiên.
57
  Hãy tưởng tượng tầm này một năm trước, khi Mistral vừa mới thả quả bom mang tên `Mistral 7b` và LLM Việt còn chưa có open source models nào tốt, và những người làm LLM Việt thường nghĩ giống nhau là hãy cố nhồi dữ liệu tiếng Việt vào model càng nhiều càng tốt
58
  với mong muốn nó giỏi tiếng Việt và không quên tiếng Anh thì Nam đã nhìn vấn đề rộng hơn và có chiều sâu hơn.
59
 
60
+ Vào thời điểm đó lời chia sẻ của Nam khiến tôi tỉnh ra và chia sẻ lại quan điểm này với người khác, tiếc là ý kiến này đã không được lắng nghe và tập trung đủ nguồn lực để có thể biến thành một sản phẩm hoản chỉnh.
61
  Nam đã rất cố gắng tự tạo dữ liệu (xem huggingface của Nam) nhưng lại thiếu computing để huấn luyện và thử nghiệm ... Và câu hỏi là giá như
62
  lúc đó Nam được lắng nghe và hỗ trợ nhiều hơn thì liệu chúng ta có tạo được sản phẩm tốt không những cho tiếng Việt mà cho LLM nói chung?
63
 
64
+ Điều tôi muốn nói là **cách bạn đặt vấn đề** quan trọng hơn **khả năng giải quyết vấn đề**. Bạn lựa chọn càng khéo,thì càng có khả năng đi trước
65
+ và giải quyết bài toán nhanh, gọn, hiệu quả hơn. Tôi tin rằng chúng ta còn rất nhiều người như Nam hoặc hãy thử suy nghĩ như Nam
66
+ nếu chúng ta tìm được bài toán đủ tốt và cùng nhau giải quyết nó thì rất có thể chúng ta cũng có thể làm nên một điều gì đó khác biệt và đáng tự hào.
67
+ Shout out to Nam và cộng đồng LLM Việt!
68
 
69
  ### Tham gia cùng chúng tôi
70
  - Discord: https://discord.com/invite/NuYwhH6Kbb