NGƯỜI VIỄN ĐÔNG

Nơi chia sẻ và lưu giữ các bài viết của Nam Nguyen

ĐẮP LŨY, XÂY THÀNH - Phần 1.

ĐẮP LŨY, XÂY THÀNH - Phần 1.
Có nhiều bạn trẻ hay hỏi mình về chuyện làm gì, học gì để làm được như mong muốn. Khó mà dễ để trả lời như vậy, nếu chỉ nói “tùy nhu cầu thị trường” thì vừa chung chung, vừa khá vô trách nhiệm. Nếu nói “nên học, nên làm cái gì mình thích”… thì có vẻ như hô khẩu hiệu, đúng thì đúng quá nhưng nhiều bạn trẻ không biết được mình thích cái gì… trừ thành công lớn ngay và luôn thôi!
Mình thường né những việc trả lời thế này, hoặc khi thấy cần thiết phải nói về những chuyện này thường kể về “nên không học gì, làm gì”. Cái này dễ hơn và thấm thía hơn, ví dụ thì đầy, chả nói gì đến những anh tài nào, cứ việc của mình người thật, việc thật, “ngu phí” thật, mất thời gian thật… mà kể lại, cũng quá bổ ích cho người đi sau rồi. Ai cần tư vấn kiểu này cứ hỏi nhé!
Mình đã viết trên FB “xui” các bạn trẻ nghiên cứu làm đũa sao cho thật tốt, thật chuẩn! Rồi “xui” làm cái quạt để nó đừng hỏng sớm như tất cả các quạt made in Vietnam. Rồi làm cái gì cụ thể đi để phòng, chống Covid… Ít ai nghe lắm, đại đa số cứ muốn học, muốn làm những việc cao siêu cơ. Trên mạng FB thì quả thực là một đống hỗn độn khổng lồ, nhưng nếu thật chú ý ta có thể học được đấy, bổ ích phết. Chẳng hạn vào cái thời “4.0” này (nghe ngộ ghê!) nhiều người ngạo nghễ nói về ML (học máy – hay máy học, hay học bằng máy, hay… dạo trước người Việt tranh luận vui phết!), tôi thì ngoại đạo nên chỉ chăm chú đi nghe thôi. Chắc chỉ có độ 4-5 người hiểu được bản chất sâu xa của cái “machine learning” này, và dưới đây là một bài của một trong 4 vị đó sưu tầm về. Sẽ rất bổ ích cho những ai đang và sắp lăm le ML (chả biết viết tiếng Việt sao cho chuẩn, sợ bác ấy cười…)

&&&&&&


Có phải mọi bài báo về học máy (ML) đều giới thiệu một thuật toán mới không? Hay các nhà nghiên cứu ML đang lạc lôi?

Đáng buồn thay điều đó là sự thật và là một trong những vấn đề nhức nhối nhất hiện nay ở lĩnh vực ML. Theo ước tính của cộng đồng ML, hơn 10.000 bài báo được xuất bản về ML mỗi năm (khoảng 30 bài báo mỗi ngày) và hầu hết mọi bài báo không có ngoại lệ đều giới thiệu một thuật toán mới.
Các bạn trẻ hãy cố gắng hiểu tại sao đây là một vấn đề nan giải và cũng xin cảnh báo rằng những ý kiến thảo luận dưới đây có thể khiến bạn nản lòng với tư cách là nhà nghiên cứu hoặc người thực hành ML! Nhưng nếu bạn có thể chịu đựng được những ý kiến đó bạn có thể bớt được rất nhiều thời gian vô ích khiến một lúc nào đó bạn gặp phải sự khủng hoảng lớn hơn "Tôi đã lãng phí cuộc đời mình! Lẽ ra tôi đã có thể làm điều gì đó hữu ích hơn cho bản thân”.
Trước tiên, hãy xem những gì mà mớ thuật toán này mang lại cho chúng ta. Lấy câu chuyện thú vị cách đây vài năm của giáo sư khoa học chính trị Đại học Harvard, Gary King, khi ông hứng thú thu thập tài liệu thực hiện kế hoạch viết một cuốn sách để tưởng nhớ cuộc đời của một trong những đồng nghiệp đáng kính của mình.
Vốn là một học giả có phương pháp làm việc rất khoa học, Giáo sư King đã yêu cầu các sinh viên sau đại học của mình thực hiện mọi thuật toán phân cụm có trong các ông trình khoa học đã công bố. Nhưng phân cụm là một trong những vấn đề lâu đời nhất trong thống kê và học máy nên có rất nhiều phương pháp được đề xuất. Vì vậy, Giáo sư King quyết định hạn chế việc áp dụng những phương pháp đã được sử dụng bởi các nhà nghiên cứu không phải là những người tiên phong tạo ra phương pháp.
Tuy nhiên họ vẫn phát hiện ra hơn 250 phương pháp phân cụm khác nhau (điều này không có gì ngạc nhiên). Vì vậy, họ viết một gói R để so sánh tất cả chúng. Họ đã tìm thấy gì? Có một thuật toán "tốt nhất" không? Dĩ nhiên là không! Mỗi thuật toán hoạt động theo một cách kỳ quặc khác nhau. Cuối cùng, họ quyết định tập trung vào việc hiển thị kết quả từ các phương pháp phân nhóm khác nhau và để người dùng chọn cách phân nhóm mà họ thấy hấp dẫn nhất.
Có thể khẳng định điều tương tự sẽ xảy ra với bất kỳ framework ML nào, cho dù đó là học có giám sát, học tăng cường, học sâu, học không giám sát, v.v. Tại thời điểm này, chúng ta dễ dàng liệt kê ít nhất một trăm biến thể khác nhau của phương pháp gradients ngẫu nhiên, phương pháp trâu bò cơ bản của học sâu.

Rõ ràng là việc có quá nhiều thuật toán gây nên phiền phức lớn. Đầu tiên, nếu bạn là một nhà nghiên cứu ML đầy tham vọng muốn tạo dựng tên tuổi cho chính mình, bạn có nên dành thời gian phát minh ra thuật toán phân cụm thứ 251. Một gợi ý nhỏ từ một người đã nghiên cứu trong một thời gian dài là “Phần thưởng lớn nhất đến với những người tiên phong”. Mọi biến thể của phương pháp đã có thậm chí còn nhận được rất ít tín dụng. Dấu ấn nghiên cứu là một hàm tiểu mô thức, có nghĩa là quy luật lợi nhuận giảm dần.

Ian Goodfellow đã nhận được rất nhiều lời khen ngợi khi phát minh ra các mạng GAN (Generative Adversarial Networks) trong luận án Tiến sĩ của mình tại Đại học Montreal. Dễ dàng có hàng trăm hoặc nhiều biến thể của GAN. Con người bị thu hút bởi GAN giống như cách mà bướm đêm bị ánh sáng thu hút. Đáng buồn thay, rất ít nếu không muốn nói là không có bất kỳ biến thể nào trong số này sẽ được công nhận lâu dài. Ian sẽ tiếp tục là mặt trời quay quanh hệ mặt trời GAN.

Thứ hai, như trong ví dụ về Gary King đã minh họa, tại sao lại phát minh ra phương pháp phân cụm thứ 251, phương pháp gradient thứ 300 cho việc học củng cố sâu, phương pháp hồi quy thứ 400, biến thể thứ 151 của phương pháp gradient ngẫu nhiên? Tất cả điều này sẽ kết thúc ở đâu?
Đó là một cảnh báo với bạn rằng không có kết thúc có hậu cho thảm kịch ML này. Nó giống như một vở opera Puccini. Tại sao lại như vậy? Bạn tự hỏi và có thể coi đó là cách nhìn tiêu cực! Thực chất đó là một cách nhìn có cơ sở.

Có một định lý tuyệt vời trong tối ưu hóa và học máy được gọi là “Định lý không có Bữa trưa Miễn phí” (“No Free Lunch Theorems”). Về cơ bản định lý này nói rằng sẽ không bao giờ có thuật toán học máy "tốt nhất".

Bạn cũng có thể đọc bài báo gốc của Wolpert về định lý không có bữa trưa miễn phí trong tối ưu hóa. Về cơ bản, tính trung bình trên tất cả các phân phối đầu vào, không thuật toán nào có ưu thế vượt trên mọi thuật toán khác. Ồ, không có phương pháp phân nhóm tốt nhất, không có phương pháp học tăng cường tốt nhất, không có công cụ phân loại tốt nhất, v.v. Tất cả niền tin có thuật toán tốt nhất đều là sương khói và ảo ảnh.

Do đó, bạn có nên lãng phí cuộc đời mình đi tìm thứ gì đó hư vô? Không có vàng ở cuối cầu vồng ML mà chỉ có sự thất vọng theo định lý không có bữa trưa miễn phí.
Vậy thì nơi nào đáng để một nhà nghiên cứu ML đầy tham vọng cống hiến? Các bạn nên tập trung vào việc hiểu các bài toán cơ bản đặt ra cho ML chứ không phải thuật toán. Phát biểu đúng bài bài toán chính là chìa khóa. Einstein đã từng có câu nói nổi tiếng khi được hỏi rằng ông sẽ làm gì nếu cuộc đời của ông phụ thuộc vào việc giải quyết một vấn đề nào đó và ông chỉ còn một giờ đồng hồ, ông trả lời rằng ông sẽ dành 55 phút để suy nghĩ để phát biểu đúng bài toán và 5 phút để giải nó. Các nhà nghiên cứu ML dường như đang đi theo hướng ngược lại.

Các bạn nên tự quyết định cách sử dụng thời gian tốt nhất cho chính mình. Hy vọng bạn thông minh hơn những người đi trước!
Mà muốn hiểu sâu nên hỏi chính bác ấy: Minh Hai Nguyen (người lược dịch từ Quora.com)


Ý kiến không được cho phép