MACHINE LEARNING CHO NGƯỜI MỚI BẮT ĐẦU - PHẦN IX: Xu hướng tương lai và Chủ đề nâng cao

 Học tăng cường và Các tác nhân tự động (Reinforcement Learning and Autonomous Agents)

Học tăng cường (Reinforcement Learning — RL) là một nhánh của học máy tập trung vào cách một tác nhân (agent) học được hành vi tối ưu thông qua tương tác với môi trường (environment) để tối đa hoá phần thưởng tích lũy (cumulative reward). Khung cơ bản của RL gồm: trạng thái (state), hành động (action), phần thưởng (reward) và chính sách (policy) — chính sách định nghĩa cách tác nhân chọn hành động khi ở một trạng thái nhất định.

Quá trình học trong RL thường được mô tả bởi vòng lặp tác nhân-môi trường: tác nhân quan sát trạng thái hiện tại, chọn một hành động theo chính sách, môi trường phản hồi trạng thái tiếp theo và phần thưởng, và tác nhân cập nhật chính sách dựa trên phản hồi đó. Mục tiêu là học một chính sách tối ưu π* sao cho kỳ vọng phần thưởng tích lũy là lớn nhất theo thời gian.

Các phương pháp RL phổ biến bao gồm:

  • Value-based methods (phương pháp dựa trên giá trị): học hàm giá trị (value function) như Q-learning, trong đó Q(s,a) ước lượng giá trị kỳ vọng khi thực hiện hành động a ở trạng thái s và tiếp tục theo chính sách hiện tại.
  • Policy-based methods (phương pháp dựa trên chính sách): trực tiếp tối ưu hoá chính sách πθ (parameterized policy) bằng cách tăng gradient chính sách (policy gradient).
  • Actor-Critic methods (phương pháp tác nhân-phê bình): kết hợp hai thành phần — actor (chính sách) và critic (hàm giá trị) — để tận dụng ưu điểm của cả hai phương pháp trên.

Deep Reinforcement Learning (Deep RL) kết hợp mạng nơ-ron sâu để xấp xỉ các hàm chính sách hoặc hàm giá trị, cho phép giải quyết các không gian trạng thái/hành động lớn (ví dụ: học chơi trò chơi phức tạp, điều khiển robot). Các thành tựu đáng chú ý bao gồm các hệ thống phá kỷ lục trong game (ví dụ AlphaGo, DQN cho Atari). Tuy nhiên, Deep RL đối mặt một số thách thức: hiệu suất yêu cầu nhiều mẫu (sample inefficiency), cân bằng thăm dò - khai thác (exploration-exploitation), định nghĩa phần thưởng (reward shaping), và đảm bảo an toàn khi triển khai trong thế giới thực (safety & reliability).

Hình minh họa: ML xu hướng tương lại

Ứng dụng của RL và các tác nhân tự động rất rộng: robot tự hành, tối ưu hoá điều khiển công nghiệp, hệ thống gợi ý tự thích ứng, điều phối mạng viễn thông, và tối ưu hoá chiến lược trong tài chính. Các hướng nghiên cứu tương lai tập trung vào cải thiện hiệu quả mẫu, học đa nhiệm (multi-task), học chuyển giao từ mô phỏng sang thực tế (sim-to-real), và đảm bảo an toàn/đạo đức cho các tác nhân tự chủ.

Các mô hình sinh (Generative Models — GANs, VAEs)

Mô hình sinh (generative models) là lớp mô hình học máy học phân phối dữ liệu P(x) để có thể tạo (sinh) dữ liệu mới có phân phối tương tự dữ liệu huấn luyện. Hai họ mô hình sinh nổi bật là Variational Autoencoders (VAEs)Generative Adversarial Networks (GANs).

Variational Autoencoders (VAEs): VAE là mô hình sinh có cấu trúc probabilistic gồm một encoder học phân phối x → z (map dữ liệu vào không gian tiềm ẩn/z latent) và một decoder học z → x (tái tạo dữ liệu từ không gian tiềm ẩn). VAE tối ưu hoá Evidence Lower Bound (ELBO) — gồm hai thành phần: lỗi tái tạo và một điều khoản KL divergence giữa phân phối ẩn và phân phối prior — nhằm cân bằng giữa chất lượng tái tạo và cấu trúc không gian ẩn. VAEs cho phép lấy mẫu có kiểm soát từ không gian ẩn và thường ổn định khi huấn luyện, nhưng ảnh sinh từ VAE thường có xu hướng mượt/blurry so với các phương pháp khác.

Generative Adversarial Networks (GANs): GAN gồm hai mạng nơ-ron cạnh tranh: generator cố gắng sinh dữ liệu giả sao cho giống thật, và discriminator cố gắng phân biệt dữ liệu thật và dữ liệu giả. Mục tiêu huấn luyện là một trò chơi đối kháng (minimax) giữa generator và discriminator; khi hội tụ, generator sinh ra mẫu mà discriminator không thể phân biệt so với dữ liệu thật. GAN tạo ra ảnh sắc nét và có chất lượng cao nhưng gặp khó khăn trong huấn luyện (training instability), mode collapse (generator chỉ sinh ra một dạng mẫu), và khó kiểm soát quá trình học. Các biến thể như DCGAN, WGAN, conditional GANs và nhiều kỹ thuật cải tiến đã được đề xuất để khắc phục các vấn đề này.

Ứng dụng của mô hình sinh rất đa dạng: tổng hợp ảnh, tạo dữ liệu để tăng cường (data augmentation), chuyển phong cách (style transfer), tạo nhạc và văn bản, tạo mẫu y tế giả phục vụ nghiên cứu, và nhiều tác vụ sáng tạo khác. Đánh giá mô hình sinh thường dùng các chỉ số như Inception Score (IS) hay Fréchet Inception Distance (FID) để đánh giá chất lượng và đa dạng của mẫu sinh.

Học chuyển giao và Học meta (Transfer Learning and Meta-Learning)

Học chuyển giao (Transfer Learning) là chiến lược tận dụng kiến thức đã học từ một nhiệm vụ hoặc miền (source) để cải thiện hiệu suất trong nhiệm vụ hoặc miền khác (target). Trong thực hành, transfer learning phổ biến nhất là pretraining mô hình trên tập dữ liệu lớn (ví dụ ImageNet cho ảnh, hoặc corpora lớn cho NLP) rồi fine-tune (tinh chỉnh) mô hình trên nhiệm vụ mục tiêu với tập dữ liệu nhỏ hơn. Điều này giúp tiết kiệm thời gian huấn luyện, giảm nhu cầu dữ liệu nhãn lớn, và thường cải thiện hiệu suất.

Các kỹ thuật transfer learning gồm: feature extraction (dùng mô hình tiền huấn luyện như bộ trích xuất đặc trưng cố định), fine-tuning toàn bộ hoặc một phần mạng, và domain adaptation (điều chỉnh mô hình khi phân phối dữ liệu nguồn và đích khác nhau). Transfer learning đặc biệt hữu ích trong các miền có dữ liệu nhãn khan hiếm như y tế hoặc công nghiệp.

Meta-learning (học cách học) nhằm phát triển mô hình có khả năng học nhanh trên nhiệm vụ mới với rất ít dữ liệu (few-shot learning). Các hướng meta-learning phổ biến gồm:

Học chuyển giao và meta-learning là hai hướng then chốt để mở rộng khả năng học của mô hình sang nhiều nhiệm vụ và ứng dụng trong môi trường có hạn chế dữ liệu. Nghiên cứu tiếp tục phát triển để cải thiện độ ổn định, khả năng mở rộng và tính hiệu quả của các phương pháp này.

Machine Learning Lượng tử (Quantum Machine Learning)

Machine Learning lượng tử (Quantum Machine Learning — QML) là lĩnh vực giao thoa giữa máy tính lượng tử và học máy, khám phá cách các thuật toán lượng tử có thể tăng tốc hoặc cải thiện một số tác vụ học máy. Máy tính lượng tử sử dụng qubit thay vì bit cổ điển; qubit có thể tồn tại ở trạng thái chồng chập (superposition) và liên kết bằng hiện tượng vướng víu (entanglement), mở ra khả năng xử lý song song và biểu diễn hàm phức tạp khác biệt so với máy cổ điển.

Một số hướng trong QML gồm:

  • Quantum-enhanced feature spaces / quantum kernel methods: dùng các phép biến đổi lượng tử để ánh xạ dữ liệu vào không gian đặc trưng mà các bộ phân lớp lượng tử có thể phân biệt tốt hơn.
  • Variational Quantum Circuits (VQC) / Parameterized Quantum Circuits: tương tự mạng nơ-ron tham số, VQC dùng vòng lượng tử tham số hoá và tối ưu các tham số đó qua tối ưu hoá cổ điển — hướng này được xem là phù hợp với các thiết bị lượng tử hiện nay (NISQ — Noisy Intermediate-Scale Quantum).
  • Quantum optimisation algorithms: khai thác thuật toán lượng tử để tăng tốc các bài toán tối ưu và tìm kiếm, có tiềm năng ứng dụng trong huấn luyện mô hình ML hoặc giải các bài toán tối ưu tổ hợp.
Tuy vậy, QML hiện tại còn nhiều thách thức: phần cứng lượng tử đang trong giai đoạn phát triển (noise, số lượng qubit hạn chế), khó khăn trong việc chứng minh lợi thế thực tế so với phương pháp cổ điển cho các bài toán thực tiễn, và cần phát triển thêm cả phần cứng lẫn thuật toán. Nhiều nghiên cứu tập trung vào các thuật toán lai cổ điển-lượng tử (hybrid classical-quantum) nhằm tận dụng những tiến bộ ban đầu của máy lượng tử. Tương lai của QML hứa hẹn nhiều đột phá nhưng còn phụ thuộc vào tiến bộ phần cứng và lý thuyết.

Tác giả: Hoàng Thơ

PHẦN I - PHẦN II - PHẦN III - PHẦN IV - PHẦN V - PHẦN VI - PHẦN VII PHẦN VIII - PHẦN IX - PHẦN X 

Post a Comment

Previous Post Next Post