Học tăng cường và Các tác nhân tự động (Reinforcement Learning and Autonomous Agents)
Học tăng cường (Reinforcement
Learning — RL) là một nhánh của học máy tập trung vào cách một tác nhân
(agent) học được hành vi tối ưu thông qua tương tác với môi trường
(environment) để tối đa hoá phần thưởng tích lũy (cumulative reward).
Khung cơ bản của RL gồm: trạng thái (state), hành động (action), phần thưởng
(reward) và chính sách (policy) — chính sách định nghĩa cách tác nhân chọn hành
động khi ở một trạng thái nhất định.
Quá trình học trong RL thường được
mô tả bởi vòng lặp tác nhân-môi trường: tác nhân quan sát trạng thái hiện
tại, chọn một hành động theo chính sách, môi trường phản hồi trạng thái tiếp
theo và phần thưởng, và tác nhân cập nhật chính sách dựa trên phản hồi đó. Mục
tiêu là học một chính sách tối ưu π* sao cho kỳ vọng phần thưởng tích lũy là lớn
nhất theo thời gian.
Các phương pháp RL phổ biến bao gồm:
- Value-based methods (phương pháp dựa trên giá trị):
học hàm giá trị (value function) như Q-learning, trong đó Q(s,a) ước lượng
giá trị kỳ vọng khi thực hiện hành động a ở trạng thái s và tiếp tục theo
chính sách hiện tại.
- Policy-based methods (phương pháp dựa trên chính
sách): trực tiếp tối ưu hoá chính sách πθ (parameterized policy) bằng
cách tăng gradient chính sách (policy gradient).
- Actor-Critic methods (phương pháp tác nhân-phê
bình): kết hợp hai thành phần — actor (chính sách) và critic (hàm giá
trị) — để tận dụng ưu điểm của cả hai phương pháp trên.
Deep Reinforcement Learning
(Deep RL) kết hợp mạng nơ-ron sâu để xấp xỉ các hàm chính sách hoặc hàm giá
trị, cho phép giải quyết các không gian trạng thái/hành động lớn (ví dụ: học
chơi trò chơi phức tạp, điều khiển robot). Các thành tựu đáng chú ý bao gồm các
hệ thống phá kỷ lục trong game (ví dụ AlphaGo, DQN cho Atari). Tuy nhiên, Deep
RL đối mặt một số thách thức: hiệu suất yêu cầu nhiều mẫu (sample
inefficiency), cân bằng thăm dò - khai thác (exploration-exploitation), định
nghĩa phần thưởng (reward shaping), và đảm bảo an toàn khi triển khai trong thế
giới thực (safety & reliability).
Ứng dụng của RL và các tác nhân tự động rất rộng: robot tự hành, tối ưu hoá điều khiển công nghiệp, hệ thống gợi ý tự thích ứng, điều phối mạng viễn thông, và tối ưu hoá chiến lược trong tài chính. Các hướng nghiên cứu tương lai tập trung vào cải thiện hiệu quả mẫu, học đa nhiệm (multi-task), học chuyển giao từ mô phỏng sang thực tế (sim-to-real), và đảm bảo an toàn/đạo đức cho các tác nhân tự chủ.
Các mô hình sinh (Generative
Models — GANs, VAEs)
Mô hình sinh (generative
models) là lớp mô hình học máy học phân phối dữ liệu P(x) để có thể tạo
(sinh) dữ liệu mới có phân phối tương tự dữ liệu huấn luyện. Hai họ mô hình
sinh nổi bật là Variational Autoencoders (VAEs) và Generative
Adversarial Networks (GANs).
Variational Autoencoders
(VAEs): VAE là mô hình sinh có cấu trúc probabilistic gồm một encoder
học phân phối x → z (map dữ liệu vào không gian tiềm ẩn/z latent) và một decoder
học z → x (tái tạo dữ liệu từ không gian tiềm ẩn). VAE tối ưu hoá Evidence
Lower Bound (ELBO) — gồm hai thành phần: lỗi tái tạo và một điều khoản KL
divergence giữa phân phối ẩn và phân phối prior — nhằm cân bằng giữa chất lượng
tái tạo và cấu trúc không gian ẩn. VAEs cho phép lấy mẫu có kiểm soát từ không
gian ẩn và thường ổn định khi huấn luyện, nhưng ảnh sinh từ VAE thường có xu hướng
mượt/blurry so với các phương pháp khác.
Generative Adversarial
Networks (GANs): GAN gồm hai mạng nơ-ron cạnh tranh: generator cố gắng
sinh dữ liệu giả sao cho giống thật, và discriminator cố gắng phân biệt
dữ liệu thật và dữ liệu giả. Mục tiêu huấn luyện là một trò chơi đối kháng
(minimax) giữa generator và discriminator; khi hội tụ, generator sinh ra mẫu mà
discriminator không thể phân biệt so với dữ liệu thật. GAN tạo ra ảnh sắc nét
và có chất lượng cao nhưng gặp khó khăn trong huấn luyện (training
instability), mode collapse (generator chỉ sinh ra một dạng mẫu), và khó kiểm
soát quá trình học. Các biến thể như DCGAN, WGAN, conditional GANs và nhiều kỹ
thuật cải tiến đã được đề xuất để khắc phục các vấn đề này.
Ứng dụng của mô hình sinh rất đa
dạng: tổng hợp ảnh, tạo dữ liệu để tăng cường (data augmentation), chuyển phong
cách (style transfer), tạo nhạc và văn bản, tạo mẫu y tế giả phục vụ nghiên cứu,
và nhiều tác vụ sáng tạo khác. Đánh giá mô hình sinh thường dùng các chỉ số như
Inception Score (IS) hay Fréchet Inception Distance (FID) để đánh giá chất lượng
và đa dạng của mẫu sinh.
Học chuyển giao và Học meta
(Transfer Learning and Meta-Learning)
Học chuyển giao (Transfer
Learning) là chiến lược tận dụng kiến thức đã học từ một nhiệm vụ hoặc miền
(source) để cải thiện hiệu suất trong nhiệm vụ hoặc miền khác (target). Trong
thực hành, transfer learning phổ biến nhất là pretraining mô hình trên tập
dữ liệu lớn (ví dụ ImageNet cho ảnh, hoặc corpora lớn cho NLP) rồi fine-tune
(tinh chỉnh) mô hình trên nhiệm vụ mục tiêu với tập dữ liệu nhỏ hơn. Điều này
giúp tiết kiệm thời gian huấn luyện, giảm nhu cầu dữ liệu nhãn lớn, và thường cải
thiện hiệu suất.
Các kỹ thuật transfer learning gồm:
feature extraction (dùng mô hình tiền huấn luyện như bộ trích xuất đặc trưng cố
định), fine-tuning toàn bộ hoặc một phần mạng, và domain adaptation (điều chỉnh
mô hình khi phân phối dữ liệu nguồn và đích khác nhau). Transfer learning đặc
biệt hữu ích trong các miền có dữ liệu nhãn khan hiếm như y tế hoặc công nghiệp.
Meta-learning (học cách học)
nhằm phát triển mô hình có khả năng học nhanh trên nhiệm vụ mới với rất ít dữ
liệu (few-shot learning). Các hướng meta-learning phổ biến gồm:
- Metric-based methods: học không gian biểu diễn
sao cho các lớp giống nhau gần nhau trong không gian (ví dụ: Siamese
networks, prototypical networks).
- Optimization-based methods: học một bước khởi
tạo tham số sao cho chỉ cần vài bước gradient descent để thích nghi với
nhiệm vụ mới (ví dụ MAML — Model-Agnostic Meta-Learning).
- Model-based methods: dùng mô hình có khả
năng điều chỉnh nhanh thông qua bộ nhớ hoặc kiến trúc đặc biệt.
Học chuyển giao và meta-learning
là hai hướng then chốt để mở rộng khả năng học của mô hình sang nhiều nhiệm vụ
và ứng dụng trong môi trường có hạn chế dữ liệu. Nghiên cứu tiếp tục phát triển
để cải thiện độ ổn định, khả năng mở rộng và tính hiệu quả của các phương pháp
này.
Machine Learning Lượng tử
(Quantum Machine Learning)
Machine Learning lượng tử
(Quantum Machine Learning — QML) là lĩnh vực giao thoa giữa máy tính lượng
tử và học máy, khám phá cách các thuật toán lượng tử có thể tăng tốc hoặc cải
thiện một số tác vụ học máy. Máy tính lượng tử sử dụng qubit thay vì bit
cổ điển; qubit có thể tồn tại ở trạng thái chồng chập (superposition) và liên kết
bằng hiện tượng vướng víu (entanglement), mở ra khả năng xử lý song song và biểu
diễn hàm phức tạp khác biệt so với máy cổ điển.
Một số hướng trong QML gồm:
- Quantum-enhanced feature spaces / quantum kernel
methods: dùng các phép biến đổi lượng tử để ánh xạ dữ liệu vào không
gian đặc trưng mà các bộ phân lớp lượng tử có thể phân biệt tốt hơn.
- Variational Quantum Circuits (VQC) /
Parameterized Quantum Circuits: tương tự mạng nơ-ron tham số, VQC dùng
vòng lượng tử tham số hoá và tối ưu các tham số đó qua tối ưu hoá cổ điển
— hướng này được xem là phù hợp với các thiết bị lượng tử hiện nay (NISQ —
Noisy Intermediate-Scale Quantum).
- Quantum optimisation algorithms: khai thác
thuật toán lượng tử để tăng tốc các bài toán tối ưu và tìm kiếm, có tiềm
năng ứng dụng trong huấn luyện mô hình ML hoặc giải các bài toán tối ưu tổ
hợp.

Post a Comment