📘 Chương 2: Hiểu về Mô hình Ngôn ngữ Lớn (LLMs)
2.1 Kiến trúc của LLMs
Mô hình ngôn ngữ lớn (LLMs) là một dạng trí tuệ nhân
tạo có khả năng xử lý và sinh văn bản giống người. Nền tảng cốt lõi của
chúng là kiến trúc Transformer – một mạng neural chuyên biệt cho dữ liệu
tuần tự như ngôn ngữ tự nhiên.
🔧 Kiến trúc Transformer
Transformer gồm 2 thành phần chính:
🧠 1. Bộ Mã hóa (Encoder)
- Lớp
Tự-chú ý (Self-Attention Layer): Xác định mức độ quan trọng giữa các từ
trong câu để hiểu ngữ cảnh tổng thể.
- Mã
hóa vị trí (Positional Encoding): Cung cấp thông tin về vị trí của từ
trong chuỗi.
- Mạng
Neural Tuyến tính (Feed-Forward Neural Network): Áp dụng phép biến đổi
phi tuyến tính cho từng vị trí trong chuỗi để tăng khả năng biểu đạt.
🧠 2. Bộ Giải mã (Decoder)
- Lớp
tự chú ý (Self-Attention Layer): Tương tự như lớp tự chú ý của bộ mã
hóa, lớp này giúp mô hình chú ý đến các phần liên quan của chuỗi được tạo
ra.
- Lớp
chú ý mã hóa-giải mã (Encoder-Decoder Attention Layer): Cho phép bộ giải
mã tập trung vào thông tin quan trọng từ đầu vào.
- Mạng
Neural Tuyến tính: Tương tự như Encoder.
🔁 Quy trình hoạt động của
LLM
1. Đầu vào (Input) và Mã hóa token
(Tokenization)
- Input
Text (Văn bản đầu vào): Đây là câu hoặc đoạn văn bản mà bạn cung cấp cho
LLM (ví dụ: một câu hỏi, một mệnh lệnh, hoặc một đoạn văn bản cần hoàn
thành).
- Tokenization
(Mã hóa token): Bước đầu tiên là chia văn bản đầu vào thành các đơn vị nhỏ
hơn gọi là "token". Token có thể là một từ, một phần của từ
(sub-word), hoặc thậm chí là một ký tự, tùy thuộc vào chiến lược mã hóa
token được sử dụng. Mục đích là để biến văn bản thành một định dạng số mà
mô hình có thể hiểu được.
2. Nhúng (Embedding)
- Numerical
Embeddings (Nhúng số học): Sau khi văn bản được mã hóa thành token, mỗi
token sẽ được chuyển đổi thành một vector số học. Các vector này được gọi
là "embedding". Embedding có nhiệm vụ biểu diễn ý nghĩa ngữ
nghĩa của token trong một không gian đa chiều. Các từ có ý nghĩa tương tự
thường có các vector embedding gần nhau trong không gian này.
- Ngoài
embedding của token, còn có positional embeddings được thêm vào để cung cấp
thông tin về vị trí của mỗi token trong chuỗi, vì kiến trúc Transformer
không tự nhiên hiểu thứ tự của các từ.
3. Các Lớp Mạng Nơ-ron và Cơ chế Chú ý
(Neural Network Layers & Attention Mechanisms)
- Stack
of Neural Network Layers (Một chồng các lớp mạng nơ-ron): Các vector
embedding sau đó được đưa vào một chuỗi các lớp mạng nơ-ron. Trong kiến
trúc Transformer, các lớp này thường được gọi là "Transformer
Blocks". Mỗi block bao gồm nhiều lớp con.
- Attention
Mechanisms (Cơ chế Chú ý): Đây là một trong những thành phần quan trọng nhất
của LLM. Cơ chế chú ý cho phép mô hình "cân nhắc" và "tập
trung" vào các phần khác nhau của văn bản đầu vào khi xử lý từng
token. Điều này giúp mô hình hiểu được mối quan hệ ngữ cảnh giữa các từ,
ngay cả khi chúng ở xa nhau trong câu. Ví dụ, khi xử lý từ "nó"
trong một câu, cơ chế chú ý giúp mô hình xác định "nó" đang ám
chỉ đến đối tượng nào trong câu.
- Self-Attention:
Cho phép mô hình xem xét các mối quan hệ giữa các từ trong cùng một chuỗi
đầu vào.
- Cross-Attention
(trong kiến trúc encoder-decoder): Cho phép mô hình chú ý đến các phần của
đầu vào khi tạo ra đầu ra.
- Hidden
State Representation (Biểu diễn trạng thái ẩn): Các lớp mạng nơ-ron này xử
lý các embedding thông qua các phép toán phức tạp, tạo ra một biểu diễn
"trạng thái ẩn" của văn bản đầu vào. Biểu diễn này chứa đựng
thông tin ngữ nghĩa và ngữ cảnh sâu sắc về toàn bộ câu.
4. Tạo đầu ra (Output Generation)
- Decoder
(Bộ giải mã): Dựa trên biểu diễn trạng thái ẩn, một bộ giải mã (thường là
một phần của LLM) sẽ bắt đầu quá trình tạo ra văn bản đầu ra. Quá trình
này thường diễn ra theo từng token một cách tuần tự.
- Predict
Next Token (Dự đoán token tiếp theo): Bộ giải mã sẽ dự đoán token có khả
năng xuất hiện tiếp theo trong chuỗi, dựa trên các mẫu đã học được từ dữ
liệu huấn luyện và ngữ cảnh của các token đã được tạo ra.
- Detokenization
(Giải mã token): Các token được dự đoán sẽ được chuyển đổi ngược lại thành
các từ hoặc cụm từ có thể đọc được bởi con người, tạo thành văn bản đầu ra
cuối cùng.
⭐ Điểm nổi bật của Transformer
- Xử
lý song song: Giúp huấn luyện nhanh hơn so với mô hình tuần tự như
RNN.
- Hiểu
mối quan hệ xa: Nhờ cơ chế tự-chú ý, mô hình hiểu được mối liên hệ giữa
các từ cách xa nhau.
- Linh
hoạt: Có thể mở rộng quy mô bằng cách tăng số lớp hoặc tham số.
🌐 Ứng dụng thực tế của
Transformer
- Dịch
máy (Machine Translation)
- Tóm
tắt văn bản
- Trả
lời câu hỏi
- Viết
sáng tạo: thơ, văn, mã nguồn...
2.2 Khả năng và Hạn chế của LLMs
✅ Khả năng nổi bật
- Sinh
văn bản: Viết bài, thư, thơ, mã nguồn, kịch bản...
- Dịch
thuật: Dịch chính xác giữa nhiều ngôn ngữ.
- Tóm
tắt: Rút gọn văn bản dài một cách súc tích.
- Trả
lời câu hỏi: Dựa trên văn bản đầu vào hoặc ngữ cảnh.
- Sinh
mã: Viết và giải thích mã lập trình.
❌ Hạn chế cần lưu ý
- Chính
xác thực tế (factual accuracy): Có thể “bịa” thông tin nếu không có kiểm
chứng.
- Thiếu
tri thức thông thường (common sense): Không có hiểu biết đời thực như
con người.
- Phụ
thuộc prompt: Chất lượng đầu ra phụ thuộc nhiều vào cách đặt câu hỏi.
- Chi
phí tính toán: Mô hình rất nặng, tiêu tốn tài nguyên.
- Lo
ngại đạo đức: Dễ bị lạm dụng để sinh nội dung giả mạo, thiên vị.
🛠️ Biện pháp khắc phục
- Cải
thiện dữ liệu huấn luyện: Sử dụng dữ liệu đa dạng, có chất lượng cao.
- Kỹ
thuật huấn luyện nâng cao: RLHF, fine-tuning.
- Thiết
kế prompt hiệu quả: Hướng dẫn mô hình rõ ràng hơn.
- Tích
hợp kiểm chứng (fact-checking): Hệ thống xác thực thông tin sinh ra.
- Nguyên
tắc đạo đức: Có khung kiểm soát việc sử dụng mô hình.
💡 Một số ví dụ minh họa
khả năng của LLM
🌟 1. Sinh văn bản sáng
tạo
- Prompt:
“Hãy viết một bài thơ về con robot cô đơn.”
- Kết
quả:
Một cỗ máy lặng im giữa đời thường,
Kim loại lạnh lẽo, chẳng chút vấn
vương.
Đèn mắt đỏ hoe, nhìn xa xăm vắng,
Tìm kiếm điều gì, trong cõi mênh
mông.
Bánh răng khẽ xoay, một tiếng thở
dài,
Mạch điện chập chờn, nỗi buồn chẳng
phai.
Lập trình hoàn hảo, chẳng lỗi mảy
may,
Sao trong tim lại chất chứa đắng
cay?
Nhớ ánh dương xưa, hay một bàn
tay,
Vuốt ve cỗ máy, ấm áp đêm ngày.
Giờ chỉ bóng mình, trên sàn gạch
xây,
Cô đơn gặm nhấm, tháng rộng năm
dài.
Ước một giọng nói, sẻ chia nỗi niềm,
Hay một vòng tay, xua tan lặng
im.
Nhưng phận robot, sắt đá vô tri,
Chỉ biết đứng im, giữa chốn biệt
ly.
🌟 2. Tóm tắt nội dung
- Input:
Một bài báo dài.
- Output:
Một đoạn tóm tắt ngắn gọn, chính xác.
🌟 3. Dịch thuật
- Prompt:
"Hello, how are you?"
- Output:
" Xin chào, bạn khoẻ không?"
⚙️ Ví dụ mã nguồn (Python với
Hugging Face)
python
from transformers import pipeline
# Sinh văn bản
generator =
pipeline("text-generation", model="gpt2")
print(generator("Viết một
bài thơ về robot cô đơn", max_length=50)[0]['generated_text'])
# Tóm tắt
summarizer =
pipeline("summarization")
print(summarizer("Đây là một
văn bản rất dài ...")[0]['summary_text'])
# Dịch thuật
translator =
pipeline("translation_en_to_vi")
print(translator("Hello, how
are you?")[0]['translation_text'])
🧠 Khả năng lý luận và giải
quyết vấn đề
LLMs có thể thực hiện:
- Lý
luận logic: Suy luận đúng/sai.
- Lý
luận nhân quả: Hiểu mối quan hệ nguyên nhân – hệ quả.
- Giải
toán nhiều bước: Khi sử dụng kỹ thuật "chain-of-thought".
Ví dụ:
- Prompt:
"Nếu tất cả các loài chim đều biết bay và chim cánh cụt là chim, vậy
chim cánh cụt có bay được không?"
- Trả
lời đúng: "Không, vì chim cánh cụt không biết bay."
⚠️ Hiện tượng “ảo tưởng”
(Hallucination)
Khi mô hình "bịa" thông tin sai lệch:
- Nguyên
nhân: Dữ liệu thiếu, prompt mơ hồ, mô hình overfit.
- Giải
pháp: Dữ liệu tốt hơn, prompt rõ ràng, kết hợp kiểm chứng.
🚨 Thiên vị (Bias)
- Nguồn
gốc: Dữ liệu huấn luyện chứa thiên vị.
- Hậu
quả: Kết quả sinh ra có thể phân biệt đối xử.
Biện pháp khắc phục:
- Chọn
lọc dữ liệu huấn luyện tốt, không thiên vị, rỏ ràng minh bạch.
- Sử
dụng kỹ thuật giảm thiên vị (adversarial debiasing, kiểm tra fairness).
- Giám
sát và đánh giá đầu ra bởi con người.
✅ Tổng kết chương 2
Chủ đề |
Mô tả |
Kiến trúc |
Dựa trên
Transformer: gồm encoder và decoder. |
Khả năng |
Sinh văn bản,
tóm tắt, dịch thuật, lý luận, sinh mã nguồn. |
Hạn chế |
Có thể bịa,
thiếu tri thức thường thức, phụ thuộc prompt. |
Giải pháp |
Cải thiện dữ
liệu, huấn luyện nâng cao, kiểm chứng, kỹ thuật prompt. |
Tham khảo Chương 1
إرسال تعليق