3.16.2026

Loạt 7 bài "Bên Trong AI — Chuyện Chưa Kể" · Bài 5: AI Học Như Thế Nào?

Từ Văn Bản Thô Đến Người Bạn Trò Chuyện Được

Tác giả: Claude AI, dưới sự điều khiển, câu lệnh và chỉnh sửa của Học Trò.


Mở Đầu

Bạn biết AI thông minh vì hàng tỷ tham số được điều chỉnh qua hàng nghìn tỷ lần học. Nhưng học từ đâu? Học như thế nào? Và tại sao AI trả lời lịch sự, thừa nhận khi không biết, và cố gắng hữu ích — thay vì chỉ nhả ra văn bản thô vô tội vạ?

Quá trình huấn luyện một AI ngôn ngữ hiện đại gồm ba giai đoạn rõ ràng, mỗi giai đoạn có mục tiêu khác nhau. Hiểu ba giai đoạn này giúp bạn hiểu tại sao AI có tính cách như nó có — và cũng hiểu tại sao nó vẫn còn nhiều giới hạn.


Giai Đoạn 1: Pretraining — Đọc Tất Cả Những Gì Con Người Đã Viết

Pretraining (tiền huấn luyện) là giai đoạn đầu và tốn kém nhất. Mục tiêu đơn giản: cho AI đọc càng nhiều văn bản con người đã viết càng tốt, để nó học cách ngôn ngữ hoạt động.

Dữ liệu huấn luyện đến từ nhiều nguồn:

  • Nội dung internet: Một phần lớn internet công khai — trang web, blog, diễn đàn, Wikipedia, tin tức — được crawl (thu thập tự động) và đưa vào. Tập dữ liệu như Common Crawl chứa hàng petabyte văn bản từ hàng tỷ trang web.
  • Sách: Hàng triệu quyển sách số hóa, từ tiểu thuyết đến sách giáo khoa khoa học, y khoa, luật, lịch sử.
  • Code: Hàng tỷ dòng code từ GitHub và các kho mã nguồn mở — đây là lý do AI có thể lập trình.
  • Tài liệu học thuật: Bài báo khoa học, luận văn, tạp chí — giúp AI học cách lập luận có cấu trúc.
  • Hội thoại và diễn đàn: Reddit, Stack Overflow, và nhiều nền tảng khác — giúp AI học cách giao tiếp tự nhiên.

Nhưng không phải cứ lấy tất cả rồi bỏ vào. Dữ liệu được lọc và làm sạch kỹ: bỏ spam, nội dung rác, văn bản trùng lặp, và một phần nội dung độc hại. Tỷ lệ các nguồn cũng được điều chỉnh — ví dụ tăng tỷ lệ sách và tài liệu học thuật vì chúng thường có ngôn ngữ chính xác và lập luận rõ ràng hơn nội dung mạng xã hội.

Cách học trong pretraining: Cực kỳ đơn giản về nguyên tắc. Hệ thống lấy một đoạn văn bản, che đi phần cuối, yêu cầu model đoán token tiếp theo, so sánh với đáp án đúng, rồi điều chỉnh trọng số. Lặp lại — hàng nghìn tỷ lần. Không có nhãn, không có đúng/sai phức tạp — chỉ là "đoán token tiếp theo, rồi chỉnh."

Kết quả sau pretraining: model có thể tạo ra văn bản liên kết, hiểu ngữ cảnh, biết nhiều thứ về thế giới. Nhưng nó chưa hữu ích theo nghĩa thực tế. Nếu bạn hỏi nó câu gì, nó có thể trả lời bằng cách... tiếp tục văn bản theo kiểu của internet — có thể là nội dung hữu ích, có thể là rác, tùy văn bản nào nó bắt gặp pattern tương tự nhất.


Chi Phí Của Pretraining

Pretraining một model lớn tốn kém đến mức đáng kinh ngạc.

GPT-4 của OpenAI (ước tính, vì OpenAI không công bố chính xác): tốn khoảng 50–100 triệu đô la chỉ riêng chi phí điện toán. Meta's LLaMA 3 (model mã nguồn mở): tốn khoảng 30–60 triệu đô. Gemini Ultra của Google: ước tính hàng trăm triệu đô.

Con số đó đến từ đâu? Từ việc chạy hàng nghìn chip GPU/TPU đặc biệt liên tục trong nhiều tuần đến nhiều tháng, tiêu thụ lượng điện tương đương một thành phố nhỏ. Đây là lý do AI lớn chỉ có thể được xây dựng bởi các công ty có nguồn vốn khổng lồ.


Giai Đoạn 2: Fine-Tuning — Dạy AI Cách Cư Xử

Sau pretraining, model cần được "uốn nắn" để hành xử đúng trong vai trò trợ lý. Đây là fine-tuning (tinh chỉnh).

Trong giai đoạn này, dữ liệu không còn là văn bản thô từ internet. Thay vào đó, người ta tạo ra những tập dữ liệu chất lượng cao gồm các cặp hỏi-đáp mẫu:

  • Câu hỏi: "Giải thích thuyết tương đối cho một đứa trẻ 10 tuổi."
  • Câu trả lời mẫu: [câu trả lời rõ ràng, dễ hiểu, phù hợp với trẻ em]

Hàng chục ngàn, thậm chí hàng trăm ngàn cặp như vậy được tạo ra bởi người viết chuyên nghiệp. Model được huấn luyện thêm trên tập dữ liệu này để học cách trả lời theo format hỏi-đáp hữu ích, học cách giải thích rõ ràng, học cách từ chối yêu cầu có hại.

Fine-tuning cũng tốn kém, nhưng rẻ hơn pretraining nhiều — vì dữ liệu ít hơn và model đã có nền tảng từ trước. Thường tính bằng hàng triệu thay vì hàng chục triệu đô.


Giai Đoạn 3: RLHF — Người Thật Dạy AI Cách Tốt Hơn

Đây là giai đoạn thú vị nhất và ít người biết đến nhất.

RLHFReinforcement Learning from Human Feedback (học tăng cường từ phản hồi của người) — là kỹ thuật đã tạo ra bước nhảy lớn từ model "có thể tạo văn bản" sang model "thật sự hữu ích và an toàn."

Quy trình RLHF diễn ra như sau:

Bước 1 — Thu thập so sánh: Model tạo ra nhiều phiên bản câu trả lời khác nhau cho cùng một câu hỏi. Người đánh giá (human rater — người chấm điểm thật) đọc cả hai và chọn cái nào tốt hơn. Ví dụ: model tạo ra câu trả lời A và câu trả lời B cho câu hỏi "Giải thích lãi suất kép là gì?" — người đánh giá chọn A vì nó rõ ràng hơn, có ví dụ thực tế, không có thông tin sai.

Bước 2 — Huấn luyện reward model: Từ hàng trăm ngàn cặp so sánh đó, người ta huấn luyện một model phụ gọi là reward model (model phần thưởng) — model này học cách dự đoán "câu trả lời này có tốt theo quan điểm người dùng không?"

Bước 3 — Tối ưu hóa bằng RL: Model chính được điều chỉnh để tạo ra những câu trả lời mà reward model đánh giá cao — và tránh những câu trả lời reward model đánh giá thấp. Đây là phần "reinforcement learning" (học tăng cường): model học cách "chơi trò chơi" sao cho kiếm được nhiều điểm từ reward model nhất.

Kết quả của RLHF: AI trở nên hữu ích hơn, an toàn hơn, và ít có xu hướng tạo ra nội dung có hại hơn. Nó học được cả những thứ tinh tế như "khi người dùng cảm thấy buồn, không nên bắt đầu bằng danh sách bullet points."

RLHF không hoàn hảo — reward model cũng có thể bị "gian lận" (model học cách nghe hay mà không thực sự đúng), và sở thích của người đánh giá phản ánh quan điểm văn hóa của họ. Nhưng so với không có RLHF, sự khác biệt rất đáng kể.


Những Người Đứng Sau Dữ Liệu RLHF

Một chi tiết ít được nói đến: phần lớn công việc đánh giá trong RLHF không được thực hiện bởi các kỹ sư tại Anthropic hay OpenAI — mà bởi các human rater (người chấm điểm) làm việc qua các nền tảng lao động kỹ thuật số, thường ở các nước đang phát triển như Kenya, Philippines, hay Ấn Độ, với mức lương thấp.

Đây là phần đáng suy nghĩ của ngành AI. Sự thông minh và sự an toàn của những AI mà hàng tỷ người dùng được xây dựng một phần nhờ lao động của những người không nổi tiếng, làm công việc đọc và đánh giá nội dung độc hại suốt giờ để AI học cách tránh nó.


Sau Huấn Luyện: Model Không Cập Nhật Tự Động

Một điểm quan trọng cần hiểu: sau khi huấn luyện xong, model "đông cứng lại." Nó không tiếp tục học từ các cuộc trò chuyện hàng ngày của bạn. Nếu bạn kể cho Claude nghe về một sự kiện xảy ra hôm nay, Claude không "ghi nhớ" điều đó cho người dùng khác hay cho chính bạn trong cuộc trò chuyện tiếp theo.

Đây là lý do AI có training cutoff (ngày cắt hạn dữ liệu huấn luyện) — một ngày mà dữ liệu của nó dừng lại. Mọi sự kiện xảy ra sau ngày đó, AI không biết trừ khi bạn nói cho nó biết trong cuộc trò chuyện đó.

Anthropic và các công ty AI thường ra phiên bản mới định kỳ — mỗi phiên bản mới được huấn luyện lại từ đầu (hoặc gần như vậy) với dữ liệu mới hơn. Không phải "cập nhật" theo nghĩa phần mềm thông thường — mà là huấn luyện lại toàn bộ.


Tóm Lại: Ba Giai Đoạn Tạo Ra Một AI

Giai Đoạn Tên Mục Tiêu Dữ Liệu
1 Pretraining Học ngôn ngữ và kiến thức Hàng trăm tỷ trang văn bản thô
2 Fine-tuning Học cách trả lời hữu ích Hàng chục ngàn cặp hỏi-đáp chất lượng cao
3 RLHF Học theo ưu tiên của người dùng Hàng trăm ngàn đánh giá so sánh từ người thật

Bài tiếp theo: tất cả quá trình đó xảy ra ở đâu? Những tòa nhà chứa hàng ngàn chip GPU đặc biệt, tiêu thụ điện nhiều như thành phố, nằm ở đâu trên thế giới?


Bảng Tham Khảo Nhanh

Khái Niệm Tiếng Anh Nghĩa Ngắn Gọn
Tiền huấn luyện Pretraining Học từ hàng trăm tỷ trang văn bản thô
Tinh chỉnh Fine-tuning Học cách trả lời hữu ích từ mẫu chất lượng cao
Học từ phản hồi người RLHF Điều chỉnh theo đánh giá so sánh của người thật
Model phần thưởng Reward model Model phụ học dự đoán "câu trả lời nào tốt hơn"
Người chấm điểm Human rater Người thật đánh giá và so sánh câu trả lời AI
Ngày cắt hạn Training cutoff Ngày dữ liệu huấn luyện kết thúc; AI không biết gì sau đó
Thu thập dữ liệu web Web crawling Tự động thu thập văn bản từ internet

Điều Cần Nhớ

  • Huấn luyện AI gồm ba giai đoạn: pretraining (học ngôn ngữ), fine-tuning (học cách hữu ích), RLHF (học theo ưu tiên người dùng).
  • Pretraining tốn hàng chục đến hàng trăm triệu đô la. Đây là lý do chỉ công ty lớn mới làm được model lớn.
  • RLHF là lý do AI lịch sự và an toàn hơn — không phải tự nhiên, mà do người thật chấm điểm và model học từ đó.
  • AI không học từ cuộc trò chuyện của bạn. Sau khi huấn luyện xong, model đông cứng lại.
  • Training cutoff là thật. AI không biết gì xảy ra sau ngày đó trừ khi bạn nói cho nó biết.
  • Bài tiếp theo: Data center — những tòa nhà khổng lồ nơi AI "sống."