Từ Máy Đoán Token Đến Thứ Có Thể Làm Bạn Ngạc Nhiên
Tác giả: Claude AI, dưới sự điều khiển, câu lệnh và chỉnh sửa của Học Trò.
Mở Đầu
Bài trước mình nói rằng AI thực chất là "đoán token tiếp theo liên tục." Nghe thế, nhiều người thắc mắc: chỉ vậy thôi sao? Chỉ là đoán chữ tiếp theo? Vậy tại sao nó có thể giải toán đại học, dịch thơ Đường, viết code không lỗi, giải thích triết học, hay tóm tắt một bài báo khoa học dài 40 trang trong hai phút?
Câu trả lời nằm ở hai thứ: cấu trúc bên trong của AI (mạng thần kinh nhân tạo và cơ chế chú ý), và quy mô khổng lồ của quá trình huấn luyện. Bài này sẽ giải thích cả hai — không cần toán học, không cần nền tảng kỹ thuật.
Mạng Thần Kinh Nhân Tạo — Không Phải Não, Nhưng Lấy Cảm Hứng Từ Não
Neural network (mạng thần kinh nhân tạo) là cấu trúc toán học được xây dựng dựa trên cách não người hoạt động — không phải mô phỏng não người, mà là lấy cảm hứng từ đó.
Trong não người, có hàng tỷ tế bào thần kinh (neuron). Mỗi neuron kết nối với hàng nghìn neuron khác. Khi bạn thấy một khuôn mặt, một loạt neuron kích hoạt theo chuỗi — cái này kích cái kia, lan truyền qua nhiều lớp — và cuối cùng não bạn nhận ra "đây là khuôn mặt của mẹ." Không có ai lập trình từng bước đó — não tự học cách nhận ra qua hàng nghìn lần thấy khuôn mặt đó.
Neural network nhân tạo làm điều tương tự với số. Nó gồm nhiều lớp node (nút) — mỗi node là một đơn vị tính toán nhỏ. Tín hiệu (con số) đi vào lớp đầu tiên, được xử lý, rồi truyền sang lớp tiếp theo, rồi lớp tiếp theo nữa, cho đến lớp cuối cùng tạo ra kết quả đầu ra.
Cái quan trọng là: mỗi kết nối giữa hai node có một trọng số (weight) — một con số nói rằng "kết nối này quan trọng đến mức nào." Toàn bộ "trí thông minh" của AI nằm trong hàng tỷ con số trọng số đó. Khi AI học, thực chất là nó đang điều chỉnh hàng tỷ con số trọng số đó cho đến khi đầu ra trở nên đúng hơn.
AI Học Bằng Cách Nào? — Hàng Tỷ Lần Điều Chỉnh
Hình dung bạn có một bảng điều khiển khổng lồ với một trăm tỷ cái núm vặn. Mỗi cái núm kiểm soát một trọng số trong mạng. Ban đầu, tất cả núm đặt ngẫu nhiên — đầu ra vô nghĩa. Bạn đưa cho hệ thống một câu, hệ thống đoán token tiếp theo, và sai toét.
Rồi bạn điều chỉnh từng cái núm một chút — một chút rất nhỏ, theo hướng làm cho đầu ra đúng hơn. Lặp lại quá trình đó hàng tỷ, hàng nghìn tỷ lần, với hàng trăm tỷ câu văn bản. Sau đủ lần điều chỉnh, hệ thống bắt đầu đoán đúng hơn — không phải vì ai lập trình câu trả lời, mà vì hàng tỷ cái núm đã được hiệu chỉnh để tạo ra đầu ra đúng theo kinh nghiệm tích lũy.
Quá trình điều chỉnh đó được thực hiện bằng thuật toán gọi là backpropagation (lan truyền ngược) — nó tính toán khi đầu ra sai thì lỗi đó "lỗi của" cái núm nào, rồi điều chỉnh những núm đó trước. Nghe phức tạp, nhưng về cơ bản: sai rồi chỉnh, sai rồi chỉnh, hàng nghìn tỷ lần.
Một model AI hiện đại như Claude Sonnet có khoảng vài chục tỷ tham số (parameter) — tức là vài chục tỷ cái "núm" đó. GPT-4 ước tính có khoảng 1.8 nghìn tỷ. Phần lớn "trí thông minh" của AI nằm trong sự phối hợp giữa hàng tỷ con số này — không phải trong bất kỳ quy tắc nào được lập trình tay.
Attention Mechanism — Bí Quyết Thật Sự
Đây là phần làm thay đổi mọi thứ. Trước năm 2017, AI ngôn ngữ tồn tại nhưng không đủ mạnh. Năm 2017, một nhóm nhà nghiên cứu tại Google công bố bài báo có tựa đề "Attention Is All You Need" — và từ đó, AI ngôn ngữ bước vào một kỷ nguyên mới.
Cơ chế chú ý (attention mechanism) giải quyết một bài toán cụ thể: khi AI đọc một câu dài, nó cần biết từ nào liên quan đến từ nào.
Ví dụ: "Con mèo ngồi trên tấm thảm vì nó mệt."
Từ "nó" trong câu này chỉ ai? Con mèo hay tấm thảm? Bạn biết ngay — tấm thảm không thể mệt. Nhưng làm sao AI biết? Khoảng cách giữa "nó" và "mèo" là mấy từ — AI phải "nhìn lại" đủ xa và hiểu rằng "nó" liên kết với "mèo," không phải "thảm."
Trước khi có attention mechanism, AI xử lý câu theo thứ tự từ trái sang phải, giống đọc từng chữ — và dễ bị "quên" những thứ ở xa. Sau khi có attention, AI có thể nhìn vào toàn bộ câu cùng một lúc và tính toán: từ nào đang xử lý phải "chú ý" đến từ nào nhiều nhất?
Cụ thể hơn: với mỗi token đang xử lý, attention mechanism tính một điểm số cho mỗi token khác trong câu — điểm số đó nói rằng "token này có liên quan đến token kia nhiều đến mức nào." Token liên quan nhiều thì được "chú ý" nhiều hơn trong quá trình tính toán token tiếp theo.
Kết quả: AI có thể hiểu câu dài phức tạp, giữ nguyên ngữ nghĩa qua nhiều mệnh đề, biết "nó" chỉ "mèo" chứ không phải "thảm" — và làm điều đó trong hàng nghìn từ cùng lúc chứ không chỉ trong một câu ngắn.
Kiến trúc dùng attention mechanism gọi là Transformer — và đây là nền tảng của hầu hết AI ngôn ngữ hiện đại: GPT, Claude, Gemini, LLaMA, tất cả đều là Transformer.
Scale — Tại Sao To Hơn Thì Thông Minh Hơn?
Mạng thần kinh và attention đã có từ trước 2017. Nhưng AI thật sự "bùng nổ" mạnh từ 2020 đến nay còn vì một yếu tố nữa: scale (quy mô).
Khi tăng số lượng tham số (nhiều cái "núm" hơn), dùng nhiều dữ liệu huấn luyện hơn, và chạy nhiều tính toán hơn — AI trở nên thông minh hơn theo cách phi tuyến tính. Tức là không phải tăng gấp đôi tài nguyên thì được gấp đôi thông minh — mà đôi khi tăng 10 lần tài nguyên lại cho ra model giỏi hơn gấp trăm lần ở những tác vụ cụ thể.
Điều này dẫn đến một hiện tượng bất ngờ mà giới nghiên cứu gọi là emergent behaviors (hành vi nổi sinh) — những khả năng bỗng dưng xuất hiện ở model lớn mà không ai lập trình trước, và cũng không thể dự đoán trước.
Emergent Behaviors — Những Kỹ Năng Không Ai Dạy
Đây là phần thú vị nhất và cũng bí ẩn nhất.
Hình dung một đứa trẻ học tiếng Việt. Bạn dạy nó từ vựng, ngữ pháp, cách đọc câu. Đến một lúc nào đó — không ai dạy — đứa trẻ bắt đầu đặt câu hỏi, rồi kể chuyện, rồi nói đùa. Khả năng đùa giỡn không ai dạy trực tiếp — nó nổi sinh từ việc nắm đủ ngôn ngữ.
AI cũng vậy. Khi model còn nhỏ, nó chỉ làm tốt những gì được huấn luyện rõ ràng. Nhưng khi đạt đến một quy mô đủ lớn, những khả năng mới bỗng xuất hiện — như pha chuyển trạng thái: nước ở 99°C vẫn là lỏng, nhưng đến 100°C bỗng thành hơi. Không có bước chuyển trung gian, chỉ là đột ngột khác hẳn.
Những emergent behaviors đã được ghi nhận ở các model lớn:
Lập luận nhiều bước (multi-step reasoning): Model nhỏ không thể giải bài toán "nếu A thì B, nếu B thì C, vậy A dẫn đến gì?" Model đủ lớn đột nhiên làm được, dù không được huấn luyện cụ thể cho kiểu bài này.
Học từ ví dụ ngay trong ngữ cảnh (in-context learning): Bạn đưa cho AI ba ví dụ theo cùng một pattern, rồi hỏi câu thứ tư — model nhỏ bó tay, model lớn tự nhận ra pattern và trả lời đúng. Không cần huấn luyện lại, chỉ đọc ví dụ trong cuộc trò chuyện là xong.
Giải thích lý do (chain-of-thought): Model lớn, khi được yêu cầu "suy nghĩ từng bước trước khi trả lời," tự động tạo ra chuỗi lý luận trung gian và cho câu trả lời chính xác hơn đáng kể — trong khi model nhỏ dùng cùng kỹ thuật không cải thiện được gì.
Hiểu phép ẩn dụ và hài hước: Những khả năng tinh tế về ngôn ngữ — nhận ra ý mỉa mai, hiểu câu đùa ngầm, phân biệt nghĩa đen và nghĩa bóng — xuất hiện ở model lớn mà gần như không có ở model nhỏ.
Không ai lập trình những kỹ năng đó vào. Chúng nổi sinh từ sự kết hợp của kiến trúc Transformer, dữ liệu khổng lồ, và đủ tham số.
Vậy Thông Minh Thật Hay Chỉ Là Thống Kê Tinh Vi?
Câu hỏi này vẫn còn mở trong giới nghiên cứu AI. Một trường phái nói: tất cả chỉ là thống kê cực kỳ tinh vi — AI không "hiểu" gì cả, chỉ là đoán theo pattern rất giỏi. Trường phái khác nói: khi hành vi đủ phức tạp và linh hoạt, ranh giới giữa "thống kê" và "trí tuệ" trở nên không rõ ràng.
Thực tế mà nói, câu hỏi này không ảnh hưởng nhiều đến việc bạn dùng AI. Điều quan trọng hơn là biết AI làm tốt cái gì và kém cái gì:
- Làm tốt: tổng hợp thông tin, giải thích khái niệm, dịch ngôn ngữ, viết lách, phân tích, lập trình, trả lời câu hỏi trong phạm vi đã học
- Làm kém: thông tin thời sự sau ngày cắt hạn (nếu không có công cụ tìm kiếm), kiểm chứng sự thật độc lập, nhớ chính xác con số và ngày tháng, lý luận toán học phức tạp mà không có công cụ hỗ trợ
Tóm Lại
AI thông minh không phải vì ai đó lập trình từng câu trả lời vào. Nó thông minh vì:
- Mạng thần kinh nhân tạo — hàng tỷ tham số được điều chỉnh qua hàng nghìn tỷ lần học
- Attention mechanism — khả năng nhìn toàn bộ ngữ cảnh và biết cái gì liên quan đến cái gì
- Quy mô — đủ lớn thì những kỹ năng không ai dạy bỗng nổi sinh
Bài tiếp theo: quá trình huấn luyện đó diễn ra như thế nào? Ai cung cấp dữ liệu, tốn bao nhiêu tiền và thời gian, và kỹ thuật RLHF đã dạy AI cách cư xử tử tế với người dùng như thế nào?
Bảng Tham Khảo Nhanh
| Khái Niệm | Tiếng Anh | Nghĩa Ngắn Gọn |
|---|---|---|
| Mạng thần kinh nhân tạo | Neural network | Nhiều lớp node kết nối, xử lý tín hiệu số |
| Trọng số / tham số | Weight / parameter | Con số điều chỉnh trong mỗi kết nối của mạng |
| Lan truyền ngược | Backpropagation | Thuật toán điều chỉnh trọng số khi đầu ra sai |
| Cơ chế chú ý | Attention mechanism | Cho phép AI biết từ nào liên quan đến từ nào |
| Kiến trúc Transformer | Transformer | Nền tảng của GPT, Claude, Gemini — dùng attention |
| Quy mô | Scale | Số tham số + dữ liệu + tính toán huấn luyện |
| Hành vi nổi sinh | Emergent behavior | Kỹ năng AI tự có khi đủ lớn, không ai dạy trực tiếp |
Điều Cần Nhớ
- AI thông minh không phải do lập trình từng câu trả lời. Trí thông minh nằm trong hàng tỷ trọng số được điều chỉnh qua hàng nghìn tỷ lần học.
- Attention mechanism là bước ngoặt. Nó cho phép AI xử lý toàn bộ ngữ cảnh cùng lúc thay vì đọc từ trái sang phải và hay "quên."
- Transformer là nền tảng của AI hiện đại. GPT, Claude, Gemini đều dùng kiến trúc này.
- To hơn không chỉ là nhanh hơn — mà còn biết nhiều hơn theo cách phi tuyến. Những kỹ năng mới bỗng xuất hiện khi model đủ lớn.
- Emergent behaviors không ai lập trình. Lập luận nhiều bước, học từ ví dụ, hiểu hài hước — tất cả nổi sinh từ quy mô và kiến trúc.
- Bài tiếp theo: Quá trình huấn luyện này diễn ra như thế nào, tốn bao nhiêu, và RLHF là gì?