Góc Học Trò - Hoctro's Place: Loạt 7 bài "Bên Trong AI — Chuyện Chưa Kể"

3.23.2026

Loạt 7 bài "Bên Trong AI — Chuyện Chưa Kể" · Bài 3: AI Trả Lời Kiểu Gì?

Đoán Từng Chữ Một — Nhưng Đoán Kiểu Gì Vậy?

Tác giả: Claude AI, dưới sự điều khiển, câu lệnh và chỉnh sửa của Học Trò.

Mở Đầu

Khi bạn hỏi AI "Thủ đô của Pháp là gì?" và nó trả lời "Paris" — bạn sẽ nghĩ: đương nhiên, nó biết câu trả lời đó rồi. Nó đã học.

Nhưng đây là điều bất ngờ: AI không "biết" theo nghĩa con người. Nó không tra trong một cái kho kiến thức nào đó, không tìm câu trả lời đúng rồi đọc lên. Nó làm một thứ đơn giản hơn nhiều — và cũng thú vị hơn nhiều: nó đoán chữ tiếp theo.

Cứ đọc lại câu đó: nó đoán chữ tiếp theo. Rồi đoán chữ kế tiếp. Rồi kế tiếp nữa. Cứ vậy cho đến khi xong câu trả lời.

Nghe thì có vẻ đơn giản, thậm chí hơi ngây ngô. Nhưng chính cái cơ chế "đoán liên tục" này — khi được huấn luyện trên hàng trăm tỷ trang văn bản — tạo ra những câu trả lời đôi khi khiến người đọc phải ngồi lại một chút. Bài này giải thích tại sao.

Bàn Phím Điện Thoại, Nhưng Thông Minh Hơn Triệu Lần

Bạn có dùng tính năng gợi ý chữ trên bàn phím điện thoại không? Bạn gõ "Chúc mừng" rồi bàn phím gợi ý "sinh nhật" — vì qua hàng triệu lần người dùng gõ những chữ đó, hệ thống học được rằng "Chúc mừng" thường đi kèm với "sinh nhật."

AI làm điều tương tự — chỉ là ở quy mô và độ tinh vi khác hoàn toàn. Thay vì học từ vài triệu người dùng điện thoại, nó học từ hàng trăm tỷ trang văn bản: sách, báo, trang web, code, hội thoại, luận văn khoa học, tiểu thuyết, diễn đàn. Thay vì gợi ý một chữ đơn giản, nó tính toán phân phối xác suất cho hàng chục ngàn token có thể đến tiếp theo.

Cơ chế đó được gọi là autoregressive generation (tạo văn bản tự hồi quy) — mỗi token mới được sinh ra dựa trên toàn bộ những token đã có trước đó. "Auto" vì tự động, "regressive" vì mỗi bước quay lại nhìn những gì đã tạo ra. Câu trả lời cứ lớn dần, token một, và mỗi token mới lại ảnh hưởng đến những token sau.

Xác Suất — AI Thấy Gì Trước Khi Nói?

Trước khi sinh ra token tiếp theo, AI không thấy một câu trả lời rõ ràng. Nó thấy một bảng xác suất — danh sách tất cả các token có thể đến tiếp theo, kèm theo xác suất của từng cái.

Ví dụ đơn giản: bạn hỏi "Thủ đô của Pháp là..." thì AI tính toán:

"Paris" → xác suất 94%
"Lyon" → xác suất 2%
"Marseille" → xác suất 1%
Hàng ngàn token khác → tổng cộng 3%

Rõ ràng "Paris" thắng áp đảo. Nhưng AI không phải lúc nào cũng chọn cái có xác suất cao nhất — đây là lúc temperature (nhiệt độ) vào cuộc.

Temperature — Cái Núm Điều Chỉnh Sự Sáng Tạo

Temperature là một thông số từ 0 đến 2 (tùy hệ thống) kiểm soát mức độ "ngẫu nhiên" trong cách AI chọn token tiếp theo.

Temperature thấp (gần 0): AI gần như luôn chọn token có xác suất cao nhất. Câu trả lời đoán được, nhất quán, ít sáng tạo. Hỏi cùng một câu mười lần, được mười câu trả lời giống nhau. Tốt cho những việc cần chính xác: dịch thuật, tóm tắt, trả lời câu hỏi thực tế.

Temperature cao (gần 1 hoặc hơn): AI có xu hướng chọn những token ít phổ biến hơn, ngẫu nhiên hơn. Câu trả lời bất ngờ hơn, đa dạng hơn, đôi khi sáng tạo hơn — nhưng cũng đôi khi lạc đề hơn. Tốt cho sáng tác, viết lách, brainstorming.

Hình dung như một người nhạc sĩ jazz. Temperature thấp: anh ấy chơi đúng bản nhạc, từng nốt theo đúng thứ tự. Temperature cao: anh ấy ngứa tay ứng tấu, thử những hợp âm bất ngờ — đôi khi hay hơn bản gốc, đôi khi lạc điệu.

Khi bạn dùng Claude hay ChatGPT qua giao diện thông thường, temperature đã được cài sẵn ở mức cân bằng — đủ nhất quán để có ích, đủ linh hoạt để không quá máy móc. Khi dùng API, bạn có thể tự điều chỉnh tùy nhu cầu.

Greedy Decoding và Sampling — Hai Cách Chọn Token

Ngoài temperature, còn có hai cách tiếp cận cơ bản khi chọn token tiếp theo:

Greedy decoding (chọn tham lam): luôn chọn token có xác suất cao nhất. Nhanh, đơn giản, dự đoán được. Nhưng đôi khi dẫn đến câu trả lời lặp đi lặp lại hoặc nhàm chán vì AI cứ đi theo con đường an toàn nhất.

Sampling (lấy mẫu ngẫu nhiên): chọn ngẫu nhiên có trọng số — token xác suất cao có khả năng được chọn nhiều hơn, nhưng token xác suất thấp vẫn có cơ hội. Temperature kiểm soát mức độ trọng số đó.

Hầu hết AI hiện đại dùng kết hợp: sampling với temperature vừa phải, cộng thêm kỹ thuật như top-p sampling (chỉ xét trong nhóm token có tổng xác suất chiếm p%) để tránh những lựa chọn quá kỳ lạ.

Kết quả: AI trả lời có vẻ tự nhiên, linh hoạt, không máy móc — nhưng vẫn đủ nhất quán để có ích.

Hallucination — Tại Sao AI Bịa Chuyện?

Đây là phần nhiều người thắc mắc nhất. AI đôi khi đưa ra thông tin sai — không phải sai nhỏ, mà sai hoàn toàn, nhưng lại được trình bày với giọng điệu tự tin như thể đó là sự thật hiển nhiên. Trong giới kỹ thuật, hiện tượng này gọi là hallucination (ảo giác AI).

Vì sao xảy ra? Câu trả lời nằm chính ở cơ chế mình vừa nói: AI không tìm kiếm sự thật — nó sinh ra văn bản có xác suất cao nhất đến tiếp theo.

Khi bạn hỏi "Ông Nguyễn Văn X, nhà khoa học người Việt, đã phát minh ra gì?", nếu AI không có đủ thông tin về nhân vật đó trong quá trình huấn luyện, nó không thể nói "Tôi không biết" một cách tự nhiên theo cơ chế. Thay vào đó, nó nhìn vào pattern: câu hỏi về nhà khoa học + phát minh → phải có một cái gì đó. Rồi nó sinh ra một câu trả lời "nghe có vẻ đúng" — tên công trình, năm tháng, thậm chí tên tạp chí khoa học — tất cả đều là sản phẩm của việc đoán từng token theo xác suất, không có gì được kiểm chứng.

Đây là điểm quan trọng: AI không biết mình đang bịa. Không có cơ chế nào trong quá trình sinh token nói với model rằng "thông tin này chưa được xác thực." Mỗi token được sinh ra đơn thuần theo xác suất — bịa hay thật, kết quả trông giống nhau từ bên ngoài.

Các hallucination phổ biến nhất:

Trích dẫn giả: AI đặt ra câu trích dẫn rồi gán cho người nổi tiếng — câu đó nghe rất hợp với phong cách người đó, nhưng họ chưa bao giờ nói vậy
Tài liệu không tồn tại: AI liệt kê sách, bài báo khoa học với đầy đủ tên tác giả, năm xuất bản, số trang — nhưng tìm trên Google không ra
Sự kiện sai ngày: AI nhớ sự kiện có xảy ra, nhưng đặt nhầm năm hoặc nhầm người liên quan
Thống kê bịa: Con số trông rất cụ thể và thuyết phục — "37,4% người dùng..." — nhưng không có nguồn gốc

Cách phòng tránh thực tế: với những thông tin quan trọng — sự kiện lịch sử, con số, trích dẫn, tên người, tên tài liệu — luôn kiểm tra lại từ nguồn khác. AI rất giỏi ở nhiều thứ, nhưng nó không phải từ điển bách khoa đáng tin cậy tuyệt đối.

Vậy AI Có Thật Sự "Hiểu" Không?

Đây là câu hỏi triệu đô — và câu trả lời là: tùy bạn định nghĩa "hiểu" là gì.

Theo nghĩa con người — có ý thức, có trải nghiệm, cảm nhận được ý nghĩa — AI không hiểu. Nó không "biết" Paris là thủ đô của Pháp theo cái nghĩa mà bạn biết khi nhìn thấy hình ảnh Tháp Eiffel, nhớ bài địa lý hồi lớp 8, hay đặt chân đến đó. Nó chỉ biết rằng token "Paris" có xác suất rất cao xuất hiện sau cụm "thủ đô của Pháp là."

Nhưng theo nghĩa hành vi — đọc, tóm tắt, lập luận, dịch, giải thích, sáng tác — AI thực hiện những việc đó theo cách mà kết quả trông rất giống với sự hiểu biết. Và ở quy mô đủ lớn, ranh giới giữa "thực sự hiểu" và "đoán rất giỏi" trở nên mờ đến mức người ta còn tranh luận đến nay.

Điều quan trọng thực tế: khi dùng AI, hãy đối xử với nó như một người cộng tác cực kỳ thông minh nhưng đôi khi tự tin thái quá và hay bịa chuyện. Hữu ích nhất khi bạn kiểm chứng những gì quan trọng và không tin mù quáng những thứ nghe quá hoàn hảo.

Tóm Lại

AI không "suy nghĩ" rồi "trả lời." Nó sinh ra câu trả lời từng token một, mỗi lần chọn dựa trên xác suất token nào nên đến tiếp theo theo tất cả những gì đã có trước đó. Temperature điều chỉnh mức độ sáng tạo hay nhất quán của quá trình đó. Và vì cơ chế là đoán theo xác suất — không phải tra cứu sự thật — hallucination là hệ quả tự nhiên, không phải lỗi kỹ thuật có thể vá được hoàn toàn.

Bài tiếp theo: vậy từ cơ chế đoán token đơn giản đó, tại sao AI lại thông minh đến vậy? Neural network là gì, attention mechanism là gì, và tại sao AI càng lớn càng bỗng dưng biết làm những thứ không ai dạy?

Bảng Tham Khảo Nhanh

Khái Niệm	Tiếng Anh	Nghĩa Ngắn Gọn
Tạo văn bản tự hồi quy	Autoregressive generation	Sinh từng token dựa trên tất cả token trước đó
Phân phối xác suất	Probability distribution	Danh sách xác suất của tất cả token có thể đến tiếp
Nhiệt độ	Temperature	Núm điều chỉnh độ ngẫu nhiên / sáng tạo
Chọn tham lam	Greedy decoding	Luôn chọn token xác suất cao nhất
Lấy mẫu	Sampling	Chọn ngẫu nhiên có trọng số theo xác suất
Ảo giác AI	Hallucination	AI sinh ra thông tin sai nhưng tự tin

Điều Cần Nhớ

AI đoán từng token một. Không tra cứu, không "biết" theo nghĩa con người — chỉ tính xác suất token tiếp theo liên tục.
Temperature điều chỉnh sự sáng tạo. Thấp = nhất quán, dự đoán được. Cao = sáng tạo hơn, bất ngờ hơn, đôi khi lạc đề hơn.
Hallucination không phải lỗi vá được hoàn toàn. Nó là hệ quả tự nhiên của cơ chế sinh token theo xác suất, không phải tìm kiếm sự thật.
AI không biết mình đang bịa. Không có cơ chế nội tại báo hiệu "thông tin này chưa được xác thực."
Kiểm chứng những thứ quan trọng. Trích dẫn, con số, tên tài liệu, sự kiện lịch sử — luôn xác minh từ nguồn khác.
Bài tiếp theo: Từ cơ chế đoán đơn giản này, AI trở nên thông minh bằng cách nào?