Góc Học Trò - Hoctro's Place

5.05.2026

Andrej Karpathy: Từ Vibe Coding Đến Kỹ Thuật Tác Nhân — Bản Ghi Chép Đầy Đủ

Sự kiện: AI Ascent 2026, do Sequoia Capital tổ chức

Khách mời: Andrej Karpathy — đồng sáng lập OpenAI, cựu Giám Đốc Trí Tuệ Nhân Tạo tại Tesla, sáng lập Eureka Labs

Người phỏng vấn: Stephanie Zhan, Cộng Tác Viên tại Sequoia Capital

Năm: 2026

Giới Thiệu

STEPHANIE ZHAN: Chúng tôi vô cùng vui mừng được đón tiếp vị khách đặc biệt đầu tiên. Ông đã giúp xây dựng trí tuệ nhân tạo hiện đại, rồi giải thích nó, và đôi khi đặt tên lại cho nó. Thực ra ông đã đồng sáng lập OpenAI, ngay tại văn phòng này. Ông là người đã làm cho hệ thống Autopilot của Tesla hoạt động được từ thuở ban đầu, và ông có một tài năng hiếm có: biến những bước chuyển mình kỹ thuật phức tạp nhất thành điều vừa dễ hiểu vừa tất yếu.

Tất cả các bạn đều biết ông qua thuật ngữ "vibe coding" mà ông đặt ra năm ngoái, nhưng chỉ trong vài tháng gần đây, ông đã nói một điều còn đáng kinh ngạc hơn: rằng ông chưa bao giờ cảm thấy mình bị bỏ lại phía sau như một lập trình viên đến vậy. Đó là điểm khởi đầu của chúng ta hôm nay. Cảm ơn ông Andrej đã có mặt.

Cảm Giác Bị Tụt Hậu Như Một Lập Trình Viên

ANDREJ KARPATHY: Vâng. Xin chào. Rất vui được có mặt ở đây để mở đầu.

STEPHANIE: Được rồi. Vậy thì, chỉ vài tháng trước, ông đã nói rằng ông chưa bao giờ cảm thấy mình bị tụt hậu như một lập trình viên đến vậy. Thật đáng ngạc nhiên khi nghe điều này từ chính ông. Ông có thể giúp chúng tôi hiểu rõ hơn không? Cảm giác đó là phấn khích hay bất an?

ANDREJ: Vừa phấn khích vừa bất an. Trước hết, cũng như nhiều người trong số các bạn, tôi đã dùng các công cụ tác nhân — những thứ như Claude Code và các công cụ tương tự — trong một thời gian, có lẽ hơn một năm nay kể từ khi chúng ra đời. Chúng rất giỏi với từng đoạn code. Đôi khi chúng sai và bạn phải sửa, nhưng nhìn chung cũng khá hữu ích. Rồi thì tháng Mười Hai năm ngoái là một bước ngoặt rõ ràng. Tôi đang nghỉ phép nên có nhiều thời gian hơn. Tôi nghĩ nhiều người cũng có trải nghiệm tương tự. Tôi bắt đầu nhận ra rằng với các mô hình mới nhất, các đoạn code cứ ra đúng hoài. Rồi tôi tiếp tục yêu cầu thêm và nó vẫn cứ đúng. Rồi tôi không còn nhớ lần cuối mình phải sửa nó là khi nào. Và rồi tôi ngày càng tin tưởng hệ thống hơn, và thế là tôi "vibe coding" rồi.

(tiếng cười)

Đó thực sự là một bước chuyển rất rõ ràng. Tôi đã cố gắng nhấn mạnh điều này trên Twitter — hay X — vì tôi nghĩ nhiều người trải nghiệm AI năm ngoái như một thứ gì đó gần với ChatGPT. Nhưng đến tháng Mười Hai, bạn thực sự phải nhìn lại, vì mọi thứ đã thay đổi cơ bản — đặc biệt là về quy trình làm việc tác nhân liên mạch, thứ đã thực sự bắt đầu hoạt động được. Chính nhận thức đó đã khiến tôi lao vào cái hố thỏ này của vô số dự án cá nhân. Thư mục dự án phụ của tôi đầy ắp với đủ thứ ngẫu nhiên, và tôi cứ vibe coding suốt. Vậy đó, chuyện đó xảy ra vào tháng Mười Hai, và tôi đã theo dõi những hệ lụy của nó từ đó đến nay.

Giải Thích Software 3.0

STEPHANIE: Ông đã nói rất nhiều về ý tưởng LLM như một máy tính mới — không chỉ là phần mềm tốt hơn, mà là một mô thức tính toán hoàn toàn mới. Software 1.0 là các quy tắc tường minh, software 2.0 là các trọng số được học, software 3.0 là thứ này. Nếu điều đó thực sự đúng, thì một nhóm phát triển sẽ xây dựng khác đi thế nào vào ngày họ thực sự tin vào điều này?

ANDREJ: Đúng vậy. Software 1.0, tôi viết code. Software 2.0, tôi thực ra lập trình bằng cách tạo ra các bộ dữ liệu và huấn luyện mạng thần kinh — vậy nên lập trình ở đây có nghĩa là sắp xếp dữ liệu và có thể một số mục tiêu cùng kiến trúc mạng thần kinh. Rồi điều đã xảy ra là: về cơ bản, nếu bạn huấn luyện một trong những mô hình GPT hay LLM này trên một tập hợp nhiệm vụ đủ lớn — ngầm định, vì khi huấn luyện trên internet bạn phải xử lý đồng thời tất cả mọi thứ trong bộ dữ liệu — những mô hình này thực ra trở thành một loại máy tính có thể lập trình được theo nghĩa nào đó. Vậy software 3.0 về cơ bản là: lập trình của bạn bây giờ chuyển thành viết prompt, và những gì trong cửa sổ ngữ cảnh là đòn bẩy của bạn đối với bộ thông dịch là LLM, thứ đang diễn giải ngữ cảnh của bạn và thực hiện tính toán trong không gian thông tin số. Đó là bước chuyển đó. Và tôi nghĩ có một vài ví dụ thực sự đã làm tôi hiểu ra điều này.

Tác Nhân Như Một Bộ Cài Đặt

ANDREJ: Ví dụ, khi Claude Code ra đời — khi bạn muốn cài đặt nó, thông thường bạn sẽ mong đợi đó là một bash script, một shell script. Bạn chạy shell script để cài đặt Claude Code. Nhưng vấn đề là, để nhắm tới nhiều nền tảng và nhiều loại máy tính khác nhau, những shell script này thường phình to ra và trở nên cực kỳ phức tạp. Và bạn vẫn mắc kẹt trong vũ trụ software 1.0 của việc muốn viết code. Thực ra, cài đặt Claude Code là một đoạn văn bản mà bạn copy-paste và đưa cho tác nhân của mình. Về cơ bản đó là một kỹ năng nhỏ — bạn copy-paste đoạn này và đưa cho tác nhân, và nó sẽ cài đặt Claude Code. Lý do điều này mạnh mẽ hơn nhiều là vì bạn đang làm việc trong mô thức software 3.0, nơi bạn không cần phải liệt kê từng chi tiết cụ thể của việc cài đặt đó. Tác nhân có trí thông minh riêng của mình, nó gói gọn mọi thứ, làm theo hướng dẫn, xem xét môi trường và máy tính của bạn, thực hiện các hành động thông minh để mọi thứ hoạt động, gỡ lỗi trong vòng lặp — và nó mạnh mẽ hơn rất nhiều. Đây là một cách suy nghĩ rất khác: đoạn văn bản nào để copy-paste cho tác nhân? Đó chính là mô thức lập trình bây giờ.

MenuGen So Với Các Prompt Thô

ANDREJ: Thêm một ví dụ khác còn cực đoan hơn, đó là khi tôi đang xây dựng MenuGen. MenuGen là ý tưởng khi bạn đến nhà hàng, họ đưa cho bạn một thực đơn, thường không có hình ảnh. Vậy nên tôi không biết nhiều món là gì — thường khoảng ba mươi phần trăm các món tôi không biết, đôi khi năm mươi phần trăm. Vậy nên tôi muốn chụp ảnh thực đơn nhà hàng và nhận được hình ảnh những món đó có thể trông như thế nào theo nghĩa chung. Tôi đã vibe-code ứng dụng này, thứ về cơ bản cho phép bạn tải ảnh lên và xử lý tất cả những thứ đó. Nó chạy trên Vercel, hiển thị lại thực đơn, cho bạn xem tất cả các món, và sử dụng trình tạo hình ảnh để OCR tất cả các tiêu đề khác nhau, lấy hình ảnh của chúng, và hiển thị cho bạn. Rồi tôi thấy phiên bản software 3.0 của điều này, và nó thổi bay tâm trí tôi. Nó chỉ đơn giản là: chụp ảnh, đưa cho Gemini, và nói "Hãy dùng Nana Banana để phủ các món ăn lên thực đơn." Và Nana Banana trả lại một hình ảnh chính xác là tấm ảnh thực đơn tôi đã chụp, nhưng nó đã đặt vào các pixel những hình ảnh được render của các món trong thực đơn. Điều này thổi bay tâm trí tôi, vì toàn bộ MenuGen của tôi là thừa. Nó đang hoạt động trong mô thức cũ — ứng dụng đó không nên tồn tại. Và mô thức software 3.0 thô hơn nhiều: mạng thần kinh của bạn đang làm ngày càng nhiều công việc, prompt hay ngữ cảnh của bạn chỉ là hình ảnh, đầu ra là một hình ảnh, và không cần bất kỳ ứng dụng nào ở giữa.

Vậy nên tôi nghĩ mọi người phải tái định khung mọi thứ — không làm việc trong mô thức hiện tại của những gì đã tồn tại và chỉ coi đó là tăng tốc độ. Thực ra là những thứ mới đang có mặt bây giờ. Và điều đó cũng là ví dụ của việc làm việc với tư duy cũ, bởi vì không chỉ là lập trình trở nên nhanh hơn. Đây là xử lý thông tin tổng quát hơn, nay có thể tự động hóa. Vậy nên nó không chỉ là về code. Code trước đây hoạt động trên dữ liệu có cấu trúc. Nhưng ví dụ, với dự án LLM knowledge bases của tôi — về cơ bản bạn dùng LLM để tạo wiki cho tổ chức hoặc cho bản thân — đây thậm chí không phải là một chương trình. Đây không phải là thứ có thể tồn tại trước đây, vì không có code nào sẽ tạo ra một knowledge base từ một loạt sự kiện. Nhưng bây giờ bạn chỉ cần lấy những tài liệu này và về cơ bản biên dịch lại chúng theo cách khác, sắp xếp lại chúng, và tạo ra thứ gì đó mới và thú vị. Đây là những thứ mới không thể thực hiện được trước đây. Tôi cứ cố gắng quay lại câu hỏi đó: không chỉ là những gì chúng ta có thể làm nhưng nhanh hơn, mà là những cơ hội mới nào — những thứ không thể thực hiện được trước đây? Và tôi gần như nghĩ điều đó còn thú vị hơn.

Điều Gì Sẽ Hiển Nhiên Vào Năm 2026

STEPHANIE: Tôi rất thích sự tiến triển và tương phản của MenuGen mà ông đã trình bày. Nếu ông nhìn xa hơn — điều tương đương năm 2026 là gì của việc xây dựng trang web trong những năm 90, xây dựng ứng dụng di động trong những năm 2010, xây dựng SaaS trong kỷ nguyên cloud trước? Điều gì sẽ trông hoàn toàn hiển nhiên khi nhìn lại mà hiện tại vẫn còn chủ yếu chưa được xây dựng?

ANDREJ: Vâng, đi theo ví dụ MenuGen, rất nhiều code này không nên tồn tại — chỉ là một mạng thần kinh đang làm hầu hết công việc. Tôi nghĩ sự ngoại suy trông rất kỳ lạ vì bạn có thể tưởng tượng những máy tính hoàn toàn thần kinh theo một nghĩa nào đó. Bạn đưa video hoặc âm thanh thô vào cơ bản là một mạng thần kinh, và nó sử dụng diffusion để render một giao diện người dùng độc đáo cho thời điểm đó. Và tôi cảm thấy như trong những ngày đầu của máy tính, mọi người hơi bối rối về việc liệu máy tính sẽ trông như máy tính bỏ túi hay như mạng thần kinh — trong những năm 50 và 60 của thế kỷ trước, không rõ ràng hướng nào sẽ thắng. Và tất nhiên chúng ta đã đi theo con đường máy tính bỏ túi và kết thúc bằng máy tính cổ điển. Và rồi mạng thần kinh đang chạy ảo hóa trên máy tính hiện có. Nhưng bạn có thể tưởng tượng rằng nhiều điều trong số này sẽ đảo ngược, và mạng thần kinh trở thành tiến trình chủ còn CPU trở thành đồng xử lý. Bạn có thể tưởng tượng điều gì đó thực sự kỳ lạ và xa lạ, nơi mạng thần kinh đang làm hầu hết công việc nặng nhọc, sử dụng công cụ như một thứ phụ lục lịch sử cho một số nhiệm vụ xác định, nhưng những gì thực sự điều hành mọi thứ là các mạng thần kinh này. Nhưng tôi nghĩ chúng ta sẽ đến đó từng bước một. Và sự tiến triển đó, thật ra vẫn còn chưa biết.

(tiếng cười)

Tính Kiểm Chứng Và Trí Tuệ Lởm Chởm

STEPHANIE: Tôi muốn nói một chút về khái niệm có thể kiểm chứng được — thực tế là AI sẽ tự động hóa nhanh hơn và dễ dàng hơn trong các lĩnh vực mà đầu ra có thể được kiểm chứng. Nếu khung đó đúng, công việc nào sắp chuyển động nhanh hơn mọi người nhận ra? Và những nghề nghiệp nào mọi người nghĩ là an toàn nhưng thực ra có tính kiểm chứng cao?

ANDREJ: Vâng. Vậy nên tôi đã dành một chút thời gian viết về tính kiểm chứng. Về cơ bản, máy tính truyền thống có thể dễ dàng tự động hóa những gì bạn có thể chỉ định trong code. Và vòng LLM mới nhất này có thể dễ dàng tự động hóa những gì bạn có thể kiểm chứng — theo một nghĩa nào đó — bởi vì cách thức hoạt động của nó là khi các phòng thí nghiệm hàng đầu huấn luyện những LLM này, đây là những môi trường học tăng cường khổng lồ. Vậy nên chúng được cho phần thưởng kiểm chứng, và vì cách các mô hình này được huấn luyện, chúng cuối cùng về cơ bản tiến bộ và tạo ra những thực thể lởm chởm này, thực sự đạt đỉnh năng lực trong các lĩnh vực có thể kiểm chứng như toán học và code và các lĩnh vực lân cận — và hơi đình trệ, hơi thô ở những lĩnh vực không nằm trong không gian đó.

Vậy nên tôi nghĩ lý do tôi viết về tính kiểm chứng là tôi đang cố gắng hiểu tại sao những thứ này lại lởm chởm đến vậy. Và một phần liên quan đến cách các phòng thí nghiệm huấn luyện các mô hình, nhưng tôi nghĩ một phần cũng liên quan đến sự tập trung của các phòng thí nghiệm và những gì họ đưa vào phân phối dữ liệu. Bởi vì một số thứ có giá trị hơn đáng kể trong nền kinh tế và cuối cùng tạo ra nhiều môi trường hơn vì các phòng thí nghiệm muốn làm việc trong những bối cảnh đó. Code là một ví dụ tốt về điều đó. Có lẽ còn rất nhiều môi trường có thể kiểm chứng khác mà họ có thể nghĩ đến nhưng chưa được đưa vào vì chúng không hữu ích lắm để phát triển năng lực xung quanh.

Nhưng tôi nghĩ bí ẩn lớn đối với tôi là — ví dụ yêu thích một thời là: "strawberry" có bao nhiêu chữ cái? Và các mô hình đã nổi tiếng trả lời sai điều này. Đó là một ví dụ về tính lởm chởm. Các mô hình bây giờ đã vá lỗi đó. Nhưng câu mới là: Tôi muốn đến tiệm rửa xe cách đây 50 mét — tôi nên lái xe hay đi bộ? Và các mô hình hàng đầu ngày nay sẽ nói với bạn là đi bộ vì nó quá gần. Làm sao có thể như vậy khi Opus 4.7 hàng đầu có thể đồng thời tái cấu trúc một codebase 100.000 dòng hoặc tìm các lỗ hổng zero-day, mà lại nói với tôi là đi bộ đến tiệm rửa xe? Điều này thật điên rồ.

(tiếng cười)

Và trong phạm vi mà các mô hình này vẫn còn lởm chởm, đó là chỉ dấu rằng thứ nhất, có thể có gì đó hơi sai, hoặc thứ hai, bạn cần thực sự tham gia vào một chút — bạn cần đối xử với chúng như công cụ và theo dõi những gì chúng đang làm. Vậy nên toàn bộ bài viết của tôi về tính kiểm chứng, tóm lại, chỉ đơn giản là cố gắng hiểu tại sao những thứ này lại lởm chởm. Có mô hình nào không? Và tôi nghĩ đó là sự kết hợp nào đó của "có thể kiểm chứng" cộng với "phòng thí nghiệm quan tâm."

Thêm một giai thoại nữa mang tính chỉ dẫn: từ GPT-3.5 đến GPT-4, mọi người nhận thấy cờ vua cải thiện rất nhiều. Nhiều người nghĩ đó chỉ là sự tiến bộ năng lực bình thường thôi. Nhưng thực ra, tôi nghĩ — đây là thông tin công khai, tôi thấy trên internet — một lượng dữ liệu cờ vua rất lớn đã được đưa vào tập huấn luyện trước. Và chỉ vì nó nằm trong phân phối dữ liệu, mô hình đã cải thiện nhiều hơn nhiều so với mặc định. Vậy nên ai đó tại OpenAI đã quyết định thêm dữ liệu này, và bây giờ bạn có một năng lực đã đạt đỉnh nhiều hơn. Và đó là lý do tôi nhấn mạnh khía cạnh này: chúng ta đang hơi bị chi phối bởi bất cứ điều gì các phòng thí nghiệm đang làm, bất cứ điều gì họ đưa vào. Và bạn phải khám phá thứ họ cho bạn mà không có hướng dẫn sử dụng. Nó hoạt động trong một số bối cảnh, nhưng có thể không trong những bối cảnh khác. Nếu bạn ở trong các mạch đã là một phần của học tăng cường, bạn bay. Nếu bạn ở trong các mạch nằm ngoài phân phối dữ liệu, bạn sẽ vật lộn. Và nếu bạn không ở trong những mạch đó, thì bạn thực sự phải xem xét tinh chỉnh và làm một số công việc của riêng mình, vì LLM không nhất thiết sẽ cho bạn điều đó ngay từ đầu.

Lời Khuyên Cho Nhà Sáng Lập Và Tự Động Hóa

STEPHANIE: Tôi muốn nói đến khái niệm trí tuệ lởm chởm một chút nữa. Nếu bạn là một nhà sáng lập ngày nay đang nghĩ đến việc xây dựng một công ty — bạn đang cố gắng giải quyết một vấn đề mà bạn nghĩ là có thể thực hiện được, điều gì đó trong một lĩnh vực có thể kiểm chứng — nhưng bạn nhìn xung quanh và nghĩ, "Ôi trời ơi, các phòng thí nghiệm đã thực sự bắt đầu đạt vận tốc thoát trong những lĩnh vực rõ ràng nhất: toán học, code, và những thứ khác." Lời khuyên của ông cho các nhà sáng lập trong khán giả là gì?

ANDREJ: Vậy nên tôi nghĩ điều đó có thể quay lại câu hỏi trước. Tính kiểm chứng làm cho một thứ gì đó có thể thực hiện trong mô thức hiện tại vì bạn có thể ném một lượng học tăng cường khổng lồ vào nó. Vậy nên có thể một cách để nhìn nhận là điều này vẫn đúng ngay cả khi các phòng thí nghiệm không tập trung trực tiếp vào nó. Nếu bạn ở trong một môi trường có thể kiểm chứng nơi bạn có thể tạo ra những môi trường RL hay ví dụ, điều đó thực sự thiết lập cho bạn để tiềm năng thực hiện tinh chỉnh của riêng mình, và bạn có thể hưởng lợi từ điều đó. Nhưng đó là công nghệ về cơ bản chỉ hoạt động — bạn có thể kéo một đòn bẩy nếu bạn có một lượng lớn các bộ dữ liệu đa dạng và môi trường RL. Tôi không muốn nói quá rõ câu trả lời, nhưng có một số ví dụ về điều này mà tôi nghĩ rất có giá trị.

STEPHANIE: Mặt khác, điều gì ông nghĩ vẫn chỉ có vẻ có thể tự động hóa từ xa?

ANDREJ: Tôi nghĩ cuối cùng hầu hết mọi thứ đều có thể được làm cho kiểm chứng được ở một mức độ nào đó — một số thứ dễ hơn những thứ khác. Bởi vì ngay cả với những thứ như viết lách, bạn có thể tưởng tượng có một hội đồng các thẩm phán LLM và có thể nhận được điều gì đó hợp lý từ cách tiếp cận đó. Vậy nên vấn đề là cái gì dễ hay khó. Cuối cùng tôi nghĩ...

Tất cả mọi thứ.

(tiếng cười)

Tất cả mọi thứ đều có thể tự động hóa.

Từ Vibe Coding Đến Kỹ Thuật Tác Nhân

STEPHANIE: Tuyệt vời. Vậy thì năm ngoái ông đã đặt ra thuật ngữ "vibe coding", và hôm nay chúng ta đang ở trong một thế giới có vẻ nghiêm túc hơn một chút — kỹ thuật tác nhân. Ông nghĩ sự khác biệt giữa hai điều là gì, và ông thực sự sẽ gọi những gì chúng ta đang ở hôm nay là gì?

ANDREJ: Vâng. Vậy nên tôi sẽ nói rằng vibe coding là về việc nâng cao nền tảng cho tất cả mọi người về những gì họ có thể làm trong phần mềm. Nền tảng nâng lên, mọi người đều có thể vibe-code bất cứ thứ gì — và điều đó thật tuyệt vời, đáng kinh ngạc. Nhưng sau đó tôi sẽ nói rằng kỹ thuật tác nhân là về việc bảo tồn thanh chất lượng của những gì đã tồn tại trước đây trong phần mềm chuyên nghiệp. Bạn không được phép đưa ra các lỗ hổng do vibe coding. Bạn vẫn chịu trách nhiệm về phần mềm của mình, giống như trước — nhưng bạn có thể đi nhanh hơn không? Và câu trả lời là: bạn có thể. Nhưng làm thế nào để làm điều đó đúng cách? Vậy nên với tôi, kỹ thuật tác nhân — tôi gọi nó như vậy vì tôi nghĩ nó là một loại ngành kỹ thuật. Bạn có những tác nhân này, là những thực thể lởm chởm. Chúng hơi không đáng tin cậy, hơi ngẫu nhiên, nhưng chúng cực kỳ mạnh mẽ. Câu hỏi là: làm thế nào để bạn phối hợp chúng để đi nhanh hơn mà không hy sinh thanh chất lượng? Và làm điều đó tốt và đúng đắn là lĩnh vực của kỹ thuật tác nhân. Vậy nên tôi coi chúng là khác nhau — một cái là về nâng cao nền tảng, và cái kia là về ngoại suy lên cao. Và những gì tôi thấy là có một trần rất cao về năng lực kỹ thuật tác nhân. Người ta từng nói về kỹ sư 10x. Tôi nghĩ điều này được khuếch đại nhiều hơn — 10x không phải là tốc độ tăng bạn đạt được. Dường như với tôi rằng những người giỏi điều này đạt đỉnh nhiều hơn 10x.

STEPHANIE: Tôi thực sự thích cách đóng khung đó. Khi Sam Altman đến AI Ascent năm ngoái, một điều đáng nhớ ông ấy nói là người ở các thế hệ khác nhau sử dụng ChatGPT khác nhau. Vậy nếu bạn ở tuổi 30, bạn dùng nó như thứ thay thế tìm kiếm Google. Nhưng nếu bạn ở tuổi thiếu niên, ChatGPT là cửa ngõ của bạn vào internet. Điều song song ở đây trong lập trình hôm nay là gì? Nếu chúng ta quan sát hai người code bằng Claude Code hoặc Codex — một người bạn coi là tầm thường với nó, và một người bạn coi là hoàn toàn AI-native — bạn sẽ mô tả sự khác biệt như thế nào?

ANDREJ: Ý tôi là, tôi nghĩ đó chỉ là cố gắng tận dụng tối đa các công cụ có sẵn, sử dụng tất cả các tính năng của chúng, đầu tư vào cài đặt của bạn. Giống như trước đây, các kỹ sư đã quen với việc tận dụng tối đa các công cụ họ sử dụng — dù là Vim hay VS Code, hay bây giờ là Claude Code hay Codex. Vậy nên chỉ là đầu tư vào cài đặt của bạn và sử dụng nhiều công cụ có sẵn.

Tôi nghĩ một suy nghĩ liên quan là nhiều người có thể đang tuyển dụng cho điều này ngay bây giờ, vì họ muốn tuyển dụng các kỹ sư tác nhân mạnh. Những gì tôi thấy là hầu hết mọi người vẫn chưa tái cấu trúc quy trình tuyển dụng của họ cho năng lực kỹ thuật tác nhân. Nếu bạn đang đưa ra các câu đố để giải, đây vẫn là mô thức cũ. Tôi sẽ nói rằng tuyển dụng cho điều này phải trông như: cho tôi một dự án thực sự lớn và xem ai đó triển khai nó. Chẳng hạn, viết một Twitter clone — cho tác nhân — và sau đó làm cho nó thực sự tốt, thực sự an toàn. Rồi có một số tác nhân mô phỏng hoạt động trên Twitter clone này. Và rồi tôi sẽ dùng 10 Codex agents để cố phá vỡ trang web bạn đã triển khai. Họ sẽ cố phá vỡ nó, và họ không nên có thể làm được. Có lẽ nó trông như vậy, đúng không? Quan sát mọi người trong bối cảnh đó, xây dựng các dự án lớn hơn, sử dụng công cụ — đó có thể là những gì tôi sẽ xem xét.

STEPHANIE: Và khi các tác nhân làm nhiều hơn, kỹ năng con người nào bạn nghĩ trở nên có giá trị hơn, không phải ít hơn?

ANDREJ: Vâng, đó là câu hỏi hay. Ngay bây giờ, câu trả lời là các tác nhân giống như những thực thể thực tập sinh. Đáng chú ý — bạn về cơ bản vẫn phải chịu trách nhiệm về thẩm mỹ, phán đoán, thị hiếu, và một chút giám sát. Có lẽ một trong những ví dụ yêu thích của tôi về sự kỳ lạ của tác nhân là với MenuGen: bạn đăng ký bằng tài khoản Google, nhưng bạn mua credits bằng tài khoản Stripe. Cả hai đều có địa chỉ email. Và tác nhân của tôi thực sự đã cố — khi bạn mua credits, nó gán chúng bằng cách dùng địa chỉ email từ Stripe để khớp với tài khoản Google. Như là, không có user ID cố định mà nó cố gắng khớp; nó đang cố gắng khớp địa chỉ email. Nhưng bạn có thể dùng địa chỉ email khác cho Stripe và Google của mình, và về cơ bản nó sẽ không liên kết được các khoản tiền. Và đây là loại điều tác nhân vẫn còn mắc lỗi — tại sao bạn lại dùng địa chỉ email để cố gắng tương quan chéo các khoản tiền? Chúng có thể là tùy ý. Bạn có thể dùng email khác nhau. Đây là điều thực sự kỳ lạ cần làm.

Vậy nên tôi nghĩ mọi người phải chịu trách nhiệm về đặc tả, kế hoạch. Và tôi thực sự không thích "plan mode" — ý tôi là, rõ ràng nó rất hữu ích, nhưng tôi nghĩ có điều gì đó tổng quát hơn ở đây nơi bạn phải làm việc với tác nhân của mình để thiết kế một đặc tả rất chi tiết. Có thể đó về cơ bản là các tài liệu — để tác nhân viết chúng, và bạn chịu trách nhiệm về việc giám sát và các danh mục cấp cao nhất, nhưng các tác nhân đang làm nhiều công việc bên dưới. Và vì vậy bạn không quan tâm đến một số chi tiết. Ví dụ, với arrays hay tensors trong mạng thần kinh — có rất nhiều chi tiết giữa PyTorch và NumPy và tất cả các chi tiết API nhỏ khác nhau, như với pandas và vân vân. Và tôi đã quên những thứ như "keepdims" hay "keep_dim", hay đó là "dim" hay "axis", hay "reshape" hay "permute" hay "transpose" — tôi không nhớ những thứ này nữa, vì bạn không cần. Đây là loại chi tiết được xử lý bởi thực tập sinh, vì chúng có khả năng nhớ rất tốt. Nhưng bạn vẫn phải biết, ví dụ, rằng có một tensor bên dưới, có một view bên dưới, và bạn có thể thao tác view của cùng một storage hay bạn có thể có storage khác nhau — điều đó kém hiệu quả hơn — và vì vậy bạn vẫn phải hiểu những gì thứ này đang làm ở mức cơ bản, để bạn không sao chép bộ nhớ xung quanh một cách không cần thiết. Nhưng các chi tiết của API bây giờ được chuyển giao. Vậy nên bạn đang chịu trách nhiệm về thị hiếu, kỹ thuật, thiết kế — đảm bảo nó có ý nghĩa, yêu cầu đúng thứ, nói "những thứ này phải là ID người dùng độc đáo mà chúng ta sẽ gắn mọi thứ vào đó." Bạn đang làm thiết kế và định hướng, và các tác nhân đang điền vào chỗ trống. Đó là nơi chúng ta đang ở hiện tại.

STEPHANIE: Bạn có nghĩ có khả năng rằng thị hiếu và phán đoán này sẽ quan trọng ít đi theo thời gian không, hay trần sẽ cứ tiếp tục nâng lên?

ANDREJ: Vâng, đó là câu hỏi hay. Ý tôi là, tôi hy vọng nó cải thiện. Tôi nghĩ có lẽ lý do nó không cải thiện ngay bây giờ là, một lần nữa, nó không phải là một phần của học tăng cường. Có lẽ không có chi phí hay phần thưởng thẩm mỹ, hay nó không đủ tốt, hay điều gì đó như vậy. Và tôi nghĩ khi bạn thực sự nhìn vào code, đôi khi tôi có một cơn hoảng loạn nhỏ vì nó không phải là code siêu tuyệt vời nhất thiết luôn luôn — nó rất cồng kềnh, có rất nhiều copy-paste, có những abstractions lạ kỳ giòn. Nó hoạt động, nhưng nó thực sự xấu. Và tôi hy vọng điều này có thể cải thiện trong các mô hình tương lai.

Một ví dụ hay cũng là dự án microGPT, nơi tôi đang cố gắng đơn giản hóa việc huấn luyện LLM để đơn giản nhất có thể. Các mô hình ghét điều này. Chúng không thể làm được. Tôi cứ cố gắng nhắc nhở LLM "đơn giản hóa thêm, đơn giản hóa thêm", và nó chỉ không thể. Bạn cảm thấy như mình đang ở ngoài các mạch học tăng cường. Nó cảm thấy như nhổ răng — không phải tốc độ ánh sáng. Vậy nên tôi nghĩ mọi người vẫn còn chịu trách nhiệm về điều này. Nhưng tôi nghĩ không có gì cơ bản ngăn nó cải thiện. Các phòng thí nghiệm chỉ chưa làm điều đó.

STEPHANIE: Vâng. Vậy nên tôi muốn quay lại ý tưởng về các hình thức trí tuệ lởm chởm này. Ông đã viết một chút về điều này trong một bài khá gây tranh luận về động vật so với ma — ý tưởng rằng chúng ta không xây dựng động vật, chúng ta đang triệu hồi ma. Đây là những hình thức trí tuệ lởm chởm được định hình bởi dữ liệu và hàm phần thưởng, nhưng không bởi động lực nội tại, niềm vui, sự tò mò, hay sự trao quyền — những thứ xuất hiện qua tiến hóa. Tại sao cách đóng khung đó quan trọng, và nó thực sự thay đổi cách bạn xây dựng, triển khai, đánh giá, hay thậm chí tin tưởng chúng như thế nào?

ANDREJ: Vâng. Vậy nên tôi nghĩ lý do tôi viết về điều này là tôi đang cố gắng hiểu những thứ này là gì. Bởi vì nếu bạn có một mô hình tốt về những gì chúng là — hay không phải là — thì bạn sẽ có năng lực hơn trong việc sử dụng chúng. Và tôi không chắc liệu nó có thực sự có sức mạnh thực tiễn không.

(tiếng cười)

Tôi nghĩ đó là một chút triết học. Nhưng tôi nghĩ đó chỉ là chấp nhận thực tế rằng những thứ này không phải là trí tuệ động vật. Như là, nếu bạn quát tháo chúng, chúng không hoạt động tốt hơn hay tệ hơn — không có tác động gì. Và tất cả chỉ là loại các mạch mô phỏng thống kê nơi chất nền là huấn luyện trước — vậy nên thống kê — và rồi học tăng cường được gắn vào trên đó, thứ tăng cường các phần phụ. Và có lẽ đó chỉ là tư duy — về những gì tôi đang tiếp cận, hay những gì có khả năng hoạt động hay không hoạt động, hay cách để sửa đổi nó. Nhưng tôi thực sự không có "đây là năm kết quả rõ ràng về cách làm cho hệ thống của bạn tốt hơn." Đó chỉ là trạng thái nghi ngờ, và khám phá dần dần theo thời gian.

Tác Nhân Khắp Nơi Và Việc Học Hỏi

STEPHANIE: Đó là điểm khởi đầu. Được rồi, vậy nên ông đang rất sâu trong làm việc với các tác nhân không chỉ trò chuyện — chúng có quyền thực sự, chúng có ngữ cảnh cục bộ, chúng thực sự thực hiện hành động thay mặt bạn. Thế giới sẽ như thế nào khi tất cả chúng ta bắt đầu sống trong thế giới đó?

ANDREJ: Vâng. Tôi nghĩ nhiều người ở đây phấn khích về môi trường native tác nhân này trông như thế nào — và mọi thứ phải được viết lại. Mọi thứ vẫn về cơ bản được viết cho con người và phải được làm lại. Tôi vẫn dùng, hầu hết thời gian, khi tôi dùng các framework hay thư viện hay những thứ như vậy, các tài liệu về cơ bản được viết cho con người. Đây là điều tôi phàn nàn yêu thích nhất. Tại sao mọi người vẫn còn nói với tôi phải làm gì? Như là, tôi không muốn làm bất cứ điều gì. Đoạn văn bản nào để copy-paste cho tác nhân của tôi?

(tiếng cười)

Vậy nên, mỗi khi tôi được nói "hãy đến URL này" hay điều gì đó như vậy, nó chỉ là — ugh.

(tiếng cười)

Vậy nên mọi người đang phấn khích về cách chúng ta phân tách khối lượng công việc cần xảy ra thành về cơ bản các cảm biến trên thế giới, các cơ cấu trên thế giới. Làm thế nào để chúng ta làm cho nó native tác nhân? Về cơ bản mô tả mọi thứ cho tác nhân trước, và rồi có nhiều tự động hóa xung quanh các cấu trúc dữ liệu rất dễ đọc với LLMs. Vậy nên tôi hy vọng có nhiều cơ sở hạ tầng agent-first ở ngoài kia. Và cho MenuGen — nổi tiếng, khi tôi viết bài blog về MenuGen — rất nhiều rắc rối không phải là viết code cho MenuGen. Đó là triển khai nó trên Vercel, vì tôi phải làm việc với tất cả các dịch vụ khác nhau này, kết nối chúng, đi đến cài đặt và menu của chúng, cấu hình DNS của tôi — và nó thật phiền phức. Đó là ví dụ tốt về điều gì đó tôi hy vọng có thể thay đổi: tôi đưa một prompt cho LLM, "xây dựng MenuGen," và rồi không cần chạm vào bất cứ thứ gì, và nó được triển khai trên internet. Tôi nghĩ đó sẽ là thử nghiệm tốt về việc liệu cơ sở hạ tầng của chúng ta có ngày càng trở nên native tác nhân hơn không.

Và rồi cuối cùng, tôi nghĩ chúng ta đang hướng tới một thế giới nơi có đại diện tác nhân cho mọi người và tổ chức — tác nhân của tôi sẽ nói chuyện với tác nhân của bạn để tìm ra một số chi tiết cuộc họp của chúng ta hay những thứ như vậy.

(tiếng cười)

Tôi nghĩ đó là đại khái hướng mọi thứ đang đi. Nhưng vâng, tôi nghĩ mọi người ở đây đều hứng khởi về điều đó.

STEPHANIE: Tôi thực sự thích hình ảnh ẩn dụ về cảm biến và cơ cấu. Tôi thực sự chưa nghĩ đến điều đó trước đây.

ANDREJ: Đúng không?

STEPHANIE: Được rồi, tôi nghĩ chúng ta phải kết thúc với một câu hỏi về giáo dục. Bởi vì ông có lẽ là một trong những người giỏi nhất thế giới trong việc làm cho các khái niệm kỹ thuật phức tạp trở nên đơn giản, và ông đang suy nghĩ sâu sắc về cách chúng ta thiết kế giáo dục xung quanh nó. Điều gì vẫn còn đáng học sâu khi trí tuệ trở nên rẻ, khi chúng ta bước vào kỷ nguyên tiếp theo của AI?

ANDREJ: Vâng. Có một tweet đã thổi bay tâm trí tôi gần đây, và tôi cứ nghĩ về nó mỗi ngày. Nó đại khái là: "Bạn có thể thuê ngoài việc suy nghĩ của mình, nhưng bạn không thể thuê ngoài việc hiểu của mình." Và tôi nghĩ điều đó được nói rất hay. Bởi vì tôi vẫn là một phần của hệ thống, và thông tin vẫn phải đi vào não của tôi. Và tôi cảm thấy như mình đang trở thành một nút cổ chai — chỉ về mặt biết những gì chúng ta đang cố gắng xây dựng, tại sao nó đáng làm, làm thế nào để định hướng các tác nhân của mình, và vân vân. Vậy nên tôi vẫn nghĩ rằng có điều gì đó phải định hướng việc suy nghĩ và xử lý, và điều đó vẫn bị ràng buộc về cơ bản bởi sự hiểu biết. Và đây là một lý do tôi cũng rất hứng thú về LLM knowledge bases — vì tôi cảm thấy đó là cách để tôi xử lý thông tin. Và bất cứ khi nào tôi thấy một góc chiếu khác lên thông tin, tôi luôn cảm thấy như mình có được cái nhìn sâu sắc hơn. Đó thực sự chỉ là nhiều prompts để tôi tạo ra dữ liệu tổng hợp trên một số dữ liệu cố định. Tôi thực sự thích nó — bất cứ khi nào tôi đọc một bài báo, tôi có wiki của mình được xây dựng từ những bài báo này, và tôi thích hỏi câu hỏi về mọi thứ. Và tôi nghĩ cuối cùng đây là những công cụ để tăng cường sự hiểu biết. Và điều này vẫn là một loại nút cổ chai, vì bạn không thể là một đạo diễn tốt nếu các LLM chắc chắn không xuất sắc trong việc hiểu — bạn vẫn là người độc đáo chịu trách nhiệm về điều đó. Vậy nên vâng, tôi nghĩ các công cụ theo hướng đó đang cực kỳ thú vị và hứng khởi.

STEPHANIE: Tôi phấn khích được quay lại đây trong vài năm tới và xem liệu chúng ta có bị tự động hóa hoàn toàn ra khỏi vòng lặp hay không và các tác nhân thực sự đảm nhận cả sự hiểu biết. Cảm ơn ông rất nhiều khi tham gia cùng chúng tôi, Andrej. Chúng tôi thực sự trân trọng điều đó.

(tiếng vỗ tay)

Nguồn bản ghi chép: AI Ascent 2026, do Sequoia Capital tổ chức. Đã được chỉnh sửa để dễ đọc từ bản ghi âm giọng nói gốc.