The Night I Ran Out of Tokens có gì mới?
Đêm mà tôi hết token là một trải nghiệm đáng nhớ trong quá trình làm việc với mô hình ngôn ngữ Codex của OpenAI. Qua việc tối ưu hóa kỹ thuật xây dựng ngữ cảnh, tôi đã biến Codex thành một đội ngũ phát triển phần mềm toàn diện, đồng thời giảm thiểu đáng kể lượng token tiêu thụ không cần thiết. Bài viết chia sẻ những phương pháp và kinh nghiệm giúp tận dụng hiệu quả công nghệ AI trong lập trình, từ đó nâng cao năng suất và tiết kiệm chi phí. Đây là một minh chứng rõ ràng cho sức mạnh của kỹ thuật ngữ cảnh trong việc khai thác tiềm năng của trí tuệ nhân tạo.

Insight Summary
Tóm tắt nhanh
- Tác giả bị AI coding agent báo hết token giữa lúc đang làm việc đêm.
- Thay vì chấp nhận tốn tiền mua thêm, anh ấy tìm cách để AI “nhớ” tốt hơn.
- Giải pháp là tạo một lớp trí nhớ cục bộ cho dự án, để khỏi phải nhắc lại mọi thứ từ đầu.
- Sau đó hệ thống được nâng cấp dần: biết lưu kiến thức, biết đo lường, biết chọn đúng thông tin cần dùng.
- Cuối cùng, nó còn có thể học thêm các mảng kiến thức như UX, frontend hay interactive fiction để hỗ trợ tốt hơn.
Bài viết tổng hợp
Một đêm làm việc khuya, tác giả đang nhờ Codex — một AI hỗ trợ lập trình — xử lý một việc khá lớn. Anh muốn thay đổi giao diện, chỉnh hành vi một số nút bấm và tối ưu trải nghiệm người dùng.
Anh đã viết yêu cầu rất kỹ
Có phạm vi rõ ràng, có tiêu chí hoàn thành, có ràng buộc cụ thể. Nhưng giữa chừng, Codex dừng lại và báo rằng tài khoản đã hết token. “Token” ở đây có thể hiểu đơn giản là lượng “nhiên liệu” mà AI được phép dùng để suy nghĩ và tạo phản hồi. Hết token thì AI không làm tiếp được. Với tác giả, đây là vấn đề rất thực tế: đang làm dở mà bị ngắt giữa chừng thì cực kỳ khó chịu.
Anh đứng trước vài lựa chọn không mấy dễ chịu
Đợi vài ngày để giới hạn được reset, nâng cấp gói rất đắt, hoặc mua thêm credit. Nhưng rồi anh chợt nghĩ: có khi vấn đề không nằm ở chỗ thiếu token, mà là AI đang dùng token quá lãng phí.
Điểm mấu chốt là thế này
Mỗi lần bắt đầu một phiên làm việc mới, AI lập trình thường không nhớ những gì đã xảy ra trước đó. Nó giống như một cộng sự cực giỏi nhưng mỗi sáng thức dậy lại quên sạch mọi chuyện hôm qua. Vì vậy, muốn làm việc hiệu quả hơn, anh không chỉ cần “nhiều token hơn”, mà cần một cách để AI nhớ lại kiến thức cũ nhanh hơn. Nói nôm na, thay vì bắt AI đọc lại cả cái dự án từ đầu, hãy cho nó một cuốn sổ tay nhỏ để tra trước. Từ ý tưởng đó, tác giả bắt đầu xây dựng một hệ thống riêng gọi là codex_context_engine. Hệ thống này không phải một phần mềm thần kỳ ngay từ đầu. Nó được nâng cấp dần qua nhiều vòng thử nghiệm, mỗi vòng giải quyết một vấn đề cụ thể.
- Nó giúp AI lưu lại kiến thức quan trọng của dự án.
- Nó giúp giảm việc phải lặp lại cùng một mô tả ở mỗi phiên.
- Nó giúp chọn đúng thông tin cần đưa vào cuộc trò chuyện.
- Nó giúp đo xem phần nào đang tốn token nhất.
- Nó còn học thêm các mảng kiến thức ngoài code như UX hay product.
Ở vòng đầu tiên, mục tiêu rất đơn giản
Tạo ra một lớp trí nhớ bên ngoài cho AI. Thay vì để toàn bộ kiến thức nằm trong prompt — tức phần hướng dẫn gửi vào AI mỗi lần — hệ thống sẽ lưu những điều hữu ích vào các file riêng.
Hiểu dễ hơn
Nếu prompt là cuộc trò chuyện ngắn, thì lớp trí nhớ này giống như một ghi chú dùng lại được. Ví dụ: dự án này dùng kiểu đặt tên gì, kiến trúc ra sao, chỗ nào dễ lỗi, ưu tiên nào phải nhớ.
Cách làm này giải quyết đúng cái đau đầu lớn nhất
AI không cần đọc lại mọi thứ từ đầu mỗi lần chạy. Chỉ những gì thiếu mới được nạp thêm. Sau đó, tác giả nhận ra rằng chỉ có lưu thôi chưa đủ. Nếu ghi chú bừa bãi, càng về sau lại càng loạn. Vì vậy, các vòng tiếp theo tập trung vào việc tổ chức lại trí nhớ. Anh thêm vào một hệ thống có cấu trúc hơn, có thể chấm điểm mức độ liên quan của thông tin, rồi “nén” bớt những phần rườm rà. Mục tiêu là giữ lại phần có giá trị cao nhất trên mỗi token.
Một cách dễ hiểu
Thay vì đưa cả tủ sách cho AI mỗi lần, hệ thống chỉ đưa đúng cuốn sách, đúng trang, đúng đoạn cần thiết.
Một vấn đề khác xuất hiện
Hệ thống có thật sự tiết kiệm không, hay chỉ chuyển sự lộn xộn từ chỗ này sang chỗ khác? Vì nếu chỉ lưu nhiều hơn mà không đo được hiệu quả, thì đó chưa chắc là tối ưu. Nên tác giả tiếp tục thêm phần đo lường toàn cục. Hệ thống bắt đầu theo dõi nhiều dự án cùng lúc, để biết dự án nào được lợi nhiều nhất, chỗ nào còn tốn kém, và phần nào đang hoạt động tốt. Anh cũng thêm một lớp tối ưu chi phí của context — tức phần thông tin được gửi vào AI để nó xử lý. Nói đơn giản, không chỉ lưu đúng, mà còn phải gửi đúng lượng thông tin vừa đủ. Sau đó, hệ thống chuyển sang giai đoạn thông minh hơn. Nó không chỉ nhớ, mà còn bắt đầu “điều khiển cách làm việc” theo từng loại nhiệm vụ. Ví dụ, một lỗi nhỏ trong giao diện không cần cách xử lý giống hệt một lần tái cấu trúc lớn. Một bài sửa test không cần cùng mức context như một cuộc kiểm tra kiến trúc toàn bộ dự án.
Vì thế, hệ thống bắt đầu biết lập kế hoạch trước khi tìm tài liệu. Điều này quan trọng vì nếu không, AI có thể làm rất chăm chỉ nhưng đi sai hướng. Giống như gọi thợ sửa nhà nhưng lại đưa cho họ bản thiết kế của căn nhà khác. Một nâng cấp rất đáng chú ý là “trí nhớ lỗi”. Thay vì chỉ nhớ những thứ thành công, hệ thống còn nhớ những lần thất bại: lỗi nào hay lặp lại, cách nào thường đi vào ngõ cụt, dấu hiệu nào cho thấy vấn đề cũ đang quay lại. Đây là một ý tưởng rất thực tế. Con người cũng thường quên các lỗi cũ và lặp lại chúng. Nếu AI nhớ được “điểm đau” thì nó có thể tránh được việc mò mẫm vô ích.
Tuy nhiên, tác giả cũng nhìn thấy mặt trái
Nếu nhớ lỗi quá đà, AI có thể trở nên quá dè chừng, lúc nào cũng sợ sai. Vì vậy, mọi thứ đều cần cân bằng. Anh tiếp tục chia bộ nhớ theo từng loại công việc. Debug sẽ có một nhóm kiến thức riêng, testing có nhóm riêng, refactor có nhóm riêng, tối ưu hiệu năng có nhóm riêng. Cách này giúp AI không bị ngập trong thông tin chung chung.
Rồi đến bước quan trọng hơn
Các mảnh kiến thức không còn đứng một mình nữa. Hệ thống bắt đầu nối chúng lại thành “đồ thị tri thức”. “Đồ thị” ở đây không phải toán học khó hiểu. Chỉ cần hình dung như một mạng lưới: lỗi này liên quan đến file kia, file kia liên quan đến quyết định trước đó, quyết định đó lại liên quan đến một module khác. Khi có mạng lưới này, AI không nhìn kiến thức như đống giấy rời rạc nữa mà như một cấu trúc có liên hệ. Để hiểu rõ hơn, có thể tóm gọn các lớp nâng cấp đầu tiên như sau:
- Lớp 1: lưu trí nhớ bên ngoài để khỏi lặp lại từ đầu.
- Lớp 2: tổ chức trí nhớ có cấu trúc, tránh rối.
- Lớp 3: chấm điểm và nén thông tin để giảm lãng phí token.
- Lớp 4: đo lường theo toàn hệ thống, biết chỗ nào hiệu quả.
- Lớp 5: tự tối ưu chi phí context trước khi gửi cho AI. Tiếp theo là giai đoạn AI không còn chỉ là bộ nhớ, mà bắt đầu giống một “người làm việc có quy trình”.
- Lớp 6: lập kế hoạch trước khi tìm thông tin.
- Lớp 7: nhớ các lỗi đã từng gặp.
- Lớp 8: tách trí nhớ theo từng loại nhiệm vụ.
- Lớp 9: nối các kiến thức lại thành mạng lưới.
- Lớp 10: đo chi tiết từng bước để biết token tốn ở đâu.
Khi có thêm đo lường chi tiết, tác giả mới thấy rõ phần nào đang ngốn chi phí nhất: lúc quét repo, lúc mở rộng mạng tri thức, lúc ghép context, hay lúc lặp lại nhiều vòng hỏi đáp. Đây là kiểu quan sát rất quan trọng, vì nếu không nhìn thấy nguyên nhân, thì rất khó tối ưu. Sau một thời gian thử nghiệm, hệ thống bắt đầu cho thấy mức tiết kiệm có thật. Nhưng tác giả cũng không nói quá rằng mọi thứ đã hoàn hảo. Anh nhấn mạnh rằng dữ liệu còn ít, thời gian quan sát còn ngắn, nên đây mới là tín hiệu ban đầu chứ chưa phải kết luận cuối cùng. Điều đáng chú ý là một số dự án hưởng lợi nhiều hơn những dự án khác. Nói cách khác, hệ thống hoạt động tốt nhất khi có đủ lượng công việc thực tế, đủ chỗ để tái sử dụng kiến thức và đủ dữ liệu để học từ đó.
Rồi tác giả đi đến tham vọng lớn hơn
Không chỉ nhớ kiến thức từ code, mà còn học thêm các mảng kiến thức chuyên môn khác. Tại sao lại cần điều này? Vì làm sản phẩm không chỉ là viết code. Có lúc bạn phải nghĩ về trải nghiệm người dùng, có lúc phải làm nội dung hướng dẫn, có lúc phải hiểu accessibility, có lúc phải cân nhắc sản phẩm hay thiết kế tương tác. Vì vậy, hệ thống được mở rộng để tạo ra các “mod” kiến thức riêng. Có thể hiểu mod là một mô-đun chuyên đề: UX một mod, frontend một mod, security một mod, interactive fiction một mod.
- Nó có thể tạo một thư viện kiến thức cục bộ cho từng chủ đề.
- Nó có thể nhận tài liệu nguồn như bài viết, ghi chú, tài liệu PDF.
- Nó có thể xử lý những tài liệu đó thành bản tóm tắt dễ dùng hơn.
- Nó có thể chọn đúng phần phù hợp khi cần, thay vì đọc cả đống tài liệu.
- Nó có thể học thêm mà không làm phình to prompt một cách vô ích.
Để làm được điều đó, hệ thống cần hai bước quan trọng. Bước một là chuyển tài liệu thô thành kiến thức gọn hơn: ghi chú, tóm tắt, chỉ mục. Bước hai là chọn đúng tài liệu cần lấy ra cho từng câu hỏi cụ thể. Điều này nghe đơn giản nhưng rất quan trọng. Một thư mục đầy tài liệu chưa phải là tri thức hữu ích. Chỉ khi nó được xử lý, sắp xếp và truy xuất đúng lúc thì mới thành thứ giúp ích thật. Tóm lại, câu chuyện của tác giả không phải là “tôi đã tạo ra một AI siêu nhân”. Câu chuyện là: khi bị hết token vào lúc đang làm việc, anh nhận ra AI cần một cách quản lý ngữ cảnh thông minh hơn. Từ đó, anh xây dựng một hệ thống để AI nhớ tốt hơn, dùng thông tin đúng hơn, và học được nhiều hơn theo thời gian. Đây là một ví dụ khá hay về việc tối ưu AI không chỉ nằm ở việc gọi model mạnh hơn, mà còn nằm ở cách tổ chức thông tin quanh nó.
Vì sao nên đọc các bài tóm tắt trên Insight
Đọc một bài dài như thế này trực tiếp từ nguồn gốc có thể tốn rất nhiều thời gian, nhất là khi nội dung vừa nhiều thuật ngữ vừa có nhiều lớp ý. Insight giúp bạn đi thẳng vào phần quan trọng nhất: vấn đề là gì, giải pháp ra sao, và tác động thực tế là gì. Với người bận rộn, lợi ích lớn nhất là tiết kiệm thời gian. Bạn không cần đọc hàng nghìn từ để hiểu một ý tưởng công nghệ mới hay một câu chuyện ứng dụng AI trong đời thật. Chỉ trong vài phút, bạn đã nắm được bức tranh chính. Ngoài ra, Insight giúp lọc nhiễu. Nhiều bài gốc có thể đi vòng khá lâu, nhiều ví dụ phụ hoặc cách kể chuyện đậm cá tính. Bản tóm tắt sẽ giữ lại phần cốt lõi, giải thích bằng tiếng Việt tự nhiên và tránh làm người đọc bị ngợp. Quan trọng hơn, Insight giúp bạn nắm ý chính nhanh mà vẫn hiểu đúng. Đặc biệt với nội dung công nghệ, nếu không có lời giải thích dễ hiểu thì rất dễ bị rối vì từ ngữ chuyên môn.
Bản tóm tắt tốt sẽ biến khái niệm khó thành điều ai cũng có thể theo kịp, từ đó bạn có thể quyết định nhanh hơn: có nên đọc sâu thêm không, có nên áp dụng cho công việc không, hay chỉ cần nhớ ý tưởng chính là đủ.
Nguồn bài viết
Insight Graph
Khám phá hệ sinh thái 1997 Studio
Nếu bạn đang xây sản phẩm hoặc tăng trưởng, có thể tham khảo thêm các công cụ trong hệ sinh thái để áp dụng nhanh những insight này.
Bài liên quan





