Bài viết này đề xuất một khung chiến lược cho việc lựa chọn, đánh giá và triển khai LLM trong ngành kiểm toán Việt Nam, bao gồm kiểm toán nhà nước, kiểm toán nội bộ và kiểm toán độc lập.
Trên cơ sở tổng quan nghiên cứu về fine-tuning (tinh chỉnh mô hình), RAG (phương pháp tạo sinh có tăng cường truy xuất), XAI (trí tuệ nhân tạo có thể giải thích) và process supervision (giám sát quy trình suy luận), nghiên cứu xác định năm điều kiện chung đối với LLM trong kiểm toán và đề xuất khung triển khai phân tầng phù hợp với từng loại hình kiểm toán.

Trong những năm gần đây, GenAI (Generative Artificial Intelligence - trí tuệ nhân tạo tạo sinh) và LLM (Large Language Model - mô hình ngôn ngữ lớn) đã trở thành một hướng phát triển đáng chú ý trong nghiên cứu và thực hành kế toán – kiểm toán. Stratopoulos và Wang (2025) cho rằng các tiến bộ gần đây của AI không chỉ mở rộng công cụ phân tích trong nghiên cứu kế toán mà còn làm thay đổi cách thức đặt vấn đề, thiết kế nghiên cứu và đánh giá kết quả nghiên cứu. Ở phương diện ứng dụng, Fotoh và Mugwira (2025) cho thấy LLM có thể hỗ trợ một số tác vụ trong kiểm toán độc lập, trong khi Eulerich và Wood (2025) chứng minh rằng GenAI có thể được tích hợp vào nhiều giai đoạn của quy trình kiểm toán nội bộ. Những kết quả này cho thấy AI không còn chỉ là một công cụ hỗ trợ hành chính, mà đang dần trở thành một cấu phần tri thức có khả năng tác động trực tiếp đến cách thức chuẩn bị, xử lý và diễn giải thông tin kiểm toán.
Tuy nhiên, việc ứng dụng LLM trong kiểm toán không thể được tiếp cận thuần túy như một quyết định công nghệ. Trong bối cảnh Việt Nam, yêu cầu này càng trở nên rõ nét khi khuôn khổ pháp lý hiện hành đồng thời điều chỉnh ba cấu phần của ngành kiểm toán, gồm kiểm toán nhà nước (KTNN), kiểm toán nội bộ (KTNB) và kiểm toán độc lập (KTĐL). Cụ thể, KTNN được điều chỉnh bởi Luật Kiểm toán nhà nước, KTNB được quy định tại Nghị định số 05/2019/NĐ-CP, còn KTĐL được điều chỉnh bởi Luật Kiểm toán độc lập. Đồng thời, Luật Bảo vệ dữ liệu cá nhân số 91/2025/QH15 có hiệu lực từ ngày 01/01/2026 đã đặt ra thêm một lớp yêu cầu pháp lý quan trọng đối với mọi kiến trúc AI xử lý dữ liệu kiểm toán. Một điểm cần nhấn mạnh là, mặc dù cùng thuộc ngành kiểm toán, KTNN, KTNB và KTĐL không có cùng mục tiêu hoạt động, cùng đối tượng kiểm toán hay cùng cơ chế trách nhiệm. KTNN thực hiện kiểm toán việc quản lý, sử dụng tài chính công, tài sản công gắn với trách nhiệm giải trình; KTNB gắn với quản trị, quản lý rủi ro và kiểm soát nội bộ của tổ chức; trong khi KTĐL gắn với việc cung cấp ý kiến độc lập và dịch vụ bảo đảm theo hợp đồng. Sự khác biệt này dẫn đến khác biệt đáng kể về môi trường dữ liệu, yêu cầu bảo mật, cấu trúc hồ sơ và ngưỡng chấp nhận rủi ro khi triển khai LLM. Vì vậy, một mô hình hoặc một kiến trúc triển khai phù hợp với KTNB chưa chắc đã phù hợp với KTNN hoặc KTĐL. Từ góc độ đánh giá năng lực chuyên môn, kiểm toán có một lợi thế phương pháp luận mà nhiều lĩnh vực khác không có: đó là sự tồn tại của các chuẩn đánh giá nghề nghiệp tương đối ổn định. Theo quy định hiện hành của Bộ Tài chính, kỳ thi lấy chứng chỉ kiểm toán viên tại Việt Nam đòi hỏi điều kiện về kinh nghiệm thực tế và hệ thống môn thi chuyên môn. Ở bình diện quốc tế, ACCA vẫn duy trì cấu trúc đánh giá nhiều cấp độ và đã công bố lộ trình chuyển đổi sang cấu trúc mới trong các năm tới. Điều này gợi ý rằng việc đánh giá LLM trong kiểm toán không nên chỉ dựa vào các benchmark công nghệ tổng quát, mà cần được thiết kế trên cơ sở các yêu cầu nghề nghiệp, các tình huống nghiệp vụ và các chuẩn năng lực đã được thừa nhận trong thực tiễn kiểm toán.
Xuất phát từ bối cảnh trên, bài viết này
trả lời câu hỏi nghiên cứu sau: làm thế nào để xây dựng một khung lựa chọn,
đánh giá và triển khai LLM vừa có các tiêu chí chung cho hoạt động kiểm toán,
vừa phản ánh được khác biệt giữa KTNN, KTNB và KTĐL tại Việt Nam? Để trả lời
câu hỏi đó, bài viết theo đuổi ba mục tiêu. Thứ nhất, xác định các điều kiện
chung mà một LLM dùng trong kiểm toán cần thỏa mãn. Thứ hai, phân tích cách
thức hình thành năng lực của LLM dưới góc nhìn tri thức nghề nghiệp. Thứ ba, đề
xuất một khung lựa chọn, đánh giá và triển khai LLM theo hướng phân tầng cho
ngành kiểm toán Việt Nam. Đóng góp của bài viết vì vậy không nằm ở việc đề cao
một mô hình cụ thể, mà ở việc xây dựng một khung tham chiếu có thể sử dụng
trong hoạch định chính sách, lựa chọn công nghệ và quản trị rủi ro nghề nghiệp
trong ngành kiểm toán Việt Nam.
2. Tổng quan các công trình nghiên cứu liên quan
2.1. Ứng dụng LLM trong kế toán – kiểm toán
Xu hướng gần đây cho thấy nghiên cứu về trí tuệ nhân tạo trong kế toán – kiểm toán đã chuyển từ giai đoạn mô tả công nghệ sang giai đoạn phân tích tác động học thuật và nghề nghiệp. Stratopoulos và Wang (2025) cho rằng các tiến bộ của AI, đặc biệt là GenAI và LLM, đang làm thay đổi cả công cụ nghiên cứu và cách đặt vấn đề trong kế toán. Điều này có ý nghĩa quan trọng vì kế toán – kiểm toán là lĩnh vực mà chất lượng tri thức và khả năng lý giải kết quả luôn giữ vai trò trung tâm.
Ở bình diện thực hành, các nghiên cứu gần đây cho thấy LLM có thể hỗ trợ nhiều nhóm tác vụ nghề nghiệp khác nhau. Fotoh và Mugwira (2025) ghi nhận rằng LLM có thể hỗ trợ một số tác vụ trong kiểm toán độc lập như tổng hợp thông tin, chuẩn bị phản hồi sơ bộ và hỗ trợ xử lý tình huống, nhưng đồng thời làm nổi lên các rủi ro về đạo đức, độ tin cậy và trách nhiệm giải trình. Trong kiểm toán nội bộ, Eulerich và Wood (2025) chứng minh rằng GenAI có thể được tích hợp vào nhiều giai đoạn của quy trình kiểm toán, từ lập kế hoạch, chuẩn bị kiểm toán đến thực hiện và soạn thảo báo cáo. Nhìn chung, các kết quả nghiên cứu hiện có đều gợi ý rằng LLM có thể tạo ra giá trị thực tiễn trong kiểm toán, nhưng giá trị đó phụ thuộc đáng kể vào loại hình nhiệm vụ, chất lượng dữ liệu và mức độ kiểm soát của tổ chức.
Tuy vậy, từ các công bố hiện có, có thể nhận thấy rằng các nghiên cứu về LLM trong kiểm toán hiện vẫn phát triển không đồng đều giữa các loại hình kiểm toán. Phần lớn các nghiên cứu thực nghiệm ban đầu tập trung vào KTĐL hoặc KTNB, trong khi các nghiên cứu trực tiếp về LLM trong KTNN còn khá hạn chế. Sự chênh lệch này không có nghĩa là KTNN ít liên quan đến AI hơn, mà chủ yếu phản ánh thực tế rằng KTNB và KTĐL thường có điều kiện thử nghiệm công nghệ thuận lợi hơn, còn KTNN vận hành trong khuôn khổ trách nhiệm giải trình công, hệ chuẩn mực khu vực công riêng và yêu cầu nghề nghiệp riêng.
2.2. Chuyên môn hóa LLM trong hoạt động kiểm toán theo fine-tuning và RAG
Về mặt kỹ thuật, hai hướng tiếp cận nổi bật để chuyên môn hóa LLM trong môi trường nghề nghiệp là fine-tuning và RAG. Fine-tuning là quá trình tiếp tục huấn luyện một mô hình nền trên tập dữ liệu chuyên biệt nhằm giúp mô hình thích nghi tốt hơn với thuật ngữ, văn phong và cấu trúc suy luận của một miền tri thức cụ thể. Trong khi đó, RAG là kiến trúc kết hợp LLM với một nguồn tri thức bên ngoài, cho phép mô hình truy xuất tài liệu liên quan trước khi sinh câu trả lời. Về bản chất, fine-tuning làm giàu năng lực tham số của mô hình, còn RAG tăng cường năng lực dựa trên tài liệu nguồn; vì vậy, hai hướng tiếp cận này không loại trừ nhau mà thường bổ sung cho nhau trong triển khai thực tế.
Lewis et al. (2020) đề xuất RAG như một kiến trúc kết hợp giữa bộ nhớ tham số và bộ nhớ ngoài, qua đó cải thiện hiệu quả trên các tác vụ cần tri thức chuyên biệt và khả năng truy nguyên nguồn. Trong khi đó, Hu et al. (2021) cho thấy LoRA (Low-Rank Adaptation - thích nghi hạng thấp) có thể giảm mạnh số tham số cần huấn luyện và chi phí tài nguyên so với fine-tuning toàn phần, từ đó làm cho việc tinh chỉnh mô hình lớn trở nên khả thi hơn trong thực tế triển khai. Đối với kiểm toán, hai hướng tiếp cận này có ý nghĩa đặc biệt rõ ràng: RAG giúp mô hình trả lời trên cơ sở các văn bản đang có hiệu lực hoặc kho tài liệu nội bộ đã được phê duyệt, còn fine-tuning giúp mô hình thích nghi tốt hơn với thuật ngữ chuyên môn, cấu trúc hồ sơ và phong cách lập luận nghề nghiệp. Điểm đáng chú ý là trong môi trường kiểm toán, RAG thường phù hợp hơn ở giai đoạn đầu triển khai, vì nó cho phép giữ nguyên mô hình nền nhưng tăng khả năng dựa vào nguồn đáng tin cậy. Fine-tuning, ngược lại, thường cần được cân nhắc thận trọng hơn vì đòi hỏi dữ liệu huấn luyện chuyên ngành chất lượng cao, cơ chế giám sát tốt và năng lực kỹ thuật lớn hơn.
2.3. Tính giải thích và kiểm soát suy luận của LLM
Trong kiểm toán, đầu ra của hệ thống AI không thể được chấp nhận chỉ vì có vẻ hợp lý, mà còn phải đáp ứng yêu cầu về khả năng giải thích, khả năng kiểm chứng và mức độ tin cậy của lập luận. Zhang et al. (2022) chỉ ra rằng thiếu XAI (Explainable Artificial Intelligence - trí tuệ nhân tạo có thể giải thích) là một rào cản đáng kể đối với việc ứng dụng AI/ML trong kiểm toán, đồng thời cho thấy các kỹ thuật XAI có thể hỗ trợ yêu cầu về tài liệu kiểm toán và bằng chứng kiểm toán. Từ góc độ nghề nghiệp, điều này đặc biệt quan trọng vì kiểm toán luôn gắn với trách nhiệm giải trình: kết luận kiểm toán không chỉ cần đúng, mà còn phải có cơ sở để người thực hiện và người soát xét kiểm tra lại.
Ở một hướng khác, Wei et al. (2022) cho thấy CoT (Chain-of-Thought - chuỗi suy luận) có thể cải thiện đáng kể năng lực giải quyết các bài toán nhiều bước của mô hình. Tuy nhiên, việc yêu cầu mô hình trình bày chuỗi suy luận vẫn chưa đủ để bảo đảm độ tin cậy của kết quả. Lightman et al. (2023) cho thấy hoạt động giám sát quy trình suy luận có thể hiệu quả hơn so với việc giám sát chỉ dựa trên kết quả đầu ra cuối cùng trong việc xây dựng các hệ thống suy luận đáng tin cậy hơn. Trong ứng dụng kiểm toán, hàm ý thực tiễn là việc đánh giá mô hình không nên chỉ dừng ở kết quả đầu ra cuối cùng, mà còn cần thẩm định chuỗi suy luận trung gian nhằm bảo đảm tính giải trình, tính nhất quán và khả năng kiểm chứng của kết luận được đưa ra. Điểm mấu chốt ở đây là chất lượng của một hệ thống hỗ trợ kiểm toán không chỉ nằm ở việc đưa ra đáp án “đúng”, mà còn nằm ở việc đáp án đó có được hình thành trên một quá trình suy luận phù hợp với logic nghề nghiệp hay không.
2.4. Khung quản trị rủi ro AI và đánh giá năng lực nghề nghiệp trong kiểm toán
Song song với tiến bộ kỹ thuật, các khung quản trị rủi ro AI hiện nay đã chuyển từ mức nguyên tắc chung sang mức cụ thể hơn. NIST AI RMF 1.0 mô tả quản trị rủi ro AI theo bốn chức năng: quản trị, nhận diện, đánh giá và quản lý rủi ro. NIST AI 600-1 xây dựng hồ sơ riêng cho GenAI như một tài liệu đồng hành của AI RMF. Ở góc độ an ninh ứng dụng, tài liệu của OWASP về các ứng dụng LLM nhận diện các nhóm rủi ro nổi bật như tiêm lệnh, xử lý đầu ra không an toàn, đầu độc dữ liệu huấn luyện và lộ thông tin nhạy cảm... Các khung này đặc biệt phù hợp với kiểm toán vì chúng buộc tổ chức phải nhìn AI như một hệ thống xã hội – kỹ thuật, trong đó rủi ro không chỉ nằm ở mô hình mà còn ở dữ liệu, quy trình, người sử dụng và bối cảnh triển khai. Trong lĩnh vực kiểm toán, các tổ chức chuẩn mực và giám sát nghề nghiệp cũng đã có động thái rõ ràng hơn trong giai đoạn 2025–2026. IAASB cho biết sẽ tiếp tục phát triển tài liệu hỗ trợ không có tính chuẩn mực bắt buộc liên quan đến công nghệ và quản lý chất lượng. FRC của Vương quốc Anh đã phát hành hướng dẫn “AI in Audit”, trong đó công bố thêm tài liệu riêng về generative và agentic AI trong kiểm toán. Ở lĩnh vực KTNB, The Institute of Internal Auditors (IIA) cho biết bộ chuẩn mực kiểm toán nội bộ quốc tế 2024 đã có hiệu lực áp dụng cho các đánh giá chất lượng từ ngày 09/01/2025. Những diễn biến này cho thấy việc sử dụng AI trong kiểm toán đã trở thành một vấn đề quản trị nghề nghiệp ở cấp độ quốc tế, chứ không còn là thử nghiệm công nghệ cục bộ. Khác với nhiều lĩnh vực ứng dụng AI theo hướng tiện ích chung, kiểm toán là nghề nghiệp đã có các cơ chế đánh giá năng lực chính thức và tương đối ổn định. Điều này có nghĩa là kiểm toán đã sẵn có một “hạ tầng chuẩn năng lực” có thể được chuyển hóa thành benchmark cho hệ thống AI, đặc biệt trong đánh giá khả năng xử lý tình huống, giải thích lập luận và duy trì tính nhất quán chuyên môn.
Từ
tổng quan trên có thể rút ra ba nhận định. Thứ nhất, LLM có tiềm năng ứng dụng
thực chất trong kiểm toán, nhưng không thể được tiếp cận chỉ như một công cụ
năng suất. Thứ hai, các hướng chuyên môn hóa như RAG và fine-tuning chỉ phát
huy hiệu quả khi được đặt trong một kiến trúc tri thức và kiểm soát phù hợp.
Thứ ba, khoảng trống lớn nhất hiện nay không phải là thiếu mô hình, mà là thiếu
một khung tích hợp đủ rõ cho việc lựa chọn, đánh giá và triển khai LLM trong
các bối cảnh kiểm toán cụ thể.
3. Các điều kiện chung mà một mô hình ngôn ngữ lớn (llm) trong hoạt động kiểm toán cần thỏa mãn
Việc ứng dụng LLM trong kiểm toán không thể được đánh giá chỉ trên cơ sở năng lực ngôn ngữ tổng quát hay mức độ trôi chảy của đầu ra. Trong môi trường kiểm toán, giá trị sử dụng của mô hình phụ thuộc vào khả năng đáp ứng đồng thời các yêu cầu về chuyên môn, pháp lý, bảo mật và khả năng kiểm soát.
3.1. Tính giải trình
Điều kiện thứ nhất là tính giải trình, là khả năng của mô hình trong việc cung cấp cơ sở hợp lý, có thể kiểm tra và có thể truy nguyên cho kết luận mà mô hình đưa ra. Trong kiểm toán, một kết luận chỉ có giá trị khi nó được đặt trên nền tảng của tiêu chí kiểm toán, bằng chứng kiểm toán và lập luận nghề nghiệp có thể rà soát lại. Vì vậy, một LLM dùng trong kiểm toán không thể chỉ tạo ra câu trả lời hợp lý về ngôn ngữ, mà còn phải cho phép người sử dụng xác định được mô hình đang dựa vào nguồn nào, áp dụng tiêu chí nào và hình thành kết luận theo logic nào. Zhang et al. (2022) cho thấy thiếu XAI là một rào cản quan trọng đối với việc ứng dụng AI/ML trong kiểm toán, bởi kiểm toán đòi hỏi mức độ minh bạch cao hơn nhiều so với các tác vụ xử lý thông tin thông thường. Từ góc độ thực hành, tính giải trình trong kiểm toán không nhất thiết đòi hỏi mô hình phải “giải thích toàn bộ cơ chế bên trong” theo nghĩa kỹ thuật, mà trước hết đòi hỏi mô hình phải tạo ra được đầu ra có thể kiểm chứng về mặt nghề nghiệp. Điều đó bao gồm khả năng viện dẫn nguồn văn bản, chỉ ra giả định đang sử dụng, phân biệt giữa dữ liệu đầu vào và suy luận của mô hình, cũng như nêu được giới hạn của kết luận khi bằng chứng chưa đầy đủ. Trong môi trường kiểm toán, nơi đầu ra của mô hình có thể ảnh hưởng đến thiết kế thủ tục, đánh giá rủi ro hoặc cách diễn giải phát hiện kiểm toán, tính giải trình, vì vậy phải được xem là điều kiện tiên quyết, chứ không phải thuộc tính bổ sung.
3.2. Tính bảo mật
Điều kiện thứ hai là tính bảo mật, là khả năng bảo đảm an toàn thông tin, kiểm soát truy cập và tuân thủ các yêu cầu pháp lý trong quá trình xử lý dữ liệu bằng LLM. Hoạt động kiểm toán thường liên quan đến nhiều lớp dữ liệu nhạy cảm như báo cáo tài chính, dữ liệu giao dịch, hợp đồng, thư quản lý, hồ sơ nhân sự, dữ liệu ngân sách hoặc tài liệu quản trị nội bộ. Trong bối cảnh Việt Nam, yêu cầu này càng trở nên chặt chẽ hơn khi Luật Bảo vệ dữ liệu cá nhân số 91/2025/QH15 đã có hiệu lực từ ngày 01/01/2026, đồng thời đặt ra các nghĩa vụ pháp lý rõ hơn đối với việc thu thập, lưu trữ, xử lý và chia sẻ dữ liệu cá nhân. Về mặt quản trị rủi ro, NIST AI RMF 1.0 (NIST, 2023), NIST AI 600-1 (NIST, 2024) và báo cáo top 10 ứng dụng LLM của OWASP (OWASP Foundation, 2025) đều cho thấy rủi ro của LLM không chỉ nằm ở mô hình, mà còn nằm ở cách mô hình được tích hợp vào ứng dụng và quy trình làm việc. Các rủi ro như prompt injection (tiêm lệnh), insecure output handling (xử lý đầu ra không an toàn), training data poisoning (đầu độc dữ liệu huấn luyện) hoặc sensitive information disclosure (lộ thông tin nhạy cảm) đều đặc biệt đáng lưu ý trong kiểm toán. Vì vậy, khi đánh giá một LLM cho hoạt động kiểm toán, câu hỏi trọng tâm không chỉ là mô hình “có trả lời tốt hay không”, mà còn là dữ liệu được đưa vào đâu, được lưu ở đâu, ai có quyền truy cập, và kết quả đầu ra có được kiểm soát đầy đủ hay không. Nói cách khác, một mô hình mạnh về năng lực xử lý ngôn ngữ nhưng không bảo đảm yêu cầu bảo mật thì không thể được xem là lựa chọn phù hợp cho kiểm toán.
3.3. Năng lực am hiểu bối cảnh Việt Nam
Điều kiện thứ ba là năng lực am hiểu bối cảnh Việt Nam, là khả năng của mô hình trong việc xử lý đồng thời ngôn ngữ nghề nghiệp, khuôn khổ pháp lý và thực tiễn hoạt động kiểm toán tại Việt Nam. Trong nhiều trường hợp, một LLM có thể hoạt động tốt trong các bài kiểm tra tổng quát hoặc trong môi trường chuẩn mực quốc tế, nhưng vẫn không đáp ứng được yêu cầu sử dụng trong kiểm toán Việt Nam nếu không hiểu đúng văn bản pháp luật, thuật ngữ chuyên môn và logic hồ sơ nghiệp vụ trong nước. Yêu cầu này đặc biệt quan trọng khi ngành kiểm toán Việt Nam không phải là một khối đồng nhất, mà bao gồm KTNN, KTNB và KTĐL, vốn cùng sử dụng ngôn ngữ kiểm toán nhưng khác nhau về mục tiêu, tiêu chí, chủ thể thực hiện và bối cảnh sử dụng dữ liệu.
Từ góc độ triển khai, năng lực am hiểu bối cảnh Việt Nam cần được hiểu theo ít nhất ba lớp. Thứ nhất là năng lực xử lý ngôn ngữ chuyên ngành Việt – Anh trong các văn bản pháp lý, chuẩn mực, hồ sơ và báo cáo kiểm toán. Thứ hai là năng lực hiểu đúng và áp dụng đúng hệ thống văn bản đang có hiệu lực tại Việt Nam, thay vì mặc nhiên ưu tiên các quy tắc quốc tế hoặc các mẫu diễn giải phổ biến trên Internet. Thứ ba là năng lực thích nghi với cấu trúc hồ sơ, quy trình làm việc và yêu cầu báo cáo đặc thù của từng loại hình kiểm toán trong môi trường Việt Nam. Một mô hình không đáp ứng được ba lớp năng lực này có thể tạo ra đầu ra trôi chảy, nhưng vẫn tiềm ẩn nguy cơ viện dẫn sai nguồn, áp dụng sai tiêu chí hoặc hiểu sai ngữ cảnh nghiệp vụ.
3.4. Năng lực chuyên môn có thể đo lường
Điều kiện thứ tư là năng lực chuyên môn có thể đo lường, là khả năng của mô hình được đánh giá bằng các công cụ kiểm thử có cấu trúc, có thể lặp lại và có liên hệ trực tiếp với chuẩn đầu ra nghề nghiệp. Trong kiểm toán, “giỏi” không phải là một đánh giá cảm tính, mà phải được lượng hóa thông qua mức độ hiểu chuẩn mực, khả năng xử lý tình huống, tính nhất quán trong lập luận và năng lực vận dụng tri thức vào các bối cảnh cụ thể. Đây là điểm mà kiểm toán có lợi thế về phương pháp luận so với nhiều lĩnh vực khác, bởi nghề kiểm toán đã có sẵn các cơ chế đánh giá năng lực tương đối ổn định như kỳ thi chứng chỉ kiểm toán viên tại Việt Nam hay hệ thống đánh giá của ACCA. Về mặt nghiên cứu, điều này hàm ý rằng việc đánh giá LLM trong kiểm toán không nên dừng ở các benchmark công nghệ tổng quát, mà cần được thiết kế trên cơ sở các nhóm nhiệm vụ nghề nghiệp thực sự của kiểm toán. Một mô hình được xem là phù hợp không chỉ khi trả lời đúng các câu hỏi lý thuyết, mà còn khi có thể xử lý tình huống, giải thích được cơ sở kết luận và duy trì tính nhất quán trên các bài toán gần với thực tế hồ sơ kiểm toán. Nói cách khác, trong kiểm toán, năng lực của LLM cần được đo ở cả “độ đúng của kết quả đầu ra” lẫn “độ tin cậy của tiến trình suy luận tạo ra kết quả đó”. Chính đặc điểm này tạo nền tảng để phát triển các bộ kiểm thử chuyên ngành thay vì phụ thuộc hoàn toàn vào các thang đo của lĩnh vực xử lý ngôn ngữ tự nhiên nói chung.
3.5. Tính hiệu quả chi phí và khả năng triển khai
Điều kiện thứ năm là tính hiệu quả chi phí và khả năng triển khai, là khả năng của mô hình trong việc tạo ra giá trị tương xứng với nguồn lực tài chính, kỹ thuật và quản trị mà tổ chức phải bỏ ra để vận hành. Trong thực tế, một LLM dù có năng lực cao nhưng đòi hỏi chi phí quá lớn, hạ tầng quá phức tạp hoặc năng lực quản trị vượt quá khả năng của tổ chức thì vẫn khó có thể được triển khai bền vững. Điều này đặc biệt đúng trong bối cảnh ngành kiểm toán Việt Nam có mức độ phân hóa lớn giữa các cơ quan nhà nước, đơn vị kiểm toán nội bộ và doanh nghiệp kiểm toán với quy mô rất khác nhau.
Các
nghiên cứu về fine-tuning và các kỹ thuật tinh chỉnh hiệu quả tham số như LoRA
cho thấy việc chuyên môn hóa mô hình không nhất thiết phải đi kèm với chi phí
huấn luyện quá lớn (Hu et al., 2021). Tương tự, RAG cho phép tận dụng mô hình
nền kết hợp với kho tri thức ngoài, qua đó giảm bớt yêu cầu phải tinh chỉnh sâu
trong nhiều trường hợp (Lewis et al., 2020). Tuy nhiên, khi đánh giá chi phí
trong kiểm toán, không nên chỉ tính đến phí mô hình hoặc chi phí tính toán. Chi
phí thực sự còn bao gồm chi phí chuẩn hóa dữ liệu, chi phí xây dựng kho tri
thức, chi phí kiểm soát bảo mật, chi phí đào tạo người sử dụng, chi phí tài
liệu hóa và chi phí quản trị rủi ro phát sinh trong quá trình vận hành. Vì vậy,
tính hiệu quả chi phí trong kiểm toán cần được hiểu như một tiêu chí tổng hợp,
phản ánh cả năng lực tạo giá trị và khả năng duy trì vận hành an toàn, ổn định
trong dài hạn.
4. Xây dựng năng lực cho llm kiểm toán qua lăng kính dikw và chuỗi suy luận (COT)
Việc đánh giá năng lực của LLM trong kiểm toán không nên chỉ dừng ở khả năng tạo ra câu trả lời trôi chảy hoặc đúng về mặt bề mặt ngôn ngữ. Trong môi trường kiểm toán, giá trị thực sự của mô hình phụ thuộc vào việc mô hình có thể chuyển hóa dữ liệu thành thông tin, thông tin thành tri thức, và tri thức thành hỗ trợ xét đoán nghề nghiệp trong một môi trường có kiểm soát hay không. Từ góc độ này, DIKW là một khung phân tích hữu ích để lý giải tiến trình hình thành năng lực của LLM trong hoạt động kiểm toán.
Ở tầng Dữ liệu, điều kiện tiên quyết là mô hình phải được tiếp cận với một tập tài liệu có chất lượng, được chuẩn hóa và có thẩm quyền sử dụng. Đối với kiểm toán, tập dữ liệu đó có thể bao gồm luật, nghị định, chuẩn mực, quy trình nội bộ, mẫu biểu, hồ sơ kiểm toán đã được ẩn danh và các tài liệu hướng dẫn nghiệp vụ. Tuy nhiên, sự hiện diện của dữ liệu tự nó chưa tạo ra năng lực nghề nghiệp. Dữ liệu chỉ có ý nghĩa khi được tổ chức lại theo cách cho phép mô hình xác định đâu là văn bản có hiệu lực, đâu là thuật ngữ trọng yếu, đâu là mối liên hệ giữa tiêu chí kiểm toán, bằng chứng kiểm toán và kết luận kiểm toán.
Ở tầng Thông tin, dữ liệu bắt đầu được đặt trong ngữ cảnh và được cấu trúc theo quan hệ nghề nghiệp. Đối với LLM trong kiểm toán, đây là giai đoạn mô hình không chỉ nhận diện văn bản hay thuật ngữ, mà còn phải hiểu được mối quan hệ giữa chúng. Ví dụ, mô hình cần hiểu rằng một rủi ro sai sót trọng yếu không chỉ gắn với một chuẩn mực hoặc một thủ tục riêng lẻ, mà còn liên hệ với đánh giá hệ thống kiểm soát nội bộ, đặc điểm giao dịch, mức độ trọng yếu và mục tiêu kiểm toán cụ thể. Trong giai đoạn này, RAG có ý nghĩa đặc biệt quan trọng, vì nó cho phép mô hình truy xuất tài liệu liên quan từ một kho tri thức ngoài trước khi sinh câu trả lời, điều đó có nghĩa là mô hình có thể trả lời trên cơ sở văn bản đang có hiệu lực hoặc kho tài liệu nội bộ đã được phê duyệt, thay vì dựa chủ yếu vào các khuôn mẫu ngôn ngữ tổng quát.
Ở tầng Tri thức, mô hình phải đi xa hơn việc truy xuất và tổng hợp thông tin, LLM cần có khả năng áp dụng thông tin vào tình huống cụ thể, chuyển từ biết và hiểu sang vận dụng. Trong môi trường kiểm toán, điều này thể hiện ở năng lực xác định vấn đề, lựa chọn tiêu chí phù hợp, đối chiếu bằng chứng và hình thành kết luận trên cơ sở lập luận có trật tự. Wei et al. (2022) cho thấy việc khuyến khích mô hình biểu diễn các bước suy luận trung gian có thể cải thiện rõ rệt hiệu quả trên các bài toán nhiều bước. Tuy nhiên, trong kiểm toán, giá trị của chuỗi suy luận không nằm ở bản thân việc mô hình “nói nhiều hơn”, mà ở việc chuỗi suy luận đó có làm cho tiến trình lập luận trở nên minh bạch hơn, có thể rà soát hơn và phù hợp hơn với logic nghề nghiệp hay không. Vì vậy, ở tầng Tri thức, yêu cầu cốt lõi không chỉ là kết quả đúng mà còn là kết quả đúng được hình thành trên một tiến trình lập luận có thể kiểm tra và có thể phản biện. Tuy vậy, việc mô hình tạo ra một chuỗi suy luận trông hợp lý vẫn chưa đủ để bảo đảm độ tin cậy. Đây là điểm khiến giám sát quy trình suy luận trở nên quan trọng. Lightman et al. (2023) cho thấy việc giám sát các bước suy luận trung gian có thể hiệu quả hơn việc chỉ giám sát kết quả đầu ra cuối cùng trong việc xây dựng các hệ thống suy luận đáng tin cậy hơn. Trong ứng dụng kiểm toán, hàm ý thực tiễn là việc đánh giá mô hình không nên chỉ dừng ở kết quả đầu ra cuối cùng, mà còn cần thẩm định chuỗi suy luận trung gian nhằm bảo đảm tính giải trình, tính nhất quán và khả năng kiểm chứng của kết luận được đưa ra. Điều này đặc biệt phù hợp với đặc thù của kiểm toán, nơi chất lượng kết luận phụ thuộc không chỉ vào “đúng hay sai”, mà còn phụ thuộc vào việc lập luận đó có thể được người soát xét, kiểm toán viên phụ trách hoặc cơ quan kiểm tra chất lượng xem xét lại hay không.
Ở tầng cao nhất của mô hình DIKW, trí tuệ, vấn đề không còn chỉ là khả năng xử lý thông tin hay giải quyết bài toán kỹ thuật, mà là khả năng hỗ trợ xét đoán trong những tình huống có nhiều biến số, nhiều phương án và mức độ bất định cao. Trong kiểm toán, đây là cấp độ mà mô hình cần biết phân biệt giữa trường hợp có thể đưa ra gợi ý chuyên môn và trường hợp phải dừng lại để chuyển giao cho xét đoán của con người. Nói cách khác, ở tầng Trí tuệ, một LLM trưởng thành không chỉ biết “trả lời”, mà còn phải biết giới hạn của mình, biết chỉ ra giả định đang sử dụng và biết nhận diện khi nào dữ liệu hoặc bằng chứng chưa đủ để đưa ra kết luận đáng tin cậy. Từ góc độ nghề nghiệp, đây là điểm then chốt để phân biệt giữa một công cụ hỗ trợ xử lý thông tin và một hệ thống có thể tham gia có trách nhiệm vào môi trường kiểm toán. Dưới lăng kính DIKW, vì vậy, mục tiêu hợp lý của LLM trong kiểm toán không phải là thay thế xét đoán nghề nghiệp, mà là nâng cao chất lượng xử lý tri thức và hỗ trợ xét đoán trong một môi trường có kiểm soát.
Từ cách tiếp cận trên, có thể thấy rằng
việc xây dựng năng lực cho LLM trong kiểm toán không nên được hiểu như quá
trình nạp thêm dữ liệu cho mô hình, mà là quá trình thiết kế một kiến trúc tri
thức và kiểm soát phù hợp với nghề nghiệp. Ở cấp độ thực tiễn, điều này hàm ý
rằng dữ liệu đầu vào cần được chuẩn hóa, kho tri thức cần được tổ chức theo
logic nghề nghiệp, chuỗi suy luận cần được thẩm định ở các nhiệm vụ trọng yếu,
và đầu ra của mô hình cần được đặt trong cơ chế rà soát của con người. Chỉ khi
đó, LLM mới có thể chuyển từ vai trò một công cụ xử lý ngôn ngữ tổng quát sang
vai trò một công cụ hỗ trợ tri thức có giá trị trong kiểm toán.
5. Các định hướng triển khai và giải pháp chính đề xuất
Từ các điều kiện chung đã xác định và cách tiếp cận năng lực theo DIKW, có thể thấy rằng việc triển khai LLM trong kiểm toán không nên được tiếp cận theo logic “lựa chọn một công cụ tốt nhất rồi áp dụng đồng loạt”. Thay vào đó, cần một kiến trúc triển khai nhiều tầng, trong đó việc lựa chọn mô hình, dữ liệu, cơ chế kiểm soát và phạm vi sử dụng được thiết kế đồng thời.
5.1. Xây dựng benchmark nghề nghiệp cho LLM trong kiểm toán
Giải pháp thứ nhất là xây dựng benchmark nghề nghiệp cho LLM theo logic kiểm toán, thay vì dựa chủ yếu vào các bài kiểm tra công nghệ tổng quát. Điểm xuất phát hợp lý là tận dụng “hạ tầng chuẩn năng lực” vốn đã tồn tại trong nghề kiểm toán, bao gồm cấu trúc kỳ thi, chuẩn đầu ra nghề nghiệp, hệ thống năng lực kỹ thuật và yêu cầu về đạo đức, xét đoán và kinh nghiệm thực tiễn. Đối với kiểm toán, năng lực của mô hình không nên chỉ được đo bằng khả năng trả lời đúng một câu hỏi, mà cần được đánh giá trên các nhóm nhiệm vụ như tra cứu chuẩn mực, phân tích tình huống, đối chiếu tiêu chí với bằng chứng, giải thích lập luận và duy trì tính nhất quán trong các trường hợp tương tự.
5.2. Tổ chức đánh giá nhiều tầng đối với mô hình và ứng dụng
Giải pháp thứ hai là không đánh giá LLM ở một tầng duy nhất. Trong bối cảnh kiểm toán, việc đánh giá cần được thực hiện đồng thời ở ít nhất ba tầng: tầng quản trị, tầng mô hình và tầng ứng dụng. Ở tầng quản trị, trọng tâm là năng lực kiểm soát của tổ chức và mức độ tin cậy của nhà cung cấp hoặc nhóm phát triển; ở tầng mô hình, trọng tâm là độ ổn định, khả năng giải trình, rủi ro an toàn và khả năng thích ứng với dữ liệu chuyên ngành; còn ở tầng ứng dụng, trọng tâm là mức độ phù hợp của mô hình đối với từng tác vụ kiểm toán cụ thể.
5.3. Xây dựng kho tri thức kiểm toán lõi
Giải pháp thứ ba là phát triển một kho tri thức kiểm toán lõi làm nền tảng cho cả RAG và fine-tuning. Về mặt cấu trúc, kho tri thức này nên được tổ chức theo hai lớp. Lớp thứ nhất là lớp dùng chung cho toàn ngành, bao gồm hệ thống văn bản pháp luật, chuẩn mực, thuật ngữ, hướng dẫn nghề nghiệp và dữ liệu chú giải đã được chuẩn hóa. Lớp thứ hai là lớp chuyên biệt cho từng loại hình kiểm toán, phản ánh các yêu cầu riêng của KTNN, KTNB và KTĐL. Từ góc độ kỹ thuật, một kho tri thức như vậy giúp mô hình truy xuất đúng nguồn, đúng phiên bản và đúng ngữ cảnh; từ góc độ nghề nghiệp, nó giúp tăng tính nhất quán trong việc áp dụng tiêu chí, giảm rủi ro viện dẫn sai và tạo nền tảng cho việc kiểm tra lại đầu ra của mô hình.
5.4. Thiết kế lộ trình triển khai phân tầng cho KTNN, KTNB và KTĐL
Giải pháp thứ tư là triển khai theo lộ trình phân tầng, thay vì tìm kiếm một mô hình duy nhất cho toàn bộ ngành kiểm toán. Đối với KTNN, ưu tiên nên đặt vào mô hình cục bộ hoặc môi trường kiểm soát cao, có khả năng truy vết, lưu nhật ký và xử lý an toàn các tập tài liệu lớn liên quan đến tài chính công, đầu tư công và tài sản công. Đối với KTNB, lộ trình phù hợp hơn có thể là kiến trúc lai ghép, trong đó mô hình nền được kết hợp với kho tri thức nội bộ, cơ chế phân quyền và quy trình phê duyệt đầu ra để phục vụ các tác vụ như tổng hợp rủi ro, rà soát chính sách, hỗ trợ lập kế hoạch và soạn thảo nháp. Đối với KTĐL, cần thận trọng hơn và áp dụng logic phân tầng tác vụ: có thể dùng LLM ở các khâu rủi ro thấp như tra cứu, tóm tắt, soạn thảo sơ bộ hoặc hỗ trợ rà soát tài liệu, nhưng cần hạn chế hoặc kiểm soát chặt ở các khâu gắn trực tiếp với xét đoán nghề nghiệp trọng yếu.
5.5. Thiết lập cơ chế quản trị AI ở cấp tổ chức
Giải pháp thứ năm là xây dựng cơ chế quản trị AI ở cấp tổ chức kiểm toán. Trong bối cảnh hiện nay, giá trị của LLM không còn phụ thuộc chủ yếu vào việc tổ chức có quyền truy cập vào mô hình nào, mà phụ thuộc ngày càng nhiều vào việc tổ chức có đủ năng lực quản trị để sử dụng mô hình đó một cách an toàn, nhất quán và có thể kiểm soát hay không. Tối thiểu, một tổ chức triển khai LLM trong kiểm toán cần có: quy định phân loại tác vụ được phép sử dụng AI; quy tắc xử lý dữ liệu đầu vào; cơ chế phân quyền truy cập; quy trình thử nghiệm và phê duyệt mô hình trước khi vận hành; nguyên tắc rà soát đầu ra; và yêu cầu tài liệu hóa rõ ràng khi AI tham gia vào quy trình kiểm toán.
5.6. Khung lựa chọn, đánh giá và triển khai LLM đề xuất cho ngành kiểm toán Việt Nam
Trên cơ sở các điều kiện chung đã xác định và các đặc thù của KTNN, KTNB và KTĐL, bài viết đề xuất một khung tích hợp cho việc lựa chọn, đánh giá và triển khai LLM trong ngành kiểm toán Việt Nam. Khung này được xây dựng theo ba hợp phần liên kết với nhau: lựa chọn mô hình phù hợp, đánh giá mô hình trong bối cảnh sử dụng cụ thể và triển khai theo lộ trình có kiểm soát. Trong môi trường kiểm toán, nơi chất lượng kết luận phụ thuộc vào cả bằng chứng, lập luận và cơ chế trách nhiệm, ba hợp phần này cần được thiết kế đồng thời thay vì tách rời.
Về khung lựa chọn mô hình, cần xác định mô hình hoặc kiến trúc triển khai phù hợp với mục tiêu sử dụng và điều kiện kiểm soát của từng loại hình kiểm toán. Mô hình phù hợp trong kiểm toán không nhất thiết là mô hình mạnh nhất theo nghĩa phổ quát, mà là mô hình đạt được mức cân bằng hợp lý giứa các tiêu chí do vậy, việc lựa chọn không nên dựa chủ yếu vào mức độ phổ biến của mô hình hay kết quả trên các benchmark công nghệ tổng quát, mà cần căn cứ vào ít nhất bốn nhóm tiêu chí:
• Tiêu chí pháp lý và bảo mật, bao gồm khả năng kiểm soát dữ liệu đầu vào, vị trí lưu trữ và xử lý dữ liệu, cơ chế phân quyền truy cập và khả năng lưu vết sử dụng. Đối với các bối cảnh có độ nhạy cảm dữ liệu cao, đặc biệt là KTNN và một số tác vụ trọng yếu trong KTĐL, mô hình cục bộ hoặc môi trường kiểm soát cao có thể phù hợp hơn so với mô hình truy cập qua dịch vụ bên ngoài.
• Tiêu chí năng lực chuyên môn bao gồm khả năng xử lý thuật ngữ nghề nghiệp, khả năng viện dẫn đúng nguồn, mức độ phù hợp với hệ thống chuẩn mực và khả năng duy trì tính nhất quán trong các tình huống tương tự. Ở tiêu chí này, cần phân biệt rõ giữa năng lực ngôn ngữ tổng quát và năng lực hỗ trợ nhiệm vụ kiểm toán chuyên biệt.
• Tiêu chí phù hợp với ngữ cảnh Việt Nam nhằm đảm bảo khả năng thích nghi với khuôn khổ pháp lý, thuật ngữ Việt – Anh và cấu trúc hồ sơ nghiệp vụ của từng loại hình kiểm toán. Một mô hình có năng lực tổng quát cao nhưng không xử lý tốt văn bản pháp lý và thực tiễn kiểm toán Việt Nam thì vẫn khó tạo ra giá trị ứng dụng thực tế.
• Tiêu chí chi phí và khả năng duy trì vận hành, bao gồm chi phí sử dụng mô hình, chi phí xây dựng kho tri thức, chi phí tích hợp hệ thống, chi phí kiểm soát rủi ro và năng lực kỹ thuật của tổ chức.
Về khung đánh giá mô hình, nhằm xác định mô hình có thực sự đáp ứng yêu cầu nghề nghiệp hay không. Trong bối cảnh kiểm toán, đánh giá LLM không nên chỉ thực hiện ở một tầng duy nhất, mà cần được tiến hành ở ba tầng liên kết, gồm:
• Ở tầng mô hình, trọng tâm là các thuộc tính nền tảng như độ ổn định, khả năng giải trình, mức độ nhất quán, rủi ro an toàn và khả năng thích nghi với dữ liệu chuyên ngành, trả lời câu hỏi liệu mô hình có đủ điều kiện kỹ thuật tối thiểu để được đưa vào thử nghiệm hay không.
• Ở tầng ứng dụng, trọng tâm là hiệu quả của mô hình đối với từng nhóm tác vụ kiểm toán cụ thể, chẳng hạn tra cứu chuẩn mực, tổng hợp hồ sơ, phân tích tình huống, hỗ trợ lập kế hoạch hay hỗ trợ soạn thảo báo cáo. Tầng này đặc biệt quan trọng vì cùng một mô hình có thể phù hợp với nhiệm vụ rủi ro thấp nhưng không phù hợp với nhiệm vụ gắn trực tiếp với xét đoán nghề nghiệp trọng yếu.
• Ở tầng quản trị, trọng tâm là mức độ sẵn sàng của tổ chức trong việc kiểm soát việc sử dụng mô hình, bao gồm chính sách sử dụng, cơ chế phân quyền, quy trình rà soát đầu ra, cơ chế xử lý sự cố và yêu cầu tài liệu hóa. Một mô hình có kết quả tốt ở tầng kỹ thuật nhưng được đặt trong một môi trường quản trị yếu vẫn có thể tạo ra rủi ro lớn cho chất lượng kiểm toán.
* Về khung triển khai theo lộ trình có kiểm soát, nhằm xác định trình tự đưa mô hình vào sử dụng trong thực tế, giảm rủi ro triển khai ồ ạt và phù hợp với đặc thù của kiểm toán. Trong kiểm toán, triển khai LLM nên được thiết kế theo lộ trình ba giai đoạn:
• Giai đoạn thí điểm có kiểm soát, trong đó mô hình chỉ được áp dụng cho các tác vụ rủi ro thấp, dữ liệu đã được sàng lọc và đầu ra bắt buộc phải có rà soát của con người. Mục tiêu của giai đoạn này là kiểm tra mức độ phù hợp ban đầu của mô hình trong môi trường vận hành thực tế.
• Giai đoạn triển khai có điều kiện, trong đó mô hình được mở rộng sang nhiều nhóm tác vụ hơn, nhưng phải gắn với cơ chế phân quyền, nhật ký sử dụng, tiêu chí giám sát hiệu quả và quy định xử lý ngoại lệ. Ở giai đoạn này, tổ chức cần bắt đầu tích hợp mô hình vào quy trình kiểm toán theo cách có tài liệu hóa rõ ràng.
• Giai đoạn mở rộng và giám sát định kỳ, trong đó mô hình chỉ được sử dụng rộng hơn khi tổ chức đã có đủ dữ liệu đánh giá, cơ chế kiểm soát và năng lực quản trị. Ở giai đoạn này, trọng tâm không còn chỉ là khả năng vận hành, mà là khả năng duy trì chất lượng, cập nhật kho tri thức và rà soát định kỳ các rủi ro phát sinh.
Có
thể thấy rằng khung lựa chọn, đánh giá và triển khai LLM cho ngành kiểm toán
Việt Nam không nên được hiểu như một sơ đồ kỹ thuật thuần túy, mà như một khung
quản trị nghề nghiệp đối với công nghệ mới. Trong khung đó, việc lựa chọn mô
hình phải gắn với đặc thù của KTNN, KTNB và KTĐL; việc đánh giá phải kết hợp cả
tầng mô hình, tầng ứng dụng và tầng quản trị; còn việc triển khai phải theo lộ
trình có kiểm soát thay vì áp dụng đồng loạt.
6. Kết luận
Bài viết cho thấy, việc ứng dụng LLM trong ngành kiểm toán Việt Nam cần được tiếp cận trên cơ sở phân biệt rõ đặc trưng của kiểm toán nhà nước, kiểm toán nội bộ và kiểm toán độc lập, thay vì xem kiểm toán như một lĩnh vực đồng nhất. Trên cơ sở tổng quan nghiên cứu và phân tích khái niệm, nghiên cứu xác định năm điều kiện chung đối với LLM trong kiểm toán, gồm: tính giải trình, tính bảo mật, năng lực am hiểu bối cảnh Việt Nam, năng lực chuyên môn có thể đo lường và tính hiệu quả chi phí. Đồng thời, việc vận dụng mô hình DIKW cho thấy giá trị của LLM trong kiểm toán không nằm chủ yếu ở khả năng tạo sinh văn bản, mà ở năng lực hỗ trợ xử lý tri thức và hỗ trợ xét đoán nghề nghiệp trong một môi trường có kiểm soát. Trên nền tảng đó, bài viết đề xuất một khung lựa chọn, đánh giá và triển khai theo hướng phân tầng phù hợp với từng loại hình kiểm toán. Việc ứng dụng LLM một cách có kiểm soát có thể góp phần nâng cao tính minh bạch, hiệu quả và giá trị của hoạt động kiểm toán tại Việt Nam, đóng góp vào sự phát triển bền vững của nền kinh tế.
© tapchiketoankiemtoan.vn