Tập dữ liệu AI tiếng Việt của FPT và NVIDIA lọt Top 15 thịnh hành toàn cầu

•

08/06/2026

Chỉ sau 4 ngày phát hành, tập dữ liệu Nemotron-Personas-Vietnam do Tập đoàn FPT phối hợp cùng NVIDIA phát triển đã nhanh chóng lọt Top 15 tập dữ liệu thịnh hành trên Hugging Face, nền tảng chia sẻ mô hình và dữ liệu trí tuệ nhân tạo mã nguồn mở hàng đầu thế giới.

Tập dữ liệu về “chân dung người Việt” phục vụ phát triển AI

Trên nền tảng Hugging Face, danh sách thịnh hành phản ánh mức độ quan tâm của cộng đồng đối với một tài nguyên, thường được ghi nhận thông qua số lượt tải về, lượt yêu thích và tương tác. Việc Nemotron-Personas-Vietnam lọt Top 15 thịnh hành cho thấy một tập dữ liệu được xây dựng dành riêng cho tiếng Việt và bối cảnh Việt Nam cho thấy cộng đồng AI quốc tế đang dành sự quan tâm rõ rệt hơn tới các nguồn dữ liệu bản địa, đặc biệt trong bối cảnh nhiều quốc gia đang thúc đẩy phát triển AI có chủ quyền.

Nemotron-Personas-Vietnam không phải là một mô hình ngôn ngữ lớn, mà là một tập dữ liệu nền phục vụ quá trình phát triển AI. Có thể hiểu đơn giản, nếu mô hình AI là “bộ não” thực hiện việc xử lý và sinh ngôn ngữ, thì tập dữ liệu là một phần “nguyên liệu học tập” giúp mô hình được huấn luyện, tinh chỉnh và đánh giá tốt hơn. Tập dữ liệu này được xây dựng dưới dạng các persona tiếng Việt, tức các “hồ sơ nhân vật”, mô phỏng sự đa dạng của người Việt trong đời sống, học tập, công việc và sở thích. Các persona này không phải dữ liệu của người thật, mà là dữ liệu tổng hợp do hệ thống AI tạo ra, dựa trên các phân bố thống kê và phương pháp kiểm chứng nhằm phản ánh sát hơn thực tế xã hội Việt Nam.

Phiên bản phát hành công khai của Nemotron-Personas-Vietnam gồm 100.000 bản ghi, tương ứng 900.000 persona tiếng Việt, với tổng dung lượng 118 triệu token, trong đó có 52 triệu token persona. Token có thể hiểu đơn giản là đơn vị nhỏ mà mô hình AI dùng để “đọc” và xử lý ngôn ngữ. Vì vậy, 118 triệu token cho thấy tập dữ liệu có quy mô văn bản lớn, đủ để hỗ trợ các nhà phát triển trong quá trình tạo dữ liệu huấn luyện, tinh chỉnh hoặc đánh giá mô hình AI tiếng Việt.

Mỗi bản ghi trong tập dữ liệu được mô tả qua nhiều trường thông tin khác nhau, bao gồm nghề nghiệp, kỹ năng, mục tiêu nghề nghiệp, sở thích thể thao, nghệ thuật, du lịch, ẩm thực, độ tuổi, giới tính, trình độ học vấn, tình trạng hôn nhân, khu vực cư trú và địa phương. Việc mô tả persona theo nhiều chiều giúp nhà phát triển có thể lọc, phân nhóm và tạo các kịch bản dữ liệu phù hợp với từng nhóm người dùng, từng ngành nghề hoặc từng bối cảnh ứng dụng cụ thể. Tập dữ liệu bao phủ 6 tỉnh, thành phố trực thuộc trung ương gồm Hà Nội, TP.HCM, Hải Phòng, Đà Nẵng, Cần Thơ và Đồng Nai, theo địa giới hành chính mới của Việt Nam sau sắp xếp năm 2025.

Nemotron-Personas-Vietnam được phát hành mở trên Hugging Face theo giấy phép CC BY 4.0, cho phép sử dụng cho cả mục đích thương mại và phi thương mại với điều kiện ghi nhận nguồn phù hợp. Nhờ đó, các nhà nghiên cứu, startup, doanh nghiệp và cộng đồng phát triển AI tại Việt Nam có thể tiếp cận một nguồn dữ liệu nền để thử nghiệm, huấn luyện, tinh chỉnh và đánh giá các hệ thống AI.

Thúc đẩy AI có chủ quyền cho Việt Nam

Với Nemotron-Personas-Vietnam, các nhà phát triển có thêm một nguồn dữ liệu phản ánh tốt hơn đặc điểm của người Việt, từ đó có thể tạo thêm dữ liệu tổng hợp, giảm thiên lệch trong quá trình huấn luyện và cải thiện sự đa dạng trong phản hồi của mô hình AI tiếng Việt. Đây là bước đi quan trọng để AI không chỉ “biết tiếng Việt”, mà còn hiểu tốt hơn người Việt, xã hội Việt Nam và các bài toán cụ thể của Việt Nam.

PGS.TS. Ngô Xuân Bách, Giám đốc Khối Sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT cho biết: “FPT tin rằng AI có chủ quyền phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương. Tập dữ liệu Nemotron-Personas-Vietnam thể hiện cam kết của chúng tôi trong việc giúp các nhà phát triển AI địa phương dễ dàng tiếp cận các nguồn lực cần thiết để xây dựng giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực.”

Sự hợp tác giữa FPT và NVIDIA xuất phát từ mục tiêu chung là cung cấp các mô hình, bộ dữ liệu và thư viện mở, hiệu quả cho cộng đồng phát triển AI. Các nguồn lực này giúp nhà phát triển xây dựng hệ thống AI có khả năng phản ánh tốt hơn ngôn ngữ, văn hóa, quy định, hạ tầng dữ liệu và mục tiêu kinh tế của từng quốc gia, thay vì phụ thuộc hoàn toàn vào các mô hình tổng quát toàn cầu. Trong hợp tác này, NVIDIA đóng góp khung mô hình mở, thư viện dữ liệu tổng hợp NVIDIA NeMo Data Designer và phương pháp Nemotron-Personas. Đây là cách tiếp cận có cấu trúc để tạo ra các tập dữ liệu tổng hợp quy mô lớn, có khả năng phản ánh các đặc điểm nhân khẩu học, địa lý và bối cảnh sử dụng của từng quốc gia. FPT đóng góp chuyên môn, hiểu biết về bản địa, năng lực xác thực dữ liệu, hạ tầng dữ liệu và năng lực nghiên cứu AI thông qua các đơn vị gồm FPT Smart Cloud, Viện Quantum AI & Cyber Security và FPT DC5. Trên thế giới, các tập dữ liệu persona đang trở thành một hướng tiếp cận quan trọng trong phát triển AI, đặc biệt với các mô hình cần tạo dữ liệu tổng hợp đa dạng, giảm thiên lệch và phản ánh tốt hơn bối cảnh người dùng. Trong dòng Nemotron-Personas, NVIDIA đã phát triển các bộ dữ liệu persona cho nhiều quốc gia và khu vực như Mỹ, Nhật Bản, Ấn Độ, Singapore, Brazil, Pháp,...

Phần lớn các mô hình AI phổ biến hiện nay được huấn luyện chủ yếu trên dữ liệu tiếng Anh và bối cảnh phương Tây. Khi áp dụng vào Việt Nam, các mô hình này có thể chưa hiểu đầy đủ những khác biệt về ngôn ngữ, văn hóa, nghề nghiệp, vùng miền, cách giao tiếp và nhu cầu thực tế của người dùng Việt Nam. Điều này có thể dẫn tới phản hồi thiếu tự nhiên, thiếu chính xác hoặc chưa phù hợp với bối cảnh địa phương.

Sự hiện diện của Nemotron-Personas-Vietnam trong nhóm thịnh hành trên Hugging Face cho thấy dữ liệu bản địa đang trở thành một cấu phần ngày càng quan trọng trong cuộc đua phát triển AI. Với Việt Nam, đây là một bước đi thiết thực nhằm mở rộng nguồn lực cho cộng đồng công nghệ, hỗ trợ doanh nghiệp và nhà nghiên cứu phát triển các hệ thống AI hiểu người Việt hơn, phục vụ người Việt tốt hơn và có khả năng mở rộng ra khu vực.