- QVAC Genesis II mở rộng đào tạo AI mở lên 148 tỷ tokens trên 19 lĩnh vực học thuật.
- Bộ dữ liệu huấn luyện các mô hình để giải thích lựa chọn và cải thiện khả năng lập luận vượt ra ngoài bề mặt.
- Tether Data phát hành bộ dữ liệu công khai nhằm hỗ trợ các nhà nghiên cứu bên ngoài các hệ thống AI đóng.
Tether Data đã phát hành QVAC Genesis II, mở rộng bộ dữ liệu giáo dục tổng hợp mở dành cho trí tuệ nhân tạo lên 148 tỷ tokens trên 19 lĩnh vực học thuật. Bản cập nhật này bổ sung thêm 107 tỷ tokens so với bản phát hành Genesis I trước đó và đưa bộ dữ liệu này trở thành nguồn tài nguyên giáo dục tổng hợp công khai lớn nhất thế giới dành cho tiền huấn luyện AI.
QVAC, bộ phận nghiên cứu trí tuệ nhân tạo của Tether Data, cho biết bộ dữ liệu này nhằm mục đích tăng cường khả năng lập luận, giải thích và ra quyết định trong các mô hình AI thay vì chỉ học các mẫu bề mặt. Bản phát hành này được đưa ra trong bối cảnh nhiều bộ dữ liệu huấn luyện tiên tiến vẫn bị giới hạn trong các hệ thống độc quyền, hạn chế quyền truy cập của các nhà nghiên cứu độc lập và các tổ chức học thuật.
Quy mô bộ dữ liệu và phạm vi học thuật
Bộ dữ liệu mở rộng bao phủ 19 lĩnh vực học thuật và hướng tới chiều sâu trong lập luận giáo dục trên các nhiệm vụ lập luận có cấu trúc. QVAC cho biết việc tăng quy mô hỗ trợ đào tạo nhất quán hơn cho các mô hình yêu cầu đầu ra dựa trên giải thích thay vì chỉ dự đoán văn bản xác suất.
Do đó, bộ dữ liệu tập trung vào sự rõ ràng và tính nhân quả trong các câu hỏi và câu trả lời được sử dụng trong quá trình tiền huấn luyện. Bộ dữ liệu vẫn được cung cấp công khai cho các nhà nghiên cứu, trường đại học và các nhà phát triển độc lập làm việc bên ngoài các nền tảng đóng.
QVAC phát hành Genesis II theo giấy phép Creative Commons Attribution–NonCommercial 4.0, tiếp tục cách tiếp cận cấp phép đã sử dụng cho Genesis I. Tổ chức cho biết giấy phép này hỗ trợ sử dụng cho mục đích nghiên cứu đồng thời bảo vệ quyền ghi nhận và giới hạn phi thương mại. Bộ dữ liệu và các mô hình liên quan có sẵn trên Hugging Face, cùng với tài liệu hướng dẫn chi tiết và các công cụ truy cập.
Phương pháp lập luận theo từng lựa chọn mới
Trọng tâm của Genesis II là một phương pháp tạo dữ liệu mới gọi là Lập luận theo từng lựa chọn (Option-Level Reasoning). Phương pháp này đánh giá mọi lựa chọn trả lời trong một câu hỏi trắc nghiệm, bao gồm cả các đáp án đúng và những quan niệm sai lầm phổ biến.
Thay vì coi đáp án đúng là kết quả cuối cùng, phương pháp này xem xét lý do tại sao mỗi lựa chọn thành công hoặc thất bại. QVAC cho biết quy trình này củng cố lập luận hợp lệ đồng thời trực tiếp giải quyết các giả định sai trong dữ liệu huấn luyện.
Phương pháp này được xây dựng dựa trên khung phân tích thất bại đã được giới thiệu trong Genesis I. Cả hai kỹ thuật kết hợp tạo thành một quy trình hai bước đảm bảo mỗi mục được tạo ra đều mang lại giá trị hướng dẫn.
Các đánh giá độc lập được QVAC trích dẫn cho thấy các mô hình được huấn luyện trên dữ liệu Genesis II đạt độ chính xác lập luận cao hơn và đưa ra câu trả lời rõ ràng hơn một cách nhất quán. Do đó, bộ dữ liệu này chuyển trọng tâm đào tạo sang hiểu biết có cấu trúc thay vì chỉ trôi chảy ngôn ngữ.
Liên quan: Tether Submits Proposal to Acquire Juventus Football Club
Nghiên cứu mở và mục tiêu AI phi tập trung
QVAC cho biết bản phát hành này phù hợp với nỗ lực rộng lớn hơn nhằm hỗ trợ phát triển AI địa phương và phi tập trung. Sáng kiến này hướng tới việc cho phép đào tạo và triển khai mô hình mà không phụ thuộc vào các nền tảng đám mây tập trung.
Bằng cách mở rộng nền tảng đào tạo mở, Tether Data hướng tới loại bỏ các rào cản cấu trúc mà các nhóm nghiên cứu nhỏ hơn phải đối mặt. “Hầu hết việc đào tạo AI hiện nay tối ưu hóa cho sự trôi chảy, không phải sự hiểu biết,” Paolo Ardoino, giám đốc điều hành của Tether, cho biết.
“Với bản phát hành này, chúng tôi đang vượt ra ngoài số lượng để hướng tới cấu trúc, lập luận và sự rõ ràng,” Ardoino nói. Ông bổ sung rằng quyền truy cập mở cung cấp cho các nhà nghiên cứu công cụ để phát triển các hệ thống AI có thể giải thích và đáng tin cậy.
Bài báo kỹ thuật, có tiêu đề QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training, có sẵn trên blog nghiên cứu của QVAC. QVAC cũng đã công bố phần Câu hỏi thường gặp chi tiết và tài liệu hỗ trợ trên trang web chính thức của mình.
Khi các hệ thống AI mở rộng sang giáo dục, khoa học và dịch vụ tài chính, bao gồm các ứng dụng fintech, liệu các bộ dữ liệu có cấu trúc có thể định hình lại cách các hệ thống trí tuệ học hỏi và vận hành không?


