- QVAC Genesis II memperluas pelatihan AI terbuka hingga 148 miliar token di 19 bidang akademik.
- Dataset ini melatih model untuk menjelaskan pilihan dan meningkatkan penalaran di luar permukaan.
- Tether Data merilis dataset ini secara terbuka untuk mendukung peneliti di luar sistem AI tertutup.
Tether Data telah merilis QVAC Genesis II, memperluas dataset pendidikan sintetis terbuka untuk kecerdasan buatan hingga 148 miliar token di 19 domain akademik. Pembaruan ini menambahkan 107 miliar token ke rilis Genesis I sebelumnya dan menempatkan dataset ini sebagai sumber daya pendidikan sintetis terbesar di dunia yang tersedia secara publik untuk pra-pelatihan AI.
QVAC, divisi riset kecerdasan buatan milik Tether Data, mengatakan bahwa dataset ini bertujuan untuk memperkuat penalaran, penjelasan, dan pengambilan keputusan dalam model AI, bukan sekadar pembelajaran pola di permukaan. Rilis ini hadir ketika banyak dataset pelatihan tingkat lanjut tetap dibatasi dalam sistem kepemilikan, membatasi akses bagi peneliti independen dan institusi akademik.
Skala Dataset dan Cakupan Akademik
Dataset yang diperluas ini mencakup 19 domain akademik dan menargetkan kedalaman penalaran pendidikan di berbagai tugas penalaran terstruktur. QVAC mengatakan peningkatan skala ini mendukung pelatihan yang lebih konsisten untuk model yang memerlukan keluaran berbasis penjelasan, bukan sekadar prediksi teks probabilistik.
Akibatnya, dataset ini berfokus pada kejelasan dan kausalitas di seluruh pertanyaan dan jawaban yang digunakan selama pra-pelatihan. Dataset ini tetap tersedia secara terbuka bagi peneliti, universitas, dan pengembang independen yang bekerja di luar platform tertutup.
QVAC merilis Genesis II di bawah lisensi Creative Commons Attribution–NonCommercial 4.0, melanjutkan pendekatan lisensi yang digunakan untuk Genesis I. Organisasi ini mengatakan lisensi tersebut mendukung penggunaan riset sambil mempertahankan atribusi dan batasan non-komersial. Dataset dan model terkait tersedia melalui Hugging Face, bersama dokumentasi terperinci dan alat akses.
Metode Penalaran Tingkat Opsi yang Baru
Pusat dari Genesis II adalah metode baru dalam pembuatan data yang disebut Option-Level Reasoning. Metode ini mengevaluasi setiap pilihan jawaban dalam pertanyaan pilihan ganda, termasuk opsi yang benar dan miskonsepsi umum.
Alih-alih memperlakukan jawaban yang benar sebagai keluaran akhir, pendekatan ini memeriksa mengapa setiap opsi berhasil atau gagal. QVAC mengatakan proses ini memperkuat penalaran yang valid sekaligus secara langsung mengatasi asumsi yang salah dalam data pelatihan.
Metode ini dibangun di atas kerangka analisis kegagalan yang diperkenalkan pada Genesis I. Bersama-sama, kedua teknik ini membentuk jalur dua metode yang memastikan setiap item yang dihasilkan memberikan nilai instruksional.
Evaluasi independen yang dikutip oleh QVAC menunjukkan model yang dilatih dengan data Genesis II mencapai akurasi penalaran yang lebih tinggi dan memberikan jawaban yang lebih jelas secara konsisten. Akibatnya, dataset ini menggeser fokus pelatihan ke arah pemahaman terstruktur, bukan hanya kefasihan.
Terkait: Tether Mengajukan Proposal untuk Mengakuisisi Juventus Football Club
Riset Terbuka dan Tujuan AI Terdesentralisasi
QVAC mengatakan rilis ini sejalan dengan upaya yang lebih luas untuk mendukung pengembangan AI lokal dan terdesentralisasi. Inisiatif ini bertujuan untuk memungkinkan pelatihan dan penerapan model tanpa bergantung pada platform cloud terpusat.
Dengan memperluas fondasi pelatihan terbuka, Tether Data bertujuan menghilangkan hambatan struktural yang dihadapi kelompok riset yang lebih kecil. “Sebagian besar pelatihan AI saat ini mengoptimalkan kefasihan, bukan pemahaman,” kata Paolo Ardoino, chief executive officer Tether.
“Dengan rilis ini, kami mendorong melampaui volume menuju struktur, penalaran, dan kejelasan,” kata Ardoino. Ia menambahkan bahwa akses terbuka memberi peneliti alat untuk mengembangkan sistem AI yang tetap dapat dijelaskan dan dapat diandalkan.
Makalah teknis berjudul QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training tersedia di blog riset QVAC. QVAC juga menerbitkan FAQ terperinci dan materi pendukung di situs resminya.
Seiring sistem AI berkembang ke bidang pendidikan, sains, dan layanan keuangan, termasuk aplikasi fintech, dapatkah dataset terstruktur membentuk ulang cara sistem kecerdasan belajar dan beroperasi?
