Deepseek v3.2... bagong open-source SOTA (Disyembre 1)
Isang pinaikling daloy ng impormasyon Kagagaling ko lang mag-aral ng release ng deepseek habang nasa subway...
Mabilis kong inayos ang mga pangunahing punto sa ibaba,
1/ Ang release ng Deepseek ngayon ay nagpakita ng napakagandang resulta.
- Walang dudang open-source SOTA;
- Ang mga kakayahan nito ay halos tumutugma rin sa mga pinakabagong closed-source na mga modelo;
2/ Sa teknikal na aspeto, hindi naman talaga bago,
- Patuloy pa ring ginagamit ang DSA + post train, na may mahigit 10% na bahagi, hindi na rin ito balita;
- Ang dagdag na impormasyon ay, gamit ang mga bagay na mula sa v3.2 experimental version, ang naging resulta ay napakaganda, direkta itong tumutugma sa mga bagong SOTA tulad ng gemini3.0;
- Ngayon, ang mga academic papers ay hindi na madaling magpasulong ng narrative sa merkado; mas direktang makikita ang kakayahan sa aktwal na takbo.
3/ Pinakaka-worry ng lahat: pagbagsak ng computing power? Hindi ito nangyayari.
Ayon mismo sa deepseek, may agwat pa rin tayo sa mga pinaka-advanced na modelo.
Sa ibang pananaw, ang “knowledge moat” sa antas ng modelo ay parang wala lang,ang computing power pa rin ang pinaka-nagpapakilala ng kaibahan.
Pananaw ng Deepseek researcher na si Zhibin Gou; pinatunayan ng gemini3 ang pretrain..pinatunayan ng deepseek 3.2 ang RL;
Magpatuloy sa pag-scale sa bawat antas; huwag hayaang maapektuhan ng mga ingay ng “pagbangga sa pader”.
Mas malakas na RL, mas mahahabang CoT, mas mataas na konsumo ng computing power tuwing inference;hindi ito magdudulot ng narrative ng “deflation ng computing power”.
4/ Sa pananaw ng aplikasyon... tiyak na positibo ito. Ayon sa isang kasapi ng komunidad ng bituin,
-
“Walang katapusang pangangailangan sa computing power, sa totoo lang ngayon ang halaga ng token para sa praktikal na gamit ay napakababa, tanging sa pamamagitan ng hardware at model innovation na pabababain ang gastos ng ilang ulit ay magkakaroon ng malawakang aplikasyon”
-
Para sa mga kumpanyang gustong bumuo ng “application moat” gamit ang “model capability” (halimbawa, isang OAI), ito ay isang malaking oslos ng narrative.
5/ Ang Deepseek mismo ay nagsabing ang efficiency ng paggamit ng tokens ay “inferior”... Dito sa Speciale na bersyon, mas marami talaga ang tokens na ginamit... (yung bahagi sa pulang kahon)..
6/ Easter egg na bahagi, sinabi ni Zhibin Gou na inabot sila ng isang taon para dalhin ang v3 sa sukdulan... ayon sa ilang kasapi ng Star Planet WeChat group, na-exhaust na ang v3,sa wakas ba ay ilalabas na ang v4 sa susunod na bersyon??
7/ Mukhang ngayon ay ika-3 anibersaryo ng ChatGPT...
Ngayong gabi, mukhang magiging magalaw ang merkado... ilang magulong macro factors mula sa Japan + ang panggugulo ng BTC;
Ang susunod na maliit na catalyzing event ay maaaring ang re:invent ng Amazon; may kaunting preview din kaninang umaga sa group chat.
Disclaimer: Ang nilalaman ng artikulong ito ay sumasalamin lamang sa opinyon ng author at hindi kumakatawan sa platform sa anumang kapasidad. Ang artikulong ito ay hindi nilayon na magsilbi bilang isang sanggunian para sa paggawa ng mga desisyon sa investment.
Baka magustuhan mo rin
Hinahanap ng Bitcoin ang Katatagan Habang Nahaharap sa Halo-halong Kapalaran ang mga Altcoin
Bitcoin (BTC) Tumatarget ng $100,000 Habang Nakahanap ng Suporta ang Presyo sa Mahalagang Antas


