Ang pinakabagong "Banana" AI image model ng Google, kinababaliwan ng mga netizen ang "Vibe Photoshoping"

Bitget App

Mag-trade nang mas matalino

Bitget

Balita

MarsBit2025/08/30 06:53

Ipakita ang orihinal

By:TechFlow

Inilabas ng Google AI Studio ang Gemini 2.5 Flash Image (codename nano-banana), na siyang pinaka-advanced na model ng Google para sa pagbuo at pag-edit ng larawan. Mabilis ito at mahusay ang performance sa maraming ranggo. Ang buod na ito ay ginawa ng Mars AI. Ang nilalaman ng buod na ito ay binuo ng Mars AI model at ang katumpakan at kompletong impormasyon ay patuloy pang ina-update.

Naalala mo pa ba ang misteryosong AI image editing model na "nano-banana" na mainit na pinag-usapan noon? Sa LMArena Large Language Model Arena, ito ay naging sentro ng diskusyon dahil sa kahanga-hangang performance nito. Ang mga eksperto mula sa Google Gemini ay sunod-sunod na nagpakitang-gilas sa social media, at ito pa nga ay minsang napagkamalang Gemini 3.0 Pro.

Ngayon, sa wakas ay inalis na ng Google ang tabing ng misteryo nito.

Sa Eastern 8th time zone, madaling araw ng Agosto 27, opisyal na inilunsad ng Google AI Studio ang Gemini 2.5 Flash Image (codename nano banana) 🍌.

Matagal nang pinainit at sa wakas ay inilunsad na ang Gemini 2.5 Flash Image ｜ Image source: GeekPark

Ito ang pinaka-advanced na image generation at editing model ng Google hanggang ngayon. Hindi lang ito napakabilis—halos parang "kidlat" ang karanasan—kundi nakakuha rin ito ng SOTA na mga resulta sa iba't ibang ranking, at nangunguna pa sa LMArena.

Paglabas pa lang ay SOTA na agad ang kakayahan ng Gemini 2.5 Flash Image ｜ Image source: LMarena.ai

Sa technical blog, binanggit ng Google na ang Gemini 2.0 Flash ay nakuha na ang pabor ng mga developer dahil sa mababang latency at mataas na cost-performance, ngunit matagal nang hinihintay ng mga user ang mas mataas na kalidad ng imahe at mas malakas na creative control. Ang Gemini 2.5 Flash Image ay dumating dala ang mga major upgrade na ito: consistent na character rendering, mas eksaktong prompt-based image editing, natural na fusion ng maraming imahe, at mas malalim na pag-unawa sa real-world knowledge—hindi lang ito isang model, kundi parang "pinagmulan" ng susunod na henerasyon ng mga blockbuster na app.

Agad ding nasubukan ng GeekPark ang model na ito. Nakakagulat, hindi lang ito simpleng model update—sa unang pagkakataon, ramdam mo na napakalapit na ng hinaharap ng AI photo editing.

Sa Google AI Studio, bukas na ito para sa karanasan ｜ Image source: GeekPark

Sa simula, inisip ko lang na mag-eeksperimento, "tingnan kung saan mas mabilis ang bagong model." Pero hindi ko inasahan na sa loob lang ng ilang oras, parang nasilayan ko na ang anyo ng susunod na blockbuster na app.

Sanay tayo sa mga tool tulad ng Meitu XiuXiu, na isang click lang, lagyan ng filter, at agad gumaganda ang larawan. Pero ibang-iba ang pakiramdam sa Gemini 2.5 Flash Image. Mabilis ito nang hindi kapani-paniwala, matalino na parang isang designer na alam ang gusto mo—sabihin mo lang ang gusto mong effect, at sa loob ng ilang segundo, makikita mo na agad ang resulta.

Maliban sa effect, ang bilis din ay isang malaking kaibahan ng Gemini 2.5 Flash Image kumpara sa mga naunang image generation models ｜ Image source: GeekPark

01 Mabilis na Generation, Resulta sa Ilang Segundo

Pinaka-kapansin-pansin sa nano banana ang bilis. Dati, kahit maganda ang specs ng computer mo, kapag gumagamit ng open-source models, kailangan mong maghintay ng ilang sampung segundo o higit pa mula prompt hanggang makabuo ng disenteng larawan. Para sa mobile users, mas mahaba pa ang paghihintay.

Pero ibinaba ng Gemini 2.5 Flash Image ang threshold na ito sa ilang segundo lang. Ito ang "pinakabago, pinakamabilis, at pinaka-efficient" na native multimodal model ng Google, at halatang pinagbuti talaga ang optimization. Sa aktwal kong pagsubok, isang prompt lang, mga tatlo hanggang apat na segundo, may resulta na agad—at malinaw pa ang resolution at detalye. (UTC+8)

Parang karanasan lang sa Meitu XiuXiu: isang click sa "beautify," agad ang effect. Ang kaibahan, ang Meitu XiuXiu ay gumagamit ng filter algorithms, habang ang Gemini 2.5 Flash Image ay bumubuo ng larawan mula sa simula, o malaki ang binabago sa larawan ayon sa gusto mo. Ang ganitong "sabihin mo lang, gagawin agad" na saya ay hindi maiisip sa dati pang matrabaho na photo editing process.

Mga request tulad ng "tanggalin ang background na may tao" ay kayang gawin sa isang prompt lang ｜ Image source: GeekPark

Kung ang bilis ay solusyon sa karaniwang user experience sa photo editing, ang "native multimodality" naman ang nagpapalawak ng AI image capabilities.

Hindi lang kayang mag-generate ng images ang Gemini 2.5 Flash Image, kundi naiintindihan din nito ang text at image input nang sabay. Ibig sabihin, pwede kong i-upload ang isang larawan at magbigay ng text prompt, at pagsasamahin nito ang impormasyon para maintindihan ang gusto ko.

Halimbawa, nag-upload ako ng street photo at sinabing "gawing Tokyo Shinjuku night scene ang background." Hindi lang nito na-identify ang subject ng photo, kundi inalis pa ang tao at pinalitan ang background ng neon-lit Shinjuku street. Ang mas kahanga-hanga, consistent pa rin ang lighting ng tao—wala yung karaniwang "hard cut and paste" effect na madalas sa manual editing.

Ang ganitong level ng understanding ay parang katulad ng "one-click background change" feature na madalas ipagmalaki ng mga phone manufacturers sa kanilang photo albums nitong mga nakaraang taon. Pero noon, madalas ay malabo ang edges at hindi tama ang lighting, kaya halatang peke. Ngayon, gamit ang world knowledge at visual understanding, mas natural ang resulta ng Gemini 2.5 Flash Image, at mas accurate ang detalye kumpara sa tradisyonal na text-to-image/image-to-image tools.

Original photo & Gemini 2.5 Flash Image result ｜ Image source: GeekPark

Ito ang dahilan kung bakit naniniwala akong babaguhin nito ang photo editing experience: hindi na kailangan ng maraming manual adjustment, kundi natural language understanding ng model ang magtatapos ng trabaho—lalo na sa portrait editing na mataas ang demand sa detalye.

Para sa portrait editing, ang consistency ng Gemini 2.5 Flash Image ay nagbibigay ng kakaibang "Vibe Photoshoping" experience.

Isang segundo lang, "nailigtas" na ang programmer ｜ Image source: GeekPark

Binabasag ng karanasang ito ang dating impresyon ng marami sa AI image generation—na parang "random": maganda ang prompt, maganda ang resulta; pangkaraniwan ang prompt, malayo sa gusto ang output.

Pero sa Gemini 2.5 Flash Image, napansin kong nabawasan na ang "randomness" na ito. Mas eksakto at mas intuitive ang pag-unawa nito sa prompts—kaya maraming tao ang biglang napapansin na mas magagamit na ito.

Halimbawa, sinabi ko lang na "i-blur ang background, i-highlight ang subject," at ilang segundo lang, eksakto ang gusto kong resulta; sinabihan ko na "palitan ng ngiti ang expression ng tao sa photo," hindi lang ngumiti ang bibig, pati ang mata ay inayos—detalyado talaga; sinubukan ko ring "lagyan ng kulay ang black and white photo," at ang colored output ay hindi basta random, kundi malapit sa tunay na kulay ng historical photos.

Ang ganitong "say it, it does it" na kakayahan ay nagpapaalala sa akin ng karanasan sa Meitu XiuXiu noon—gusto mo lang mag-smooth ng balat, pero naging sobrang "artificial" ang mukha. Ngayon, ang Gemini 2.5 Flash Image ay precise at kontrolado—talagang nauunawaan ang gusto mo at sinusubukang ibalik ito nang tama.

02 Pinahusay na Kakayahan, Mahirap Nang Bumalik

Para mas malinaw, ikinumpara ko ito sa mga mobile photo editing tools na madalas kong gamitin.

Sa Snapseed, kung gusto kong i-blur ang background, kailangan kong gumugol ng isa o dalawang minuto para mano-manong i-select ang foreground, tapos ayusin pa ang blur. Kahit sanay ka, paulit-ulit pa rin ang pag-edit.

Sa Meitu XiuXiu, may one-click background blur, pero madalas pati gilid ng tao ay nabablur, kaya hindi natural ang effect.

Sa Gemini 2.5 Flash Image, isang sentence lang, kusa nitong na-identify ang boundary ng tao at background, natural ang blur, at hindi na kailangan ng dagdag na edit.

Ipinapakita ng pagkukumparang ito na: Pinalaya ng Gemini 2.5 Flash Image ang user mula sa komplikadong proseso, at ipinasa ang trabaho sa model. Para sa ordinaryong tao, pinababa nito ang photo editing barrier; para sa propesyonal, nakakatipid ito ng maraming oras.

Sa kabuuan ng karanasan ko, ang Gemini 2.5 Flash Image ay hindi na lang photo editing tool, kundi mas malapit na sa pagiging "intelligent assistant."

Noon, gamit natin ang Meitu XiuXiu bilang koleksyon ng preset functions—filters, beautify, mosaic—bawat button ay may katumbas na function. Kailangan mong pumili at mag-adjust ng paisa-isa hanggang makuha ang gusto mo.

Ngayon, ibang-iba ang logic ng Gemini 2.5 Flash Image. Hindi mo na kailangang aralin ang tool, kundi direkta nitong nauunawaan ang gusto mo. Sabihin mo lang, ito na ang bahala.

Mukhang maliit ang pagbabagong ito, pero sa totoo lang, binabago nito ang relasyon sa photo editing process. Dati, tayo ang nag-aadjust sa tool; ngayon, ang tool ang nag-aadjust sa atin. Ang ganitong interaction ay prototype ng next-generation apps.

Sa ngayon, nasa early stage pa ang Gemini 2.5 Flash Image, at may mga limitasyon pa sa features. Pero ang ipinapakitang bilis, understanding, at fidelity ay sapat para magbigay ng pag-asa sa hinaharap.

Paano kaya kung pagsamahin ito sa Meitu XiuXiu? Baka pagbukas mo ng app, sabihin mo lang sa phone, "Ayusin mo nga ang photo na ito, gawing natural ang balat," at ilang segundo lang, tapos na (UTC+8); o kaya habang nagta-travel, sabihin mo, "Gawing maaraw ang panahon," at agad na magiging maliwanag ang larawan; o kahit sa video editing, isang sentence lang, mababago mo ang mood ng buong clip.

Ang ganitong paraan ay posibleng maging mainstream photo editing feature sa mobile OS sa hinaharap ｜ Image source: Twitter

Ito ang dahilan kung bakit naniniwala akong mabilis nitong babaguhin ang kasalukuyang photo editing workflow, at magde-define ng next-generation "Meitu XiuXiu": hindi lang photo editing, kundi pagbabago ng paraan ng pakikipag-interact sa image processing, at gawing AI ang katuwang mo sa post-processing.

Pero sa ngayon, hindi pa kayang maging all-in-one mainstream photo editing app ng Gemini 2.5 Flash Image: hindi lang dahil ang pangunahing layunin nito ay image generation at hindi minor adjustments, kundi lahat ng images na ginawa o inedit gamit ang Gemini 2.5 Flash Image ay may SynthID digital watermark para ma-identify ng social content platforms ang AI-generated content.

03 Simula ng Isang Blockbuster

Kung iisipin, naging pambansang app ang Meitu XiuXiu dahil sa pinakasimpleng paraan nito na solusyunan ang universal na problema—paano gawing mas maganda ang larawan.

At ang Gemini 2.5 Flash Image, sa batayang ito, ay lalo pang pinadali ang complex AI capability para maging "instant image" experience na kayang gamitin ng lahat.

Noong una kong sinabing "i-blur ang background," at ilang segundo lang, natural na na-edit ang larawan, alam ko agad: ito ang simula ng blockbuster app. Hindi lang ito model, kundi foundational capability ng napakaraming bagong produkto sa hinaharap.

Ang AI one-click sky replacement na sumikat sa mga mobile users nitong mga nakaraang taon ｜ Image source: vivo Community

Siguro, paglipas ng ilang taon, makakalimutan na natin ang codename na Banana, pero makikita natin ang mas marami pang ganitong image editing tools na "sabihin mo lang ang gusto mo, agad na mangyayari"—at baka, tulad ng Meitu XiuXiu noon, maging bahagi ng collective memory ng isang henerasyon.

Pero sa pagkakataong ito, mas palalawakin pa ng AI ang ating imahinasyon.

Disclaimer: Ang nilalaman ng artikulong ito ay sumasalamin lamang sa opinyon ng author at hindi kumakatawan sa platform sa anumang kapasidad. Ang artikulong ito ay hindi nilayon na magsilbi bilang isang sanggunian para sa paggawa ng mga desisyon sa investment.

PoolX: Naka-lock para sa mga bagong token.

Hanggang 12%. Palaging naka-on, laging may airdrop.

Mag Locked na ngayon!

Baka magustuhan mo rin

Bakit idineklarang "labag sa batas" ang "reciprocal tariffs" ni Trump? Ano ang susunod na mangyayari?

老虎证券•2025/08/30 12:17

Pagkalipas ng sampung taon mula sa "siglong pagsasanib" ni Buffett, maghihiwalay na umano, balitang malapit nang hatiin ang Kraft Heinz (KHC.US)

智通财经•2025/08/30 11:47

Binago ng Intel (INTC.US) ang kasunduan sa Chips Act, maagang nakatanggap ng $5.7 bilyon na cash upang mapataas ang kakayahang umangkop

智通财经•2025/08/30 11:47

Mabilisang Pagbasa sa Bagong Regulasyon ng US CFTC: Paano Makakapasok nang Legal ang Foreign Exchanges sa US, Aling Mga Negosyo ang Makikinabang, at Ano ang Dapat Tutukan sa Panandaliang Panahon?

Nagsimula na ang panibagong round ng kompetisyon para sa pagsunod sa regulasyon ng mga exchange, at sa pagkakataong ito, ang target ay ang Amerika.

Chaincatcher•2025/08/30 11:43