Skywork revela SkyReels-V2: modelo de vídeo de IA de código aberto que oferece geração de duração ilimitada
Em Breve O modelo de vídeo de IA de código aberto SkyReels-V2 da Skywork permite a geração de vídeos de duração ilimitada por meio de um navegador, suportando diversas aplicações como criação de histórias e síntese de vídeos multiassuntos.
Plataforma especializada em agentes de IA no local de trabalho, Trabalho no céu anunciou que sua ferramenta de criação de vídeos de IA, Skyreels A SkyReels-V2 apresentou o SkyReels-V2, um modelo de vídeo de IA de código aberto capaz de gerar vídeos de duração ilimitada diretamente de um navegador da web, sem nenhum custo. Os pesos e o código de inferência do modelo estão agora disponíveis publicamente no GitHub. O SkyReels-V2 emprega uma estrutura de Forçamento de Difusão que integra Modelos de Linguagem Multimodais Grandes (MLLM), pré-treinamento em vários estágios, aprendizado por reforço e técnicas de forçamento de difusão para otimizar o desempenho de forma abrangente. Este modelo oferece suporte a uma variedade de aplicações práticas, incluindo geração de histórias, síntese de imagem para vídeo, direcionamento de câmera e criação consistente de vídeos multissujeitos por meio do sistema Skyreels-AXNUMX.
A estrutura de Diffusion Forcing permite a geração de vídeos de duração infinita. O SkyReels-V2 suporta tarefas de geração de texto para vídeo (T2V) e imagem para vídeo (I2V), e é capaz de executar inferências nos modos síncrono e assíncrono, com scripts de exemplo demonstrando a geração de vídeos longos disponíveis.
Um componente notável do SkyReels-V2 é o SkyCaptioner-V1, um modelo de legendagem de vídeo projetado para anotação de dados. Este modelo é treinado com base nos resultados de legenda do modelo base Qwen2.5-VL-72B-Instruct e em legendadores subespecializados adicionais, utilizando um conjunto de dados cuidadosamente selecionado de aproximadamente dois milhões de vídeos balanceados para garantir a qualidade da anotação e o equilíbrio conceitual.
O SkyCaptioner-V1, que se baseia no Qwen2.5-VL-7B-Instruct, foi aprimorado para melhorar o desempenho de legendagem de vídeos em domínios específicos. Avaliações com um conjunto de testes de 1,000 amostras indicam que o SkyCaptioner-V1 atinge uma precisão média superior à dos modelos básicos de última geração, destacando-se particularmente em áreas relacionadas a tomadas.
Com base nos sucessos anteriores com grandes modelos de linguagem, os desenvolvedores se concentraram em melhorar a qualidade do vídeo generativo por meio do aprendizado por reforço, abordando limitações identificadas, como dificuldades com movimentos grandes e deformáveis e inconsistências físicas ocasionais em vídeos gerados.
Para melhorar o desempenho, foram implementados dois estágios sequenciais de ajuste fino supervisionado (SFT) com resoluções de 540p e 720p, respectivamente. A fase inicial de SFT ocorreu imediatamente após o pré-treinamento e antes da etapa de aprendizado por reforço. Este primeiro estágio de SFT atua como um simulador de equilíbrio conceitual, refinando os resultados do pré-treinamento do modelo base, que utilizava apenas dados de vídeo de 24 quadros por segundo (fps), e simplificando a arquitetura com a remoção de componentes de incorporação de FPS.
O que é SkyReels?
SkyReels é uma plataforma de criação de vídeos alimentada por inteligência artificial que permite aos usuários produzir curtas-metragens, animações e vídeos combinando textos, imagens e entradas de áudio. A plataforma oferece uma ampla gama de recursos, incluindo personagens gerados por IA, ferramentas para storyboard, sincronização labial, composição musical e edição de vídeo, todos projetados para otimizar o processo de criação de conteúdo. Também inclui modelos avançados de IA, como SkyReels-V1 e SkyReels-V2.
SkyReels-V1 é um modelo de base de vídeo de código aberto focado na produção de vídeo centrada no ser humano para dramas curtos, oferecendo suporte a ambos texto para vídeo e geração de imagem para vídeo, ao mesmo tempo em que renderiza com precisão expressões faciais sutis e fornece visuais com qualidade cinematográfica.
Aviso Legal: o conteúdo deste artigo reflete exclusivamente a opinião do autor e não representa a plataforma. Este artigo não deve servir como referência para a tomada de decisões de investimento.
Talvez também goste
Fundação Ethereum divulga relatório 'Segurança de um trilhão de dólares' identificando áreas de melhoria no crescimento do Ethereum
Em Breve A Ethereum Foundation lançou a iniciativa “Trillion Dollar Security” para abordar desafios críticos de segurança em seis áreas principais do ecossistema Ethereum, com o objetivo de fortalecer a rede para adoção global em larga escala e convidar a colaboração da comunidade para moldar seu futuro.

Datagram lança Alpha Testnet para interoperabilidade DePIN
Em Breve A Datagram lançou sua Alpha Testnet baseada em Avalanche para dar suporte à interoperabilidade DePIN, permitindo que os participantes executem nós, ganhem recompensas de tokens e contribuam para o desenvolvimento de infraestrutura descentralizada por meio de tempo de atividade e referências.

Astar Network integra Chainlink CCIP e adota o padrão SuperchainERC20 para ASTR para aprimorar a interoperabilidade
Em Breve O token ASTR se torna o primeiro contrato de token integrado à Superchain via ERC-7802 e Chainlink CCIP, permitindo transferências seguras e padronizadas entre cadeias dentro da superchain OP sem ativos encapsulados ou pools de liquidez.

Genspark lança navegador de IA com navegação autônoma, agente de IA integrado e loja MCP
Em Breve A Genspark lançou um navegador com tecnologia de IA que automatiza tarefas como pesquisa e organização de conteúdo, melhora a navegação com ferramentas de IA em tempo real e bloqueio de anúncios e se integra a vários aplicativos para otimizar os fluxos de trabalho dos usuários.

Populares
MaisPreços de criptomoedas
Mais








