Alibaba phát hành Qwen-Image-Edit: Mô hình mã nguồn mở 20B cho chỉnh sửa hình ảnh và văn bản nâng cao
Tóm lại Nhóm Qwen của Alibaba Cloud đã ra mắt Qwen-Image-Edit, một mô hình chỉnh sửa hình ảnh tiên tiến kết hợp chỉnh sửa ngữ nghĩa và hình thức với khả năng sửa đổi văn bản song ngữ chính xác, mang đến các khả năng tiên tiến cho các ứng dụng sáng tạo và thực tế.
Alibaba Cloud's Qwen Nhóm đã giới thiệu Qwen-Image-Edit, một mô hình chỉnh sửa ảnh nâng cao được phát triển từ nền tảng Qwen-Image 20B. Hệ thống mới này mở rộng khả năng hiển thị văn bản đặc trưng của Qwen-Image bằng cách áp dụng chúng vào việc chỉnh sửa ảnh, đặc biệt chú trọng đến độ chính xác khi chỉnh sửa văn bản. Qwen-Image-Edit xử lý ảnh đầu vào thông qua hai thành phần song song: Qwen2.5-VL, quản lý kiểm soát ngữ nghĩa trực quan, và VAE Encoder, quản lý giao diện trực quan. Phương pháp tiếp cận kép này cho phép mô hình xử lý hiệu quả cả tác vụ chỉnh sửa ở cấp độ ngữ nghĩa và cấp độ giao diện. Công cụ này có thể được truy cập thông qua Qwen Chat trong tính năng "Chỉnh sửa ảnh".
Qwen-Image-Edit được thiết kế để thực hiện trên nhiều chiều chỉnh sửa. Nó hỗ trợ cả điều chỉnh ở cấp độ hiển thị, chẳng hạn như thêm, xóa hoặc sửa đổi các yếu tố hình ảnh trong khi vẫn giữ nguyên tất cả các vùng khác của hình ảnh, và chỉnh sửa ở cấp độ ngữ nghĩa, chẳng hạn như tạo sở hữu trí tuệ, xoay đối tượng hoặc chuyển đổi kiểu, cho phép thay đổi pixel rộng hơn nhưng vẫn giữ nguyên tính toàn vẹn ngữ nghĩa. Nó cũng cung cấp khả năng chỉnh sửa văn bản tinh chỉnh bằng cả tiếng Trung và tiếng Anh, cho phép người dùng thêm, xóa hoặc điều chỉnh văn bản trong hình ảnh mà vẫn duy trì tính nhất quán của phông chữ, kích thước và kiểu. Kiểm tra chuẩn trên một số bộ dữ liệu được công nhận rộng rãi cho thấy Qwen-Image-Edit đạt hiệu suất tiên tiến trong chỉnh sửa hình ảnh, định vị nó là một mô hình nền tảng vững chắc cho các ứng dụng trong tương lai trong lĩnh vực này.
Chỉnh sửa ngữ nghĩa và hình thức của Qwen-Image-Edit cho các ứng dụng sáng tạo và thực tế
Một trong những defiĐiểm nổi bật của Qwen-Image-Edit là chức năng nâng cao của nó trong cả chỉnh sửa ngữ nghĩa và hình thức. Chỉnh sửa ngữ nghĩa bao gồm việc thay đổi nội dung của hình ảnh trong khi vẫn đảm bảo ý nghĩa trực quan cơ bản vẫn được giữ nguyên. Để minh họa chức năng này một cách trực quan, nhóm phát triển sẽ làm nổi bật việc sử dụng nó với Qwen Linh vật chính thức của 's, loài chuột lang nước, là một ví dụ thực tế.
Quan sát cho thấy mặc dù phần lớn pixel trong ảnh đã chỉnh sửa khác với ảnh gốc bên trái, nhưng tính nhất quán tổng thể của nhân vật Capybara vẫn được duy trì hoàn toàn. Điều này chứng minh khả năng chỉnh sửa ngữ nghĩa mạnh mẽ của Qwen-Image-Edit, hỗ trợ phát triển linh hoạt và đa dạng nội dung sở hữu trí tuệ gốc. Ngoài ra, trong Qwen Chat, một bộ gợi ý chỉnh sửa chuyên dụng đã được tạo ra xoay quanh 16 loại tính cách MBTI. Sử dụng những gợi ý này, một bộ sưu tập hoàn chỉnh các gói biểu tượng cảm xúc theo chủ đề MBTI với linh vật Capybara đã được tạo ra thành công, giúp mở rộng hiệu quả cả khả năng biểu đạt và khả năng hiển thị của nhân vật.
Hơn nữa, tổng hợp góc nhìn mới là một ứng dụng quan trọng khác trong chỉnh sửa ngữ nghĩa. Qwen-Image-Edit có khả năng xoay vật thể 90 độ hoặc thực hiện xoay 180 độ, cho phép trực quan hóa mặt sau của vật thể. Một ví dụ khác về chỉnh sửa ngữ nghĩa nằm ở việc chuyển đổi phong cách, ví dụ, một bức chân dung tiêu chuẩn có thể được diễn giải lại thành nhiều phong cách nghệ thuật khác nhau, bao gồm cả những phong cách gợi nhớ đến Studio Ghibli.
Bên cạnh chỉnh sửa ngữ nghĩa, chỉnh sửa ngoại hình là một chức năng thường được yêu cầu trong chỉnh sửa hình ảnh. Phương pháp này tập trung vào việc giữ nguyên các vùng cụ thể của hình ảnh trong khi vẫn giữ nguyên, loại bỏ hoặc thay đổi các yếu tố được chỉ định. Như được minh họa trong ví dụ về một biển báo được tích hợp liền mạch vào cảnh, chỉnh sửa ngoại hình có thể được áp dụng cho nhiều ứng dụng khác nhau, chẳng hạn như điều chỉnh nền cho cá nhân hoặc chỉnh sửa trang phục. Một ví dụ khác defiKhả năng nổi bật của Qwen-Image-Edit là độ chính xác trong việc chỉnh sửa văn bản, một tính năng bắt nguồn từ chuyên môn tiên tiến của Qwen-Image trong công nghệ kết xuất văn bản.
Tuyên bố miễn trừ trách nhiệm: Mọi thông tin trong bài viết đều thể hiện quan điểm của tác giả và không liên quan đến nền tảng. Bài viết này không nhằm mục đích tham khảo để đưa ra quyết định đầu tư.
Bạn cũng có thể thích
Các cặp giao dịch ký quỹ spot mới — SAPIEN/USDT
CandyBomb x SAPIEN: Giao dịch futures để chia sẻ 150,000 SAPIEN!
Bitget Trading Club Championship (Giai đoạn 5) – Chia sẻ 80,000 BGB, tối đa 800 BGB cho mỗi người dùng!
Lễ hội Bitget x DGC: Chia sẻ 6.480.000.000 DGC
Thịnh hành
ThêmGiá tiền điện tử
Thêm








