Alibaba CloudのAI研究チームであるQwenが、視覚言語モデル「Qwen2.5 VL」をリリースしました。Qwen2.5 VLは画像に含まれる被写体の種類を認識したり文字を書き起こしたりできるだけでなく、PCやスマートフォンのUIを認識して自動操作することもできます。 Qwen2.5 VL ...
Alibaba CloudのAI研究チームであるQwenが、2025年1月にリリースした視覚言語モデル「Qwen2.5 VL」シリーズをベースに新たな視覚言語モデル「Qwen2.5-VL-32B」をリリースしました。画像解析やコンテンツ認識の精度が上がり、回答の品質が向上しています。 Qwen2.5-VL-32B ...
少し前に「Wan 2.1」というアリババグループの動画生成AIモデル (txt2vid)で画像生成 (txt2img)する記事を掲載したが、時同じくして「Wan 2.2」がリリースされた。これで同様にtxt2imgして遊んでいたところ、何とアリババグループから画像生成AIの真打、Qwen-Imageが登場!今回はこの辺りの話をしてみたい。
Qwen Imageモデルのテキストエンコーダーを別なものにしてみるという話です。 「abliterated」でQwen 2.5 vlモデルを検索すると複数出てきます。 一番上にあるGGUFファイルの元のは以下のリポジトリです。
どうも皆さん!バナナはせめてもの抵抗で300円位のを買います、 葉加瀬あい(ハカセアイ) です! 今回は、先日ご紹介して大反響だった「無料でHD動画が作り放題」の怪物AI『LTX-V2』が、さらに進化した 『LTX 2.3』の完全解説 をお届けします! 皆さん、もう ...
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第132回)は、Nano Banana Proに迫る性能を示す画像内の文字を正確に生成するAIモデル「Qwen-Image-2.0」や、GPT-5.2やGemini 3.0 Proとやり合える成績を示す1960億 ...