DeepSeek-R1の1.58ビット量子化で途端に注目の的になったUnsloth。 彼らは元々、LLMのGGUFなどを作ってくれる親切なハッカーというイメージだった。 しかし、今回の動的量子化など、尖った技術をソフトウェアパッケージにしていて、Phi-4やCommande-Rなど、いろいろ ...
以下の記事が面白かったので、簡単にまとめました。 「DeepSeek」の研究では、「R1-Zero」 が「GRPO」(Group Relative Policy Optimization) を使用して、人間のフィードバックなしでより多くの思考時間を割り当てることを自律的に学習したという「aha moment」が明らかに ...
ローカル環境でオープンソースのAIモデルを訓練、実行、および出力するための統合されたウェブUI「Unsloth Studio」は複雑なプログラミングコードを記述することなく直感的に操作でき、ベータ版として公開されています。ユーザーは100%オフラインの環境で ...