Related Posts
NVIDIA、長編動画を理解するEagle 2.5
©NVIDIA NVIDIAは、長いコンテキスト理解に特化したVLM(ビジョン・ランゲージ・モデル)「Eagle 2.5」を発表しました。長編動画や高解像度画像の理解は、マルチモーダルモデルにとって大きな課題とされてきました。 NVIDIAは、効率的な画像サンプリング手法とポストトレーニング(追加学習)フレームワークを組み合わせることで、長編動画の理解能力を大幅に向上させました。Video-MMEベンチマークでは、動画の長さが増しても性能を維持し、8Bサイズの小型モデルでありながら、GPT-4oやQwen2.5-VL-72Bといった大規模モデルに匹敵する性能を示し、AIによる映像解析の効率性を大きく高めました。 Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models https://nvlabs.github.io/EAGLE/ ...
🦙 Llama 4:軽量かつ高性能なマルチモーダル(4/14)
Metaは2025年4月5日、次世代の大規模言語モデル(LLM)ファミリー「Llama 4」を発表しました。このシリーズには、マルチモーダル対応の「Llama 4 Scout」と「Llama 4 Maverick」、そして現在トレーニング中の「Llama 4 Behemoth」が含まれています。 🦙 Llama 4 Scout:軽量かつ高性能なマルチモーダルモデル 🦙 Llama 4 Maverick:高性能なエンタープライズ向けモデル 🦙 Llama 4 Behemoth:トレーニング中の巨大モデル ...
