
©NVIDIA
NVIDIAは、長いコンテキスト理解に特化したVLM(ビジョン・ランゲージ・モデル)「Eagle 2.5」を発表しました。長編動画や高解像度画像の理解は、マルチモーダルモデルにとって大きな課題とされてきました。
NVIDIAは、効率的な画像サンプリング手法とポストトレーニング(追加学習)フレームワークを組み合わせることで、長編動画の理解能力を大幅に向上させました。Video-MMEベンチマークでは、動画の長さが増しても性能を維持し、8Bサイズの小型モデルでありながら、GPT-4oやQwen2.5-VL-72Bといった大規模モデルに匹敵する性能を示し、AIによる映像解析の効率性を大きく高めました。
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models https://nvlabs.github.io/EAGLE/