深層学習⑦Face

2025년 05월 12일

NVIDIA、長編動画を理解するEagle 2.5

©NVIDIA NVIDIAは、長いコンテキスト理解に特化したVLM（ビジョン・ランゲージ・モデル）「Eagle 2.5」を発表しました。長編動画や高解像度画像の理解は、マルチモーダルモデルにとって大きな課題とされてきました。 NVIDIAは、効率的な画像サンプリング手法とポストトレーニング（追加学習）フレームワークを組み合わせることで、長編動画の理解能力を大幅に向上させました。Video-MMEベンチマークでは、動画の長さが増しても性能を維持し、8Bサイズの小型モデルでありながら、GPT-4oやQwen2.5-VL-72Bといった大規模モデルに匹敵する性能を示し、AIによる映像解析の効率性を大きく高めました。 Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models　https://nvlabs.github.io/EAGLE/ ...

Related Posts

NVIDIA、長編動画を理解するEagle 2.5

DSG8-1 Attention & Transformers

🦙 Llama 4：軽量かつ高性能なマルチモーダル(4/14)