Day: May 12, 2025

NVIDIA、長編動画を理解するEagle 2.5NVIDIA、長編動画を理解するEagle 2.5

©NVIDIA NVIDIAは、長いコンテキスト理解に特化したVLM(ビジョン・ランゲージ・モデル)「Eagle 2.5」を発表しました。長編動画や高解像度画像の理解は、マルチモーダルモデルにとって大きな課題とされてきました。 NVIDIAは、効率的な画像サンプリング手法とポストトレーニング(追加学習)フレームワークを組み合わせることで、長編動画の理解能力を大幅に向上させました。Video-MMEベンチマークでは、動画の長さが増しても性能を維持し、8Bサイズの小型モデルでありながら、GPT-4oやQwen2.5-VL-72Bといった大規模モデルに匹敵する性能を示し、AIによる映像解析の効率性を大きく高めました。 Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models https://nvlabs.github.io/EAGLE/ ...

OpenAI、「GPT-4.1」モデルを発表OpenAI、「GPT-4.1」モデルを発表

OpenAIのAPIに、マルチモーダル言語モデル「GPT-4.1」が新たに追加されました。現在研究中のGPT-4.5の代替として、はるかに低コストかつ短時間で同等レベルの性能を提供する点が特徴です。 GPT-4.1は、Basic(基本)、Mini(ミニ)、Nano(ナノ)の3種類のモデルサイズで提供されており、コーディング、命令実行、長文コンテキスト理解、画像解析といった分野で、従来のGPT-4oを上回る性能を示しました。もちろん、o1、o3-mini、GPT-4.5といった最新の推論モデルにはやや劣りますが、GPT-4oより約26%安価で利用でき、実用的な選択肢となりそうです。 https://www.youtube.com/live/kA-P9ood-cE?si=TZFYclDmxoW1OApv ...

「Gemini 2.5 Flash」を発表「Gemini 2.5 Flash」を発表

©Google Googleは、既存のGemini 2.5 Proよりも軽量かつ高速なモデル「Gemini 2.5 Flash」を発表しました。現在、Google AI StudioおよびVertex AIのGemini APIを通じて利用可能です。 このモデルは、速度とコスト効率を向上させつつ、段階的な思考を促すハイブリッド推論機能を採用し、応答品質、コスト、速度のバランスを柔軟に調整できるよう設計されています。推論機能をオフにした状態でも高速な応答を維持し、全体的な性能も向上しています。実際、LMArenaの「Hard Prompts(難易度の高い質問)」部門では、Gemini 2.5 Proに次いで2位を獲得しました。 ...