Category: news

2025년 05월 12일| shin| 0 Comments| 4:05 pm

NVIDIA、長編動画を理解するEagle 2.5NVIDIA、長編動画を理解するEagle 2.5

©NVIDIA NVIDIAは、長いコンテキスト理解に特化したVLM（ビジョン・ランゲージ・モデル）「Eagle 2.5」を発表しました。長編動画や高解像度画像の理解は、マルチモーダルモデルにとって大きな課題とされてきました。 NVIDIAは、効率的な画像サンプリング手法とポストトレーニング（追加学習）フレームワークを組み合わせることで、長編動画の理解能力を大幅に向上させました。Video-MMEベンチマークでは、動画の長さが増しても性能を維持し、8Bサイズの小型モデルでありながら、GPT-4oやQwen2.5-VL-72Bといった大規模モデルに匹敵する性能を示し、AIによる映像解析の効率性を大きく高めました。 Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models　https://nvlabs.github.io/EAGLE/ ...

2025년 05월 12일| shin| 0 Comments| 4:00 pm

OpenAI、「GPT-4.1」モデルを発表OpenAI、「GPT-4.1」モデルを発表

OpenAIのAPIに、マルチモーダル言語モデル「GPT-4.1」が新たに追加されました。現在研究中のGPT-4.5の代替として、はるかに低コストかつ短時間で同等レベルの性能を提供する点が特徴です。 GPT-4.1は、Basic（基本）、Mini（ミニ）、Nano（ナノ）の3種類のモデルサイズで提供されており、コーディング、命令実行、長文コンテキスト理解、画像解析といった分野で、従来のGPT-4oを上回る性能を示しました。もちろん、o1、o3-mini、GPT-4.5といった最新の推論モデルにはやや劣りますが、GPT-4oより約26％安価で利用でき、実用的な選択肢となりそうです。 https://www.youtube.com/live/kA-P9ood-cE?si=TZFYclDmxoW1OApv ...

2025년 05월 12일| shin| 0 Comments| 3:58 pm

「Gemini 2.5 Flash」を発表「Gemini 2.5 Flash」を発表

©Google Googleは、既存のGemini 2.5 Proよりも軽量かつ高速なモデル「Gemini 2.5 Flash」を発表しました。現在、Google AI StudioおよびVertex AIのGemini APIを通じて利用可能です。このモデルは、速度とコスト効率を向上させつつ、段階的な思考を促すハイブリッド推論機能を採用し、応答品質、コスト、速度のバランスを柔軟に調整できるよう設計されています。推論機能をオフにした状態でも高速な応答を維持し、全体的な性能も向上しています。実際、LMArenaの「Hard Prompts（難易度の高い質問）」部門では、Gemini 2.5 Proに次いで2位を獲得しました。 ...

2025년 04월 14일| shin| 0 Comments| 11:41 am

🦙 Llama 4：軽量かつ高性能なマルチモーダル(4/14)🦙 Llama 4：軽量かつ高性能なマルチモーダル(4/14)

Metaは2025年4月5日、次世代の大規模言語モデル（LLM）ファミリー「Llama 4」を発表しました。このシリーズには、マルチモーダル対応の「Llama 4 Scout」と「Llama 4 Maverick」、そして現在トレーニング中の「Llama 4 Behemoth」が含まれています。 🦙 Llama 4 Scout：軽量かつ高性能なマルチモーダルモデル 🦙 Llama 4 Maverick：高性能なエンタープライズ向けモデル 🦙 Llama 4 Behemoth：トレーニング中の巨大モデル ...

2025년 04월 07일| shin| 0 Comments| 1:29 pm

AI news (4/7); ハギングフェイス、NLP講座をLLMコースに再編AI news (4/7); ハギングフェイス、NLP講座をLLMコースに再編

©Hugging Faceハギングフェイスが従来のNLP（自然言語処理）講座を、LLM（大規模言語モデル）コースへと改編しました。軽量言語モデル講座であるsmol-courseやAIエージェント講座はこれまでに約10万人の受講者を集めており、最近では推論モデル開発やLLMのファインチューニング（fine-tuning）講座も追加されています。従来の分類（classification）、固有表現抽出（named entity recognition）、検索（retrieval）など、伝統的なNLPの内容を維持しつつ、最新のトレンドを取り入れてカリキュラムを拡張しました。今後はModernBertのような、従来型NLPの最新トピックも追加される予定とのことで、AI開発に興味のある初心者から専門家まで、体系的に学べる環境がさらに強化される見込みです。 The NLP Course is becoming the LLM Course! https://huggingface.co/blog/llm-course ...

2025년 04월 07일| shin| 0 Comments| 1:23 pm

AI news(4/7): OpenAI、誰でも利用できるAI教育サイトをオープンAI news(4/7): OpenAI、誰でも利用できるAI教育サイトをオープン

OpenAIが、無料のAI教育サイト「OpenAIアカデミー（OpenAI Academy）」をオープンしました。AIに関する知識のアクセスを大衆化するために作られたこのプラットフォームは、OpenAIのミッションである「汎用人工知能（AGI）が人類全体に恩恵をもたらすことを保証する」という価値観に沿って開発されています。誰でも無料でコンテンツにアクセスでき、現在は学校や職場でのChatGPT活用法、Soraチュートリアル、教師向けのAI講座などが提供されています。今後はオンラインライブセッションやさまざまなコミュニティ機能も追加される予定です。まだ資格や認定コースなどは提供されていませんが、AI学習へのハードルを大きく下げ、誰もがデジタル時代に必要なAIスキルを身につけられるようになるでしょう。 ...

2025년 04월 02일| shin| 0 Comments| 3:27 pm

AI news (4/2)AI news (4/2)

Google; https://blog.google/products/gemini/how-we-built-gemini-robotics/ Google DeepMind、ロボット向け「Gemini 2.0」ファミリー発表 — ロボティクスの未来へ大きく前進 Google DeepMindが最近発表した、ロボット向けに特化した新たな「Gemini 2.0」モデル群の準備の中で、ロボティクス部門責任者のカロリーナ・パラダ氏は、チームとともにその技術力の最終確認を行った。チームは、複数の関節とピンセットのような手を持つ研究用ロボット「ALOHA」の両腕に、見たことのない物体を使って初めての作業をさせた。「たとえば、私の靴をテーブルに置いて“この中にペンを入れて”と指示したんです」とカロリーナ氏。「ロボットは少し考えたあと、その通りに作業をこなしました」さらに、おもちゃのバスケットボールとゴールを使い、「スラムダンクして」と頼んだところ、本当にやってのけたという。「あれはまさに“わお”という瞬間でした」と彼女は語る。これを実現したのは、Gemini 2.0の進化版「Gemini Robotics」モデル。テキストや動画、音声などを扱うマルチモーダル出力に加え、ロボット特有のデータでファインチューニングされており、物理的な行動が可能となっている。Google CEOのサンダー・ピチャイ氏は「この技術は、次世代ロボティクスの基盤になる」とX（旧Twitter）上で語っている。汎用性・対話性・柔軟性を備えた次世代モデル Gemini Roboticsモデルは、高度な器用さ（dexterity）、対話能力、汎用性を兼ね備えており、追加の訓練なしでも新しい物体や環境、指示に反応できる。「私たちのミッションは、日常生活で人を助ける“具現化されたAI”を搭載したロボットを開発することです」とカロリーナ氏。彼女は子どもの頃に見たSFアニメに影響され、自動で家事をこなすロボットに憧れていたという。「将来的にロボットは、スマホやPCのようにAIと接するためのインターフェースの一つになります」 ...

2025년 04월 01일| shin| 0 Comments| 1:26 pm

AIニュース(4/1)AIニュース(4/1)

©GoogleGoogleは、推論能力に重点を置いた言語モデル「Gemini（ジェミナイ）2.5」を発表した。今回公開されたのはGemini 2.5 Proの実験バージョンで、Googleが本格的に推論型AIモデル競争に参入したことを示している。 Gemini 2.5は、アップグレードされたベースモデルとポストトレーニング（後処理学習）を組み合わせて性能を向上させており、LMArena、Humanity’s Last Exam、AIMEといった主要ベンチマークで最先端の成績を収めている。現在、Google AI Studioにアップデートされており、Gemini Advancedのサブスクリプション利用者はGeminiアプリでも利用可能。数学の問題解決や複雑な推論を必要とする日常の課題も、より簡単に解決できるようになっている。強力なコーディング能力 GoogleはAIによるコーディング性能の向上に注力しており、Gemini 2.5は前バージョンの2.0と比べて大きな進歩を遂げた。今後も継続的な改善が予定されている。Gemini 2.5 Proは、視覚的に魅力あるWebアプリケーションの制作、エージェント型コードの開発、コードの変換・編集など、さまざまな分野で優れた性能を発揮している。特に、エージェント型コード評価の業界標準とされる「SWE-Bench Verified」では、カスタマイズされたエージェント設定を用いて63.8%という高いスコアを記録し、卓越したコーディング能力を証明した。以下の動画では、Gemini 2.5 Proがわずか1行のプロンプトから実行可能なコードを生成し、ビデオゲームを制作する様子が確認できる。 ...

2025년 04월 01일| shin| 0 Comments| 1:21 pm

AIニュース(4/1)AIニュース(4/1)

©OpenAIOpenAIは、GPT-4oモデルに画像生成機能を新たに追加した。この発表直後から、GPT-4oで生成された4コマ漫画が次々と共有されるなど、大きな反響を呼んでいる。OpenAIは、自社の言語モデルにおいて画像生成が重要な機能の一つであると判断し、最新の画像生成器をGPT-4oに統合した。今回のアップデートで特に注目すべき点は、優れたテキストレンダリング能力である。従来の画像生成モデルではテキストが潰れてしまうことが多かったが、GPT-4oでは印刷体や手書き風の文字も美しく表現できる。ChatGPTプラットフォームでは、会話の文脈（コンテキスト）を維持しながら生成された画像をさらに修正することができ、ユーザーが求める成果物に至るまで、自然な対話を通じて画像をブラッシュアップしていけるようになった。 → Introducing 4o Image Generation https://openai.com/index/introducing-4o-image-generation/ ...

2025년 02월 25일| shin| 0 Comments| 1:57 pm

Perplexity AI、「R1 1776」モデルをオープンソース化Perplexity AI、「R1 1776」モデルをオープンソース化

Perplexity AIは、DeepSeek-R1を改良した「R1 1776」モデルをオープンソースとして公開しました。従来のDeepSeekは優れた性能を誇る一方で、検閲や個人情報漏洩のリスクが指摘され、議論を呼んでいました。今回発表されたR1 1776は、こうした問題を解決することに重点を置いて開発されています。 R1 1776の開発背景と特徴開発過程では、中国共産党による検閲対象とされる約300のトピックを特定し、それに関連するプロンプトデータを収集したとされています。しかし、最も困難だったのは、これらのプロンプトに対して正確な回答を得ることでした。 Perplexity AIは、この課題を解決するために以下の技術を導入しました。これにより、R1 1776はすべての質問に対して正確な回答を提供することを目指しているとのことです。オープンソース化されたR1 1776は、研究者や開発者にとって、透明性の高い言語モデルとして注目を集める可能性があります。 https://www.perplexity.ai/ko/hub/blog/open-sourcing-r1-1776 ...