Category: news

AIニュース(4/1)AIニュース(4/1)

©GoogleGoogleは、推論能力に重点を置いた言語モデル「Gemini(ジェミナイ)2.5」を発表した。今回公開されたのはGemini 2.5 Proの実験バージョンで、Googleが本格的に推論型AIモデル競争に参入したことを示している。 Gemini 2.5は、アップグレードされたベースモデルとポストトレーニング(後処理学習)を組み合わせて性能を向上させており、LMArena、Humanity’s Last Exam、AIMEといった主要ベンチマークで最先端の成績を収めている。現在、Google AI Studioにアップデートされており、Gemini Advancedのサブスクリプション利用者はGeminiアプリでも利用可能。数学の問題解決や複雑な推論を必要とする日常の課題も、より簡単に解決できるようになっている。 強力なコーディング能力 GoogleはAIによるコーディング性能の向上に注力しており、Gemini 2.5は前バージョンの2.0と比べて大きな進歩を遂げた。今後も継続的な改善が予定されている。Gemini 2.5 Proは、視覚的に魅力あるWebアプリケーションの制作、エージェント型コードの開発、コードの変換・編集など、さまざまな分野で優れた性能を発揮している。 特に、エージェント型コード評価の業界標準とされる「SWE-Bench Verified」では、カスタマイズされたエージェント設定を用いて63.8%という高いスコアを記録し、卓越したコーディング能力を証明した。 以下の動画では、Gemini 2.5 Proがわずか1行のプロンプトから実行可能なコードを生成し、ビデオゲームを制作する様子が確認できる。 ...

AIニュース(4/1)AIニュース(4/1)

©OpenAIOpenAIは、GPT-4oモデルに画像生成機能を新たに追加した。この発表直後から、GPT-4oで生成された4コマ漫画が次々と共有されるなど、大きな反響を呼んでいる。OpenAIは、自社の言語モデルにおいて画像生成が重要な機能の一つであると判断し、最新の画像生成器をGPT-4oに統合した。 今回のアップデートで特に注目すべき点は、優れたテキストレンダリング能力である。従来の画像生成モデルではテキストが潰れてしまうことが多かったが、GPT-4oでは印刷体や手書き風の文字も美しく表現できる。ChatGPTプラットフォームでは、会話の文脈(コンテキスト)を維持しながら生成された画像をさらに修正することができ、ユーザーが求める成果物に至るまで、自然な対話を通じて画像をブラッシュアップしていけるようになった。 → Introducing 4o Image Generation https://openai.com/index/introducing-4o-image-generation/ ...

Perplexity AI、「R1 1776」モデルをオープンソース化Perplexity AI、「R1 1776」モデルをオープンソース化

Perplexity AIは、DeepSeek-R1を改良した「R1 1776」モデルをオープンソースとして公開しました。従来のDeepSeekは優れた性能を誇る一方で、検閲や個人情報漏洩のリスクが指摘され、議論を呼んでいました。今回発表されたR1 1776は、こうした問題を解決することに重点を置いて開発されています。 R1 1776の開発背景と特徴 開発過程では、中国共産党による検閲対象とされる約300のトピックを特定し、それに関連するプロンプトデータを収集したとされています。しかし、最も困難だったのは、これらのプロンプトに対して正確な回答を得ることでした。 Perplexity AIは、この課題を解決するために以下の技術を導入しました。 これにより、R1 1776はすべての質問に対して正確な回答を提供することを目指しているとのことです。 オープンソース化されたR1 1776は、研究者や開発者にとって、透明性の高い言語モデルとして注目を集める可能性があります。 https://www.perplexity.ai/ko/hub/blog/open-sourcing-r1-1776 ...

XAI、新AIモデル「Grok 3」を発表XAI、新AIモデル「Grok 3」を発表

xAIは、新たなAIモデル「Grok 3」を発表しました。今年1月から事前学習を完了し、現在も継続的にアップデートが進められています。特に、数学、科学、コーディング分野において、Gemini-2やDeepSeek-V3などの最新モデルを上回る性能を示している点が注目されています。さらに、初期モデルはLMSYSチャットボットアリーナで1位を獲得したとのことです。 Grok 3の特徴と能力 Grok 3は、複雑な思考が求められる作業もこなせるAIとして設計されています。例えば、以下のような高度なタスクに対応できます。 また、Grok 3は強力な検索エージェント「Deep Search」を活用し、複数のWebサイトから情報を分析し、正確な回答を提供することが可能です。 現在、この新モデルはX(旧Twitter)プラットフォームのPremium+ サブスクライバー向けに提供されているとのことです。 ...

OpenAIが発表した「Operator」とは?(2/25)OpenAIが発表した「Operator」とは?(2/25)

最近、OpenAIが公開した「Operator」が世界に大きな衝撃を与えました。これは単なるチャットボットを超え、実際にコンピューターを操作し、さまざまな作業を代行できるAIエージェントです。本記事では、「Operator」とは何か、どのように機能するのか、そして今後どのような変化をもたらすのかについて解説します。 OpenAI「Operator」とは? Operator は、ユーザーの指示を受けて、コンピューター上で必要な作業を実行するAIエージェントです。複雑なコマンドを覚える必要はなく、「このファイルを整理して」「このデータセットを分析して」といった自然言語で指示を出すだけで、Operatorがバックグラウンドで作業を遂行します。 そのため、Operatorを活用することで、単純な繰り返し作業から複雑なデータ処理、さらには創造的なプロジェクトまで、あらゆるコンピューター作業を効率的に管理できるようになります。結果として、ユーザーの生産性と作業効率が飛躍的に向上すると期待されています。 詳しくは、OpenAIの公式ページで確認できます。 Operatorの仕組み Operatorは、自然言語処理技術と自動化技術を組み合わせて動作します。ユーザーが日常的な言葉で指示を出すと、それをコンピューターが理解し、具体的なタスクへと変換して実行します。 このシステムは、自然言語処理モデルを基盤とし、命令の意味を分析した後、コンピューターのOSや各種アプリケーションと連携しながら、ファイル管理、データ処理、プログラムの実行などを自動で行います。内部では、入力された指示を解析し、適切な実行プランを立てた上で、必要なコマンドを生成・実行し、その結果をリアルタイムでユーザーにフィードバックする仕組みになっています。 より詳しい技術的背景や実際の活用例については、こちらのページやMIT Technology Reviewの記事で確認できます。 Operatorがもたらす変化と期待 Operatorの活用により、ChatGPTを用いた生産性向上をさらに超えた、大きな業務効率化、技術へのアクセス向上、そして創造的な作業の支援が期待されています。 1. 業務効率の向上 反復的な作業を簡単に自動化できるため、ユーザーは自然言語で指示を出すだけで即座に対応できるようになります。これにより、業務スピードの向上が見込まれます。 2. 技術へのアクセス向上 専門知識が必要なプログラムやツールの操作も、自然言語の指示だけで実行できるため、技術者でなくても高度な作業を簡単にこなせるようになります。これにより、より多くの人が技術を活用しやすくなると考えられます。 ...

今週のAIニュース(2/17)今週のAIニュース(2/17)

サブスクリプション料金別で提供される『GPT-5』のロードマップ発表 ©Forbes OpenAIのCEOであるサム・アルトマン氏が次世代AIモデルのロードマップを公開しました。社内で『オリオン(Orion)』と呼ばれていたGPT-4.5が次のモデルとしてリリースされる予定です。このモデルは特に、Chain-of-Thought(CoT)手法を使用しない最後のモデルになると言われています。 OpenAIは、GPTシリーズとoシリーズのモデルを統合する大規模な計画を進めています。この統合の結果として誕生するのがGPT-5です。GPT-5は、あらゆる種類のタスクを遂行できる統合モデルを目指して開発されています。 特に注目すべき点は、GPT-5の提供方式です。これまでのようにすべてのユーザーに同じモデルを提供するのではなく、より高額な料金を支払うユーザーには、より高性能なGPT-5が提供される予定です。 OPENAI ROADMAP UPDATE FOR GPT-4.5 and GPT-5 ウェブ検索を行う『ディープリサーチ』レベルのオープンソースAI登場 ©Hugging Face OpenAIの『ディープリサーチ(Deep Research)』が、AIのウェブ検索および分析能力を測定するGAIA(General AI Assistants)ベンチマークで優れた成績を収めたというニュースをご存知でしょうか? このシステムは、ウェブ検索、情報要約、質問応答、多段階推論を実行するAI検索エージェントであり、GPT-4oのような「言語モデル」と「エージェントフレームワーク」で構成されています。 ...