[prisna-wp-translate]。

OpenAIのパワフルな新モデルについて知っておくべきこと

o1 ハブ|OpenAI

数ヶ月に及ぶ憶測の末、OpenAIの "Strawberry "LLMがついに登場した。9月13日未明、OpenAIは、比類のない推論能力を誇る大規模言語モデル、OpenAI o1シリーズを発表した。このモデルは、複雑な推論において大きな飛躍を意味し、いくつかの分野では人間の博士号レベルの性能さえ凌駕する。

o1 ハブ|OpenAI

新しい命名規則

その名前自体は、それが表すシフトよりも重要ではない。OpenAI o1は、「GPT」ファミリーから脱却した最初のモデルであり、先行モデルの「プリ・トレーニング・パラダイム」とは異なる、新しい「推論パラダイム」の始まりを示すものである。OpenAIはこう説明する:「推論は、AIの機能における新たなフロンティアです。我々は、カウンターを1にリセットし、このシリーズをOpenAI o1と呼ぶことにしました。"

 

OpenAIは、2つのモデル(o1-previewとo1-mini)と、十数本のデモビデオ、43ページの包括的な研究論文を同時に発表した。中心的な特徴は、人間の問題解決を模倣し、応答するまでの熟慮時間を延長したことである。推論時間は、複雑なタスクにおけるパフォーマンスと直接相関している。

o1の能力

o1シリーズは、OpenAI初の強化学習学習済みモデルです。回答前に長い思考の連鎖を生成し、その能力を大幅に向上させます。より長い思考の連鎖は、より長い熟慮と推論性能の向上につながります。

数学(AIME 2024)、コード(CodeForces)、博士レベルの科学問題(GPQA Diamond)の競技会エバリュエーション

サム・アルトマン最高経営責任者(CEO)は、o1の実力を強調した。2024年の国際情報学オリンピック(IOI)では、1つの問題につき50回試行した後、微調整されたバージョンが人間の競技者の上位49%に入った。

o1はまた、Codeforces競技プログラミングで89%のトップ成績を収め、アメリカ招待数学試験(AIME)では米国の上位500人にランクインした。GPT-4と比較すると、o1は、STEM分野、法律、経済を含む多様な科目で大幅な向上を示している。

o1にできること

o1は、これまでのGPTモデルの多機能性(質問応答、要約、コンテンツ生成)を維持しているが、その高度な推論により、特に次のような用途に適している:

  • 優れた推理力: 特にSTEM分野に強い。
  • 創造的な問題解決: ブレーンストーミングやアイデア出しに最適。
  • 科学的研究: 複雑なデータセットに注釈を付けたり(例:細胞配列)、複雑な数式を扱ったり(例:量子光学)する作業に長けている。
  • コーディング能力: 効率的なコード生成、デバッグ、ワークフロー支援で、Human EvalやCodeforcesなどのベンチマークで好成績。
  • 上級数学: 数学的ベンチマークで従来のモデルを大きく上回り、IMO資格試験で83%の精度(GPT-4は13%)、AIMEの好成績を達成。複雑な物理公式を生成可能。
  • 精度の向上: 正確性を向上させるため、セルフファクトチェックを取り入れています。

その力 思考の連鎖

OpenAIのo1モデルは、複雑な問題に対する人間の熟考を反映し、問題を解決するために一連の思考プロセスを採用している。強化学習を通じて、o1は問題解決戦略を洗練させ、エラーを識別して修正することを学び、複雑なステップをより単純なステップに分解し、必要に応じてアプローチを切り替える。この反復プロセスにより、推論能力が大幅に向上する。この進歩を説明するために、困難な問題に対するo1-previewの思考の連鎖の例を以下に示す。このアプローチは人間の認知を模倣しており、1つの問題の中で段階的な洗練と自己反復さえ可能にし、推論を大幅に向上させる。

トレーニング中の強化学習とテスト中の思考時間の延長により、o1の性能はさらに向上し、新たなスケーリング則が確立された。しかし、このスケーリングの限界は従来の事前学習法とは大きく異なっており、OpenAIはこれらの違いを積極的に研究している。

o1の思考を視覚化するために、読解問題を考えてみましょう。GPT-4が直接的な解答を提供するのに対し、o1-previewの「思考の連鎖を表示」オプションは段階的な分析を明らかにします。各選択肢を体系的に検討し、その推論(「これは良い説明か」、「筆者はそう言っているか」、「文脈はこれを支持しているか」)を繰り返し質問し、最終的に洗練を繰り返しながら正解にたどり着きます。

黒い背景に白い文字 説明文が自動的に生成される

o1シリーズは幅広い用途に使用されており、ヘルスケア研究者が細胞配列データに注釈を付けたり、物理学者が複雑な量子光学式を生成したり、開発者がマルチステップワークフローを構築して実行したりするのに役立っています。現在の推論時間は数秒から数十秒だが、OpenAIの今後の開発は、この推論時間を減らすのではなく、増やすことに重点を置き、数時間、数日、あるいは数週間の推論が可能な将来のバージョンを目指している。このためコストは増加するが、医療などの分野で画期的な進歩を遂げる可能性があるため、その投資は正当化される。AIの能力は、単純なチャットボットをはるかに超える。

注意:ChatGPTでo1の内部推論をクエリするのは避けましょう。

o1のローンチ後、その内部推論プロセスにアクセスしようとしたために、多くのユーザーが警告を受け、さらには一時的なアクセス禁止を受けたと報告した。これはかなりの反発を呼んだ。

ユーザーは、プロンプトに「推論トレース」や「思考の連鎖を示す」といったキーワードを含めるだけで、警告を誘発した。別の表現でモデルの推論を引き出そうとする間接的な試みも検出され、ペナルティが課せられました。これらのユーザーは、o1の完全な内部思考プロセス、つまり生の推論tokenを抽出することを目的としており、現在ChatGPTインターフェース(拡張ボタンからアクセス可能)に要約されています。

OpenAIが制限されている理由は、将来的なモデルのトレーニングデータとしてo1の推論プロセスの価値が高いからだと思われる。この貴重な知的財産を競合他社から守ることが、重要な動機となっている。

o1モデルを使用する際の主な考慮事項

高コスト: o1モデルの使用は高価で、100万出力のtokenは$60である。

隠れたコスト: この費用には、目に見えない推論tokenが含まれており、全体の費用を上乗せしている。

費用対効果の高いアプローチ: ほとんどのタスクでは、GPT-4の方が経済的な出発点である。GPT-4の能力が不十分な場合のみo1を使用する。

今後の方向性

OpenAIがo1シリーズを発表したことは、AIの開発における極めて重要な瞬間である。ある分野では人間の専門家をも凌駕する優れた推論能力を持つこのモデルは、これまでのGPTモデルを大きく進化させた。

しかし、o1モデルに限界がないわけではない。その高いコストは、目に見えない推論tokenに関連する隠れたコストと相まって、その使用に対する戦略的なアプローチを必要とする。さらに、モデルの完全な推論プロセスへのアクセスに対するOpenAIの制限は、知的財産の保護とイノベーションのバランスを取る上での継続的な課題を浮き彫りにしている。o1の将来的な可能性は計り知れず、推論にかかる時間は数時間から数週間に及ぶと予測されていますが、現在の開発段階では、その可能性を完全に引き出すために、開発者コミュニティによる慎重な検討とさらなる探求が必要です。真に高度なAI推論への旅は始まっており、o1はその道筋に沿った重要な一歩である。

OpenAIのo1シリーズの可能性を探ることに興味がおありですか?OpenAIのo1シリーズの可能性をご検討ください。詳細はCloudswayまでお問い合わせください。

 

AIクラウドのエキスパートと連絡を取る!

お問い合わせ

あなたのAIの旅はここから始まる。
フォームに必要事項をご記入ください。