2023.11.07 OpenAIリリース内容について - でーたさいえんすって何それ食えるの？

完全自分用の備忘メモ

GPTモデルの改善で、GPT-4, GPT-3.5が高機能化

GPT-4 Turbeがリリース
- コンテクストに使えるトークン数が128Kに増加
- 学習は2023年4月までのデータとなる
- Function Callのアップデート
  - 1つのメッセージから複数のファンクションコールができるようになった
  - ファンクションコールの精度が向上した
- インストラクションの改善とJSONモードの追加
  - XMLやJSONフォーマットで出力せよ、といったリクエストにより正しく対応できるようになった
  - 特にJSONフォーマットでのレスポンスでは、有効なJSONかバリデーションされるように改善した
  - 加えて、APIパラメータにresponse_formatが追加され、有効なJSONで出力されるようコントロールすることも可能となる
- 再現性の向上
  - seedパラメータにより、モデルの回答が固定できるようになる（OpenAIが内部的に利用していたものを開放した状態となる）
GPT-4 Turboに画像対応版のモデルが追加
- 1080x1080pxの画像まで取り扱いが可能
GPT-4のファインチューニング・カスタムモデル作成
- GPT-3.5と同様に、GPT-4でもファインチューニングが可能になる（ただし、実験的）
- 特に大規模な内部データを活用するような一定規模以上の企業での利用を想定し、カスタムモデルプログラムを提供
GPT-3.5 Turboのアップデート
- コンテクスト数は16K
- JSONモードやFunction CallのアップデートはGPT-3.5 turboでも適用

新機能のリリース：Assistants API, Retrieval, Code Interpreterのリリース

Assistants API, Retrieval, Code Interpreterのリリース
- Assistants API：アシスタントAIを構築するためのAPI
  - 会話のスレッド管理を開発者側が面倒見る必要がなくなり、Assistants APIの機能で対応が可能
  - GPT-4 Turboで追加された機能に加えてRetrieval、Code Interpreterの機能も内包されている
  - Retrieval：GPTへ独自データを持ち込むための仕組み。この機能によって、ドキュメントのエンベッディングの面倒を見る必要はなくなる。
  - Code Interpreter：サンドボックス環境でPythonコードが実行できるようになる
Text-to-speech機能のリリース
DALL-E 3のリリース

既存APIに関連し、Whisper V3, Consistency Decoderのリリース

Whisper V3
- large-v3のモデルを公開しており、近いうちにWhisperのAPIで提供できるようにする
Consistency Decoder
- 生成モデルで利用するStable Diffusion VAEデコーダーの進化版
Consistency Decoderにより、今まで生成が不自然だった顔、直線や文字がより自然な見た目になる

価格・Rate limitの変更

従前のモデル利用料の1/2〜1/3程度に価格圧縮
Rate Limitは緩和

Copyrightシールドの提供

著作権侵害に関する法的請求に対応。発生した費用をOpenAIが支払いを行う

出典

https://openai.com/blog/new-models-and-developer-products-announced-at-devday