記事の推奨事項
GPT-4o がリリースされ、すぐにユーザーがレビューしました。OpenAI には誇張はありますか?
OpenAIライブブロードキャストカウントダウン、GPT-5不在が確認、GPT-3.5から5へ、AI進化の大きな違いが1つの記事でわかる!
この号の注目のトピック
Google が I/O 2024 を開催: GPT-4o に対抗するために Project Astra がリリース、Gemini シリーズのモデルが更新
共同創設者であり AI の先駆者である Ilya Sutskever 氏が OpenAI を退職
米中、「誤算と偶発的な衝突」を防ぐためAI安全保障協議を開催へ
ByteDance、自社開発のビーンバッグ大型モデルシリーズを正式発売、「業界より99.3%安い」
ベンチマークの Sora、Tencent Hunyuan オープンソースの Wensheng グラフ大規模モデルにアップグレード
...
Google I/O 2024: GPT-4o に対抗するために Project Astra がリリースされ、Gemini シリーズのモデルが更新されました
Google I/O 2024 カンファレンスで、Google は AI を使用してより便利な製品や機能を構築する方法を共有しました。このカンファレンスには次のような共有コンテンツが含まれていました。
- Gemini シリーズ モデルのアップデート:
Gemini 1.5 Pro アップグレード: コンテキスト ウィンドウを 200 万トークンに拡張し、データとアルゴリズムの進歩によりコード生成、論理的推論と計画、マルチターン ダイアログ、および音声と画像の理解も強化します。 Gemini 1.5 Pro は、役割、形式、スタイルに関する動作指示の指定など、ますます複雑かつ詳細な指示に従うことができるアップグレードです。
Gemini 1.5 Flash がリリースされました: 1.5 Flash は、Gemini モデル ファミリの最新メンバーであり、API で最速の Gemini モデルです。大規模、大量、高頻度のタスク向けに最適化されており、サービスのコスト効率が高くなります。
Gemini Advanced: Gemini 1.5 Pro の導入により、複数の大きなドキュメントを処理し、複雑な計画を立てることができます。また、より優れた言語インタラクションを実現するために、Gemini Advanced サブスクライバー向けに Gemini Live が開始されます。
- 視覚記憶を備えた AI アシスタント、Project Astra のリリース:
テキスト、ビデオ、オーディオをリアルタイムで処理し、相互の質問に答えて解釈したり、クリエイティブな出力を生成したり、ホワイトボード上の図やプログラム コードを認識して解釈したりできます。
- Sora と比較して、ビデオ生成モデル Veo が発売されました。
Veo は、さまざまな映画スタイルや視覚スタイルで 1 分を超える高品質の 1080p 解像度のビデオを生成できます。また、キューのニュアンスやトーンを正確に捉えることができるため、前例のないレベルのクリエイティブな制御が可能になり、タイムラプスや風景の空撮など、さまざまな映画効果のキューを理解することができます。
- Google Search AI が AI の概要をリリース:
カスタマイズされた Gemini モデルの複数ステップの推論機能に基づいて、AI 概要はますます複雑化する問題の解決に役立ちます。質問を複数の検索に分割する代わりに、思いついたすべてのニュアンスや注意点を含めて、最も複雑な質問を一度に行うことができます。
- Gemma ファミリーに新しいメンバーが追加されました。
PaliGemma は、視覚言語用の最初のオープン モデルであり、画像キャプション、視覚的な質問応答、その他の画像ラベル付けタスク用に最適化されています。
今年 6 月にリリース予定の次世代オープン モデルである Gemma2 は、一部のモデルよりもサイズが 2 倍以上優れており、Vertex AI の GPU または単一の TPU ホスト上で効率的に実行できます。
もっと詳しく知る:
https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/
共同創設者であり AI の先駆者である Ilya Sutskever 氏が OpenAI を退職
OpenAIの共同創設者であり、独創的なAlexNet論文の共著者であるIlya Sutskever氏は、彼女にとって「個人的に重要な」新しいプロジェクトを追求するため、約10年間勤務した同社を退職する。 Jakub Pachocki がリサーチディレクターに就任します。Jakub は OpenAI で 7 年以上働いており、CEO の Sam Altman は同世代で最も優れた思想家の 1 人と評しています。サム氏によると、彼は会社の主要プロジェクトのほとんどを指揮しています。 2022年11月、イリヤは強制的な商業化とそれに関連するセキュリティリスクで批判されていたCEOサム・アルトマンの一時解任に参加した。しかし、調査の結果、解雇は不当であることが判明した。イリヤは謝罪し、アルトマンの復職に協力し、その後取締役会を去った。イリヤ氏の辞任から数時間後、AIセキュリティ研究者のジャン・ライク氏も辞任を発表した。ライケとイリヤは、2023 年の夏に OpenAI によって設立されたスーパーアライメント チームを共同で率いました。その目標は、超知能を段階的に反復的に調整し、人間の能力を備えた自動アライメント研究者を作成することです。
もっと詳しく知る:
https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/
ByteDance、自社開発のビーンバッグ大型モデルシリーズを正式発売、「業界より99.3%安い」
本日開催された2024 Spring Volcano Engine FORCE Motive Power Conferenceにおいて、ByteDanceは自社開発の「Bean Bag Large Model」シリーズを発表しました。この大規模なモデル ファミリには、ビーン バッグの一般モデル Pro および liti に加え、ビーン バッグ ロールプレイング モデル、ビーン バッグ 音声合成モデル、ビーン バッグ サウンド再生モデル、ビーン バッグ 音声認識モデル、ビーンバッグ・ベンゼン図モデル、ビーンバッグ・関数呼び出しモデルを含む9つの主要なモデルは、人工知能分野におけるByteDanceの深い蓄積と革新能力を包括的に示しています。 「大規模な使用によってのみ、優れたモデルを磨き、モデル推論の単価を大幅に削減できます。エンタープライズ市場における Doubao の主要モデルの価格はわずか 0.0008 元/千トークンで、0.8% は 1,500 以上の漢字を処理できます。これは業界の 99.3% よりも安いです。」タン ダイ氏は、価格設定をセント単位からセント単位に移行することで、企業が低コストでビジネス イノベーションを加速できるようになると述べました。
もっと詳しく知る:
https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw
ベンチマークの Sora、Tencent Hunyuan オープンソースの Wensheng グラフ大規模モデルにアップグレード
Tencent は、Hunyuan Wensheng グラフ モデルがアップグレードされ、オープンソース化されたことを発表しました。これには、モデルの重み、推論コード、モデル アルゴリズムなどの完全なモデルが含まれており、企業は無料で商用利用できます。そして個人の開発者。アップグレードされたHunyuan Wenshengtu大型モデルはSoraと同じDiTアーキテクチャを採用しており、Tencentによると、Hunyuan DiTは中国語と英語の初のバイリンガルDiTアーキテクチャであるという。 Hunyuan DiT は、拡散トランスフォーマーに基づいたテキストから画像への生成モデルです。このモデルは、中国語と英語でのきめ細かい理解機能を備えており、ユーザーと複数回の対話を行って、コンテキストに基づいて画像を生成および改善できます。これは業界初の中国ネイティブの DiT アーキテクチャ ヴィンセント グラフ オープン ソース モデルでもあり、15 億のパラメーターを備えた中国語と英語のバイリンガル入力と理解をサポートします。
もっと詳しく知る:
https://www.ithome.com/0/767/876.htm
侵害がある場合は、削除するためにご連絡ください。
「信頼できるAIの進歩」公式アカウントは、大規模なグラフ学習、因果推論、ナレッジグラフ、大規模モデル、その他の技術分野をカバーする、最新の信頼できる人工知能技術の普及とオープンソース技術の育成に専念しています。 QRコードをスキャンしてフォローし、より多くのAI情報をロック解除してください~