AI Daily｜Google veröffentlicht Astra, um GPT-4o entgegenzuwirken, Byte veröffentlicht 9 selbst entwickelte große Modelle, Tencent Hunyuan Open Source Wenshengtu großes Modell ...

Das Open-Source-Community-Team China machte seine erste Live-Übertragung und erzählte im Namen des Teilens die Geschichte hinter der Open-Source-Community China.“

Artikelempfehlungen

GPT-4o wurde veröffentlicht und von Benutzern sofort überprüft. Gibt es Übertreibungen in OpenAI?

OpenAI-Live-Übertragungs-Countdown, GPT-5 wird als abwesend bestätigt, GPT-3,5 bis 5, verstehen Sie den großen Unterschied in der KI-Entwicklung in einem Artikel!

Aktuelle Themen in dieser Ausgabe

Google hält I/O 2024 ab: Project Astra wird veröffentlicht, um GPT-4o entgegenzuwirken, Modelle der Gemini-Serie werden aktualisiert

Mitbegründer und KI-Pionier Ilya Sutskever verlässt OpenAI

USA und China führen KI-Sicherheitsgespräche, um „Fehlkalkulationen und zufällige Konflikte“ zu verhindern

ByteDance bringt offiziell selbst entwickelte Sitzsack-Großmodellserie auf den Markt, „99,3 % günstiger als die Branche“

Upgrade auf Benchmark Sora, Tencent Hunyuan Open-Source-Wensheng-Graph-Großmodell

...

Google I/O 2024: Project Astra wird veröffentlicht, um GPT-4o entgegenzuwirken, Modelle der Gemini-Serie werden aktualisiert

Auf der Google I/O 2024-Konferenz teilte Google mit, wie man KI nutzen kann, um nützlichere Produkte und Funktionen zu entwickeln. Die Konferenz umfasste die folgenden Sharing-Inhalte:

Modellaktualisierungen der Gemini-Serie:

Gemini 1.5 Pro-Upgrade: Erweitert das Kontextfenster auf 2 Millionen Token und verbessert außerdem die Codegenerierung, das logische Denken und Planen, den Multi-Turn-Dialog sowie das Audio- und Bildverständnis durch Fortschritte bei Daten und Algorithmen. Gemini 1.5 Pro ist ein Upgrade, das immer komplexeren und detaillierteren Anweisungen folgen kann, einschließlich der Festlegung von Verhaltensanweisungen in Bezug auf Rollen, Formate und Stile.

Gemini 1.5 Flash veröffentlicht: 1.5 Flash ist das neueste Mitglied der Gemini-Modellfamilie und das schnellste Gemini-Modell in der API. Es ist für große, hochvolumige und hochfrequente Aufgaben optimiert und der Service ist kostengünstiger.

Gemini Advanced: Mit der Einführung von Gemini 1.5 Pro können Sie mehrere große Dokumente bearbeiten und komplexe Pläne erstellen. Gemini Live wird für Gemini Advanced-Abonnenten eingeführt, um eine bessere Sprachinteraktion zu erreichen.

Veröffentlichung von Project Astra, einem KI-Assistenten mit visuellem Gedächtnis:

Es kann Text, Video und Audio in Echtzeit verarbeiten, Fragen zueinander beantworten und interpretieren oder kreativen Output generieren und Diagramme oder Programmcode auf einem Whiteboard erkennen und interpretieren.

Im Vergleich zu Sora wird das Videogenerationsmodell Veo eingeführt:

Veo kann über eine Minute hochwertiges Video mit 1080p-Auflösung in verschiedenen filmischen und visuellen Stilen erzeugen. Und die Nuancen und der Ton eines Hinweises können präzise erfasst werden, was ein beispielloses Maß an kreativer Kontrolle ermöglicht – das Verstehen von Hinweisen für eine Vielzahl von Filmeffekten, wie zum Beispiel Zeitraffer oder Luftaufnahmen von Landschaften.

Google Search AI veröffentlicht AI-Übersichten:

Basierend auf den mehrstufigen Argumentationsfunktionen angepasster Gemini-Modelle werden AI Overviews dabei helfen, immer komplexere Probleme zu lösen. Anstatt Ihre Frage in mehrere Suchanfragen aufzuteilen, können Sie die komplexesten Fragen auf einmal stellen, mit allen Nuancen und Vorbehalten, die Ihnen einfallen.

Gemma-Familie hat neue Mitglieder hinzugefügt:

PaliGemma, das erste offene Modell für visuelle Sprache, ist für Bildunterschriften, visuelle Fragenbeantwortung und andere Bildbeschriftungsaufgaben optimiert.

Gemma2, das offene Modell der nächsten Generation, das im Juni dieses Jahres erscheinen soll, übertrifft einige Modelle um mehr als das Doppelte seiner Größe und kann effizient auf einer GPU oder einem einzelnen TPU-Host in Vertex AI laufen.

Erfahren Sie mehr:

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

Mitbegründer und KI-Pionier Ilya Sutskever verlässt OpenAI

Ilya Sutskever, Mitbegründerin von OpenAI und Mitautorin des bahnbrechenden AlexNet-Artikels, verlässt das Unternehmen nach fast zehn Jahren, um ein neues Projekt von „persönlicher Bedeutung“ für sie zu verfolgen. Jakub Pachocki wird die Forschungsleitung übernehmen. Jakub arbeitet seit mehr als sieben Jahren bei OpenAI und wird von CEO Sam Altman als einer der brillantesten Denker seiner Generation bezeichnet. Laut Sam leitet er die meisten Großprojekte des Unternehmens. Im November 2022 beteiligte sich Ilya an der vorübergehenden Absetzung von CEO Sam Altman, der wegen erzwungener Kommerzialisierung und damit verbundener Sicherheitsrisiken in der Kritik stand. Eine Untersuchung ergab jedoch, dass die Entlassung ungerechtfertigt war. Ilya entschuldigte sich, half Altman wieder einzusetzen und verließ dann den Vorstand. Stunden nach Ilyas Rücktritt kündigte auch der KI-Sicherheitsforscher Jan Leike seinen Rücktritt an. Leike und Ilya leiteten gemeinsam das von OpenAI im Sommer 2023 gegründete Superalignment-Team mit dem Ziel, die Superintelligenz schrittweise iterativ auszurichten und einen automatisierten Alignment-Forscher mit menschlichen Fähigkeiten zu schaffen.

Erfahren Sie mehr:

https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

ByteDance bringt offiziell selbst entwickelte Sitzsack-Großmodellserie auf den Markt, „99,3 % günstiger als die Branche“

Auf der heute stattfindenden Spring Volcano Engine FORCE Motive Power Conference 2024 stellte ByteDance seine selbst entwickelte „Bean Bag Large Model“-Serie vor. Diese große Modellfamilie umfasst die allgemeinen Sitzsackmodelle Pro und Liti sowie das Sitzsack-Rollenspielmodell, das Sitzsack-Sprachsynthesemodell, das Sitzsack-Tonwiedergabemodell, das Sitzsack-Spracherkennungsmodell, der Sitzsack·Vensen-Diagrammmodell, der Sitzsack·Funktionsaufruf Die neun Hauptmodelle, einschließlich des Modells, demonstrieren umfassend die tiefgreifenden Akkumulations- und Innovationsfähigkeiten von ByteDance im Bereich der künstlichen Intelligenz. „Nur bei großer Nutzung können wir ein gutes Modell aufpolieren und die Stückkosten der Modellinferenz erheblich senken. Der Preis für Doubaos Hauptmodell auf dem Unternehmensmarkt beträgt nur 0,0008 Yuan/Tausend Token, und 0,8 % können mehr als 1.500 chinesische Schriftzeichen verarbeiten.“ Das ist 99,3 % günstiger als die Branche.“ Tan Dai sagte, dass die Umstellung von der Preisgestaltung in Cent auf Cent den Unternehmen dabei helfen werde, Geschäftsinnovationen zu geringeren Kosten zu beschleunigen.

Erfahren Sie mehr:

https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

Upgrade auf Benchmark Sora, Tencent Hunyuan Open-Source-Wensheng-Graph-Großmodell

Tencent gab bekannt, dass sein Hunyuan Wensheng-Grafikmodell aktualisiert und als Open-Source-Version bereitgestellt wurde. Es enthält vollständige Modelle wie Modellgewichte, Inferenzcode und Modellalgorithmen und steht Unternehmen zur kostenlosen kommerziellen Nutzung zur Verfügung und einzelne Entwickler. Das aktualisierte große Modell von Hunyuan Wenshengtu übernimmt die gleiche DiT-Architektur wie Sora. Tencent sagte, dass Hunyuan DiT die erste zweisprachige DiT-Architektur in Chinesisch und Englisch sei. Hunyuan DiT ist ein Text-zu-Bild-Generierungsmodell, das auf dem Diffusionstransformator basiert. Dieses Modell verfügt über feinkörnige Verständnisfunktionen in Chinesisch und Englisch. Hunyuan DiT kann mehrere Dialogrunden mit Benutzern durchführen, um Bilder basierend auf dem Kontext zu generieren. Dies ist auch das branchenweit erste Vincentian-Graph-Open-Source-Modell mit chinesisch-nativer DiT-Architektur, das die zweisprachige Eingabe und das Verständnis von Chinesisch und Englisch mit 1,5 Milliarden Parametern unterstützt.

Erfahren Sie mehr:

https://www.ithome.com/0/767/876.htm

Wenn ein Verstoß vorliegt, kontaktieren Sie uns bitte, um ihn zu löschen.

„Trusted AI Progress“ Der offizielle Account widmet sich der Verbreitung der neuesten vertrauenswürdigen künstlichen Intelligenztechnologie und der Kultivierung von Open-Source-Technologie und deckt groß angelegtes Graphenlernen, kausales Denken, Wissensgraphen, große Modelle und andere technische Bereiche ab Scannen Sie den QR-Code, um weitere KI-Informationen zu verfolgen und freizuschalten