Développement de la technologie audio et vidéo hebdomadaire | 292

Une fois par semaine, un tour d'horizon de la mercerie dans le domaine de la technologie audio et vidéo.

Contribution aux actualités : [email protected].

bcfc2e236e2287d3d12555758f1284ac.png

Google fusionne l'équipe de puces AI dans la division de cloud computing pour rattraper Microsoft et Amazon

ChatGPT lancé par OpenAI a remporté un certain succès. Microsoft est un investisseur important d'OpenAI. Il implantera ChatGPT dans la recherche Bing, menaçant le statut de la recherche Google. Google intégrera ses deux laboratoires de recherche et développement sur l'IA, DeepMind et Google Brain, pour renforcer la force du département IA de l'entreprise.

Quelques lignes de code, GPT-3 devient ChatGPT ! Disciple de Ng Enda et PDG chinois, sortie choquante du moteur Lamini

Selon l'équipe de développement de Lamini, il vous suffit de quelques lignes de code pour former votre propre LLM avec un générateur de données géré, y compris les poids et tout le reste. De plus, vous pouvez également utiliser le LLM open source pour affiner les données générées avec la bibliothèque Lamini. Et l'accès à des modules de formation LLM complets, utilisant tout, des optimisations de vitesse comme LoRa, aux fonctionnalités d'entreprise comme le déploiement de Virtual Private Cloud (VPC). 

"AI Godfather" 4D Interview Record: La direction de la voile AI cache un énorme iceberg

Connu comme le "parrain de l'apprentissage en profondeur", Geoffrey Hinton est l'un des fondateurs de la technologie des réseaux de neurones profonds et a apporté d'importantes contributions au développement de l'intelligence artificielle. Il a remporté la plus haute distinction dans le domaine informatique, le "Prix Turing". . Dans une interview début mars 2023, Geoffrey Hinton a donné une interprétation détaillée du développement de l'IA, expliquant pleinement ses vues et ses préoccupations concernant les grands modèles de langage.

L'IA de stabilité a lancé deux bombes d'affilée : le premier modèle RLHF open source, la sortie d'image DeepFloyd IF au niveau des pixels

Une ancre Youtube a testé Stable Vicuna, et Stable Vicuna a battu l'ancien roi Vicuna à chaque test.

ICLR 2023 | IA responsable, pensée avancée pour protéger l'apprentissage automatique

Trois travaux de recherche vont dans le sens d'une intelligence artificielle responsable : respectivement l'élargissement des limites de l'efficacité différentielle de l'apprentissage en profondeur de la confidentialité, la recherche sur l'interprétabilité des graphes de séquences et la sécurité des modèles de langage pré-entraînés dans la génération de texte.

Dans l'ère post-GPT, la multimodalité est la plus grande opportunité

Wu Enda s'est associé à OpenAI pour lancer un cours gratuit : une heure et demie pour apprendre le projet ChatGPT Prompt

https://www.deeplearning.ai/short-courses/chatgpt-prompt-engineering-for-developers/ 

L'Institut de traitement du langage naturel de l'Institut de technologie de Harbin a publié le "Rapport de recherche ChatGPT"

Le 6 mars 2023, des enseignants et des étudiants de l'Institut de traitement du langage naturel de l'Institut de technologie de Harbin ont rédigé conjointement le "Rapport de recherche ChatGPT", qui a systématiquement introduit la technologie "grand modèle". Le 4 mai, l'Institut a décidé de rendre le rapport public, afin d'écouter les avis des pairs, et de continuer à mettre à jour le rapport avec le développement de la technologie "grand modèle".

27b1a4a770037598be34a220ce7147aa.png

Glean : un produit d'entrée de gamme dans l'entreprise à l'ère des gros modèles, le "collègue IA" qui connaît le mieux les salariés

Glean est une plate-forme de recherche d'entreprise et de gestion des connaissances, car elle utilise pleinement ses données d'entreprise accumulées et adopte activement LLM. Glean est connecté à plus de 100 applications SaaS, les utilisateurs peuvent rechercher des données d'entreprise dans les applications et générer des réponses et des résultats personnalisés pour différents utilisateurs. Si ChatGPT est une nouvelle entrée sur Internet, Glean devrait devenir un produit d'entrée de gamme pour les scénarios d'entreprise, la première interface pour toutes les applications SaaS et l'assistant IA pour tous les employés.

Apportez des marchandises en direct avec ChatGPT ! Firework a lancé le premier GPT de shopping en direct au monde

Firework, une plate-forme de services de technologie vidéo, a annoncé le lancement du premier produit d'IA générative de type ChatGPT pour les services de vidéo en direct afin d'aider les diffuseurs à améliorer les taux de conversion commerciale et l'expérience client. Il est rapporté que The Fresh Market, une chaîne de supermarchés américaine bien connue, sera le premier groupe d'utilisateurs de ce produit, l'utilisant pour la diffusion vidéo en direct et les ventes en ligne.

Exposition privilégiée de l'équipe Siri d'Apple : luttes, luttes, réorganisation

Lorsque les produits AIGC explosent, Apple, qui est situé dans un coin de la Californie, semble être un monde qui n'est pas perturbé par l'IA.

La nouvelle recherche graphique de NVIDIA fait passer l'IA générative dans une nouvelle phase

Nvidia publiera une vingtaine d'articles de recherche au SIGGRAPH (la plus importante conférence annuelle sur l'infographie).Les recherches futures devront intégrer des connaissances et des technologies interdisciplinaires pour promouvoir le développement de l'IA générative et explorer de nouvelles frontières.

https://blogs.nvidia.com/blog/2023/05/02/graphics-research-advances-generative-ai-next-frontier/

Le jury spécial de la station 2023LiveVideoStackCon Shanghai recrute

Si vous avez 1 à 3 ans d'expérience de travail/recherche dans ce domaine professionnel et que vous êtes intéressé par les échanges techniques, vous pouvez postuler pour le jury de cette station de Shanghai et cliquer sur le titre ou le lien texte pour participer à l'enregistrement.

9fea753269ca0e64f319d999fa451eb6.png

Résumé du contenu mis à jour de la dernière version 1.2.0 du décodeur Dav1d

Les utilisateurs peuvent bénéficier d'une expérience de décodage AV1 plus efficace et stable ; les développeurs peuvent utiliser le code open source de Dav1d pour le développement secondaire et l'amélioration.

https://jbkempf.com/blog/2023/dav1d-1.2.0/

Appel vidéo amélioré avec un encodeur AV1 plus rapide

Cet article décrit les nouvelles fonctionnalités et les avantages du codec AV1 dans le navigateur Chrome, des informations utiles pour les utilisateurs et les développeurs soucieux de l'expérience vidéo sur le Web.

https://developer.chrome.com/blog/av1/

OBS Studio 29.1 est officiellement sorti aujourd'hui après 5 bêtas, il prend en charge le streaming AV1 et HEVC RTMP

L'encodage vidéo AV1 accéléré par GPU est désormais largement pris en charge par tous les principaux fournisseurs, l'encodage AV1 basé sur le processeur continue d'améliorer les performances et OBS Studio 29.1 ajoute la prise en charge du streaming AV1 et HEVC sur YouTube via RTMP. Enhanced RTMP v1 étend le protocole RTMP pour prendre en charge les nouveaux codecs AV1 et HEVC/H.265, et prend en charge le HDR dans le protocole, mais le HDR n'est pas encore pris en charge dans le cadre des nouvelles fonctionnalités d'OBS Studio. Cette intégration YouTube pour le streaming AV1/HEVC est également actuellement considérée comme une version bêta. C'est bien mieux que le H.264 pour le streaming !

https://github.com/obsproject/obs-studio/releases/tag/29.1.0

cf8a05dfb76affdfe902036223257b6e.png

La création AI 3D arrive? « Décrocher un emploi » est devenu réalité

L'IA générative ne peut être transformée en modèle 3D qu'en s'appuyant sur une image ou en saisissant des mots clés.Cette création étonnante a rapidement donné lieu à une série d'imaginations dans ce domaine : La création IA 3D arrive-t-elle vraiment ? Le travail des créateurs de contenu est-il toujours stable ? Ce qui précède analysera deux maillons importants de la production de contenu VR : la modélisation et le rendu.

2acecf2556a541e60fdae8c5ca26fc91.png

Le secret de la technologie de génération de cartes de haute précision

À l'heure actuelle, les universités et l'industrie (en particulier les entreprises de conduite autonome) ont commencé à étudier la génération de cartes HD. Il existe également des ensembles de données universitaires publiques et de nombreux travaux universitaires. En outre, diverses entreprises de conduite autonome partagent également publiquement des solutions techniques sur AIDAY . À partir de ces informations publiques, certaines tendances de l'industrie ont également été observées, telles que la cartographie en ligne, la perception BEV d'image, la fusion point-carte et la modélisation de la topologie vectorielle des voies. Cet article interprétera les travaux académiques pertinents et les solutions techniques des entreprises de conduite autonome, ainsi que quelques réflexions personnelles.

Les deux balles sont-elles de la même couleur ? Non, je n'y crois pas !

Ajouter un contrôle conditionnel pour les modèles de diffusion texte-image

Cet article propose une structure de réseau de neurones ControlNet, qui est utilisée pour contrôler le modèle de diffusion à grande échelle pré-formé et lui faire prendre en charge des conditions d'entrée supplémentaires. De plus, la formation de ControlNet est aussi rapide que le réglage fin d'un modèle de diffusion, et les modèles peuvent être formés sur des appareils personnels. Avec un cluster informatique puissant, le modèle peut évoluer vers de grandes quantités de données. De plus, les grands modèles de diffusion tels que la diffusion stable peuvent être améliorés avec ControlNet pour permettre des entrées conditionnelles telles que des cartes de bord, des cartes de segmentation et des points clés.

cf53a273ea05122c9687447489e761b2.png

Dix tendances de la technologie numérique mondiale, comparaison de la force de la recherche scientifique et de la répartition des talents

Ali Research Institute et Zhipu AI ont publié conjointement le "Rapport de recherche sur le développement de la technologie numérique mondiale 2023". Basé sur les données de la plateforme d'intelligence scientifique et technologique AMiner, le rapport utilise des méthodes bibliométriques pour dresser un "portrait" des frontières de la recherche sur les technologies numériques, révélant le degré d'activité d'innovation, et résume les dix principales tendances de la technologie numérique mondiale en 2023 sur la base de méthodes d'analyse systématiques et objectives.

63e220011751ecbd4852a22e697342e1.png

Seule cette application sociale populaire ne peut pas être reproduite en Chine, pourquoi ?

Discord est peut-être une application au niveau de la plate-forme Internet 2C très rare qui a dépassé des dizaines de milliards de dollars aux États-Unis mais n'a pas d'imitateurs en Chine. Les raisons sous-jacentes impliquent divers facteurs tels que le bon moment, le lieu et les personnes, y compris les changements dans les tendances Internet, les différences écologiques dans l'industrie du jeu au pays et à l'étranger, les différences sur le marché des logiciels sociaux, etc.

La technologie QoS des communications audio et vidéo et son évolution

Cet article présente le concept et la classification de QoS dans une perspective plus macro et plus large, et résume brièvement le processus d'évolution des technologies courantes dans le domaine de la QoS de communication audio et vidéo à l'architecture. Avec l'émergence continue de nouveaux scénarios de communication audio et vidéo, le temps réel et la haute définition deviennent de plus en plus importants, et les technologies associées iront également dans cette direction. Dans le même temps, les applications technologiques liées à la qualité de service basées sur l'analyse de données volumineuses pénétrera progressivement.

La pratique de la technologie de reconnaissance vocale en continu à faible latence dans les scénarios d'interaction vocale homme-machine

Le département d'interaction vocale de Meituan a proposé une nouvelle solution de reconnaissance vocale en continu à faible délai de sortie pour les exigences de reconnaissance vocale à faible latence dans les scénarios interactifs. Cette méthode convertit le problème de réduction du délai en un processus de distillation des connaissances, ce qui simplifie grandement la difficulté d'optimisation du délai, et utilise uniquement une fonction de perte de terme de régularisation pour réduire automatiquement le délai de sortie de mot du modèle pendant le processus de formation.

b3887b94befcce002e82a2591b9dc11f.png

Une nouvelle technologie transforme les caméras des téléphones en microscopes haute résolution

Des chercheurs de Singapour ont mis au point la plus petite LED (diode électroluminescente) au monde capable de convertir les caméras de téléphone portable existantes en microscopes à haute résolution. La nouvelle LED, qui est plus petite que la longueur d'onde de la lumière, est utilisée pour créer le plus petit microscope holographique au monde, ouvrant la voie aux caméras existantes dans les appareils de tous les jours comme les téléphones portables à convertir en microscopes simplement en modifiant les puces de silicium et les logiciels.

Livraison rapide de matériaux à effet dynamique : la technologie des composants à effet dynamique PAG de Tencent révèle

Afin de réduire ou d'éliminer les coûts de R&D liés à l'animation, Tencent a développé un ensemble de solutions de flux de travail d'animation PAG dans les 5 ans, qui peuvent exporter le contenu d'animation AE et l'appliquer à presque toutes les plates-formes grand public en un seul clic. LiveVideoStackCon 2022 Beijing Station a invité Chen Renjian, directeur adjoint du Tencent Media Assets Product Center, à partager systématiquement avec vous les détails des défis techniques et de l'expérience pratique rencontrés par PAG en raison de la demande de produits.

Résumé des outils de flux audio et vidéo

L'auteur a partagé 7 outils d'analyse audio et vidéo qui sont souvent utilisés dans le processus de développement habituel, qui peuvent être collectés.

Technologie d'animation légère TVA

Vertex Animation Texture VAT, comme son nom l'indique, est une technologie permettant de transformer l'animation en textures, qui peut utiliser pleinement les formats d'image pour stocker les données nécessaires à l'animation en parallèle.

Big Taobao Technology a remporté le titre de champion du concours d'évaluation de la qualité vidéo NTIRE 2023

Récemment, les résultats du concours CVPR NTIRE 2023 ont été annoncés.Les étudiants de l'équipe de technologie audio et vidéo de Taobao ont formé l'équipe "TB-VQA", qui s'est démarquée de 37 équipes et a remporté le championnat de la compétition (la seule piste) . Big Taobao a partagé son plan gagnant.

0796525172ea5965e14c172fd7fcf9de.png

Dewu diffuse en direct une exploration à faible latence

Le problème de délai de diffusion en direct implique de nombreux facteurs, notamment les paramètres de tampon, les protocoles de transmission et le contrôle GOP à la fin de la diffusion et de la lecture. Afin de résoudre le problème de retard, dans le développement réel, afin d'obtenir une meilleure expérience utilisateur, nous devons considérer et optimiser ces facteurs de manière globale, et trouver la meilleure solution dans la pratique et les expériences continues.Grâce à l'utilisation complète de ces solutions techniques , nous pouvons améliorer Améliorer les performances en temps réel et l'expérience de visionnage de la plate-forme de diffusion en direct.

6ddd3a882c211eab45cd4c52edd33de3.jpeg

L'équipe Google AI développe ISOR pour améliorer la mobilité des robots dans les environnements extérieurs en collectant des données dans les environnements intérieurs

Cet article détaille le fonctionnement de la méthode ISOR, en utilisant un simulateur intérieur et un estimateur de position basé sur la vision pour capturer les données de mouvement du robot dans des environnements intérieurs et extérieurs. Enfin, les auteurs fournissent quelques exemples pratiques montrant l'application de la méthode ISOR dans des domaines tels que la navigation de robots et la reconnaissance d'objets.

https://ai.googleblog.com/2023/05/indoorsim-to-outdoorreal-learning-to.html

Github 3k+ ! SUSTech VIP Lab a récemment ouvert Track-Anything | SAM + VOS : annotation vidéo en un clic

Cet article présente principalement un nouveau modèle d'algorithme de vision par ordinateur Track Anything Model, TAM. La conception du modèle s'inspire du modèle Segment Anything Model, SAM, qui a fait l'objet d'une grande attention. SAM est un modèle qui fonctionne bien dans la segmentation d'images. Cependant, les performances de segmentation de SAM en vidéo sont généralement médiocres. Par conséquent, cet article propose un nouveau modèle TAM basé sur une conception interactive, visant un suivi et une segmentation interactifs de haute performance dans les vidéos.

6f8490adeb4380c3369fcf6f2bcc8b2e.png

Comment déployer le WAF de nouvelle génération de Fastly en dix minutes

L'article décrit comment déployer le pare-feu d'application Web (WAF) de nouvelle génération de Fastly en moins de 10 minutes. L'auteur fournit un guide étape par étape simple et facile à comprendre pour aider les lecteurs à déployer rapidement le WAF de Fastly. Ces étapes incluent la création d'un compte Fastly, la configuration du service, la configuration des règles de pare-feu et le test du WAF. L'article mentionne également le tableau de bord de Fastly, qui fournit des rapports d'incidents de sécurité en temps réel et des données visualisées, permettant aux utilisateurs de mieux comprendre leur posture de sécurité réseau.

https://www.fastly.com/blog/how-to-deploy-fastlys-next-gen-waf-in-less-than-10-minutes

bf803e0b9870abb1d54cfc89bbd5758a.png

Streaming Media Est 2023

L'article présente l'application et la tendance de développement de VVC dans le domaine de la vidéo en ligne. Lors du prochain Streaming Media East 2023, la table ronde "Ready for Action" explorera les applications et les avantages de VVC et fournira aux participants des conseils pratiques sur la façon d'optimiser leur activité de vidéo en ligne avec VVC.

https://www.streamingmedia.com/Articles/News/Online-Video-News/Jan-Ozer-Talks-VVC-Ready-for-Action-Workshop-Coming-Up-at-Streaming-Media-East-2023- 158436.aspx


b8f35ce828fcba5b606c92a0b7bd9aca.png

LiveVideoStackCon 2023 Recrutement des conférenciers de Shanghai

LiveVideoStackCon est l'étape de tout le monde. Si vous êtes responsable d'une équipe ou d'une entreprise, avez des années de pratique dans un domaine ou une technologie spécifique et que vous aimez les échanges techniques, n'hésitez pas à postuler pour être conférencier à LiveVideoStackCon. Veuillez soumettre le contenu de votre discours à l'adresse e-mail : [email protected].

Je suppose que tu aimes

Origine blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/130550476
conseillé
Classement