【Interprétation du document】 Détermination de la région d'intérêt et conversion du débit binaire pour le transcodage vidéo H.264

introduire

Titre : Détermination de la région d'intérêt et conversion du débit binaire pour le transcodage vidéo H.264
Niveau : SCI
Année : 2013
Établissement : Université Dong Hwa, Taïwan
Téléchargement des ressources : https://download.csdn.net/download/yanceyxin/88045881

Conclusion : En termes de temps de transcodage, par rapport à JM15.1, il peut réaliser au moins 47,52 % de gain de temps. En termes de qualité objective du transcodage, par rapport à JM15.1, la qualité objective du PSNR peut être améliorée de 1,35 ~ 3,36 dB.

principe de base

aperçu

Comme le montre la figure 1, des procédés bien connus pour mettre en œuvre le transcodage de débit binaire comprennent la réduction d'échelle de la résolution de trame, la suppression de trames et la requantification des coefficients de transformation.
insérez la description de l'image ici
Algorithme proposé dans cet article
● En utilisant les informations de décodage et en tenant compte de manière exhaustive des informations sur l'intensité du mouvement et la couleur de la peau, une méthode de détection de points d'intérêt basée sur le théorème bayésien est proposée. Sur la base de l'estimation du marcobloc (mb) du retour sur investissement, un modèle de transcodage pour le transcodage est proposé. Le modèle proposé peut transcoder le flux binaire vidéo au débit binaire cible via une méthode de requantification et allouer plus de bits de codage à des régions plus importantes. De plus, cet article propose un système de transcodage vidéo en boucle fermée qui permet de gagner du temps de réencodage en réduisant le traitement de l'estimation de mouvement dans les MB non ROI.insérez la description de l'image ici

Établissement du retour sur investissement et détection de la couleur de la peau basés sur la théorie bayésienne

Afin de déterminer automatiquement le retour sur investissement, le document de référence [23] dans cet article est utilisé pour modéliser la zone de retour sur investissement MB dans la vidéo. Tout d'abord, une carte d'attention visuelle définie par l'utilisateur est utilisée pour analyser la distribution de probabilité des retours sur investissement. Grâce à la relation entre les informations de décodage de la séquence de test et la distribution du retour sur investissement, les informations auxiliaires incluent la densité de mouvement et la couleur de la peau. Selon les formules bayésiennes 1 et 2, la probabilité de retour sur investissement peut être mise à jour en fonction d'informations auxiliaires.
insérez la description de l'image ici

Les yeux humains accordent toujours plus d'attention au mouvement qu'à l'arrière-plan, compte tenu de la taille du bloc variable de h264, par souci d'équité, normalisez le MV à la taille de 4x4, puis calculez l'intensité de mouvement MI de chaque MB, formule 3. Pour tester la relation entre MI et ROI, le MI moyen de l'ensemble du cadre est défini comme l'équation 4.
insérez la description de l'image ici

Cependant, il existe encore des ROI à faible mouvement.Afin de segmenter avec précision les ROI, les visages attirent également l'attention.La détection de la couleur de la peau peut détecter efficacement les visages, qui sont déterminés directement en fonction de Cb et Cr selon la méthode de l'article de référence [24 ]. Que chaque pixel satisfasse les fonctions quadratiques supérieure et inférieure sur le plan Cb, Cr sera marqué comme couleur de peau. Selon la relation entre le retour sur investissement et la couleur de la peau, des informations auxiliaires supplémentaires seront utilisées pour déterminer le retour sur investissement en cas de faible mouvement. Le processus spécifique est illustré à la figure 3.
insérez la description de l'image ici

Établissement du modèle de quantification secondaire

Le nombre total de bits codés d'une trame est contenu dans l'équation 5, et les données résiduelles occupent les données principales dans le flux vidéo.
insérez la description de l'image ici

Trouvez la relation entre le débit binaire, le coefficient de quantification non nul (NZTC) et le QP, et établissez un modèle de transformation du débit binaire. Spécifiquement, il est divisé en un modèle de conversion de taux de code d'une image I et un modèle de conversion de taux de code d'une image P. Les modèles de taux de code correspondant aux trames I sont présentés dans les formules 6 et 7, et les modèles de taux de code correspondant aux trames P sont présentés dans les formules 8 et 9. Les données expérimentales liées aux coefficients des formules sont reflétées dans l'article original.
insérez la description de l'image ici

Cadre du transcodeur de taux de code H264

Transcodeur de débit binaire
● La formule 10-13 est utilisée pour réaliser l'ensemble du processus de transcodage de débit binaire vidéo, et la valeur QP codée est déterminée en fonction du débit binaire (débit binaire), du coefficient de quantification non nul (NZTC) et du QP obtenu par décodage , comme indiqué dans la formule 10 -13.
insérez la description de l'image ici

La figure 9 montre l'architecture de l'ensemble du système de transcodage proposé dans cet article.
insérez la description de l'image ici

Processus de formation des paramètres du modèle

Pour différentes applications, différentes séquences vidéo ont des caractéristiques différentes. Par conséquent, avant d'utiliser ces modèles de conversion de débit, les paramètres du modèle doivent être entraînés sur les séquences d'entrée. Nous définissons une trame I pour la première trame codée et une trame P pour la seconde trame codée. Les données QP sont définies sur 25, 30, 35 et 40 pour le codage de prétraitement. Les paramètres du modèle ont été résolus par la méthode d'ajustement de courbe. Cela facilite les modèles de conversion de débit binaire précis, bien que le processus de formation entraîne des frais généraux.

Transcodeur ROI basé sur la vidéo

Pour le flux binaire vidéo à faible débit binaire, les méthodes générales de requantification peuvent dégrader considérablement la qualité visuelle de l'image entière. Pour résoudre ce problème, davantage de bits de codage doivent être alloués dans les régions d'intérêt de l'utilisateur. Par conséquent, un algorithme de segmentation automatique du retour sur investissement est nécessaire. Combiné avec la segmentation ROI susmentionnée, cet article propose un transcodeur basé sur ROI pour préserver la qualité vidéo des MB dans la ROI.

Comme dans la formule 14-17, différents nombres de bits de codage sont attribués selon l'importance de chaque MB. Tout d'abord, l'équation 14 calcule le nombre total estimé de bits codés de la trame actuelle après transcodage, puis est spécifiquement alloué à chaque Mo par l'équation 15. De plus, pour réduire la complexité d'encodage lors du transcodage, nous multiplexons les modes de décodage des MB dans les non-ROI et utilisons le mode complet des MB dans les ROI pour préserver la qualité visuelle. De plus, la norme de codage H.264/AVC prend en charge le mode saut pour améliorer l'efficacité de la compression, et ce document utilise ce mode saut. En bref, en ignorant l'estimation de mouvement et la décision de mode des MB dans les non-ROI, le temps de transcodage est ainsi réduit.
insérez la description de l'image ici

Résultats expérimentaux

Les données expérimentales spécifiques sont telles que décrites dans l'article original.

Je suppose que tu aimes

Origine blog.csdn.net/yanceyxin/article/details/131701614
conseillé
Classement