【Dissertation lesen】GANMc

Papier: https://ieeexplore.ieee.org/document/9274337

Bei Verstößen wenden Sie sich bitte an den Blogger

In den letzten Tagen habe ich einen weiteren Artikel über die Implementierung der Infrarot-Fusion durch GAN gelesen. Es überrascht nicht, dass er von jemandem aus dem FusionGAN-Autorenteam geschrieben wurde. Im Vergleich zum vorherigen Artikel über die Implementierung der Infrarot-Bildfusion durch GAN schlug dieser Artikel einige neue vor Lösungsideen. Lass uns einen Blick darauf werfen.
Fügen Sie hier eine Bildbeschreibung ein

eine kurze Einführung

Ich habe mehrere Artikel zum Thema Bildfusion gelesen, bin ein wenig in diesem Bereich angefangen und habe verschiedene Methoden gesehen. Ich muss sagen, dass die Großen wirklich gut darin sind.
Fügen Sie hier eine Bildbeschreibung ein
Das Papier, über das ich heute sprechen werde, basiert auf GAN. Der wichtigste Punkt, den mir dieses Papier bietet, ist die Verarbeitung zur Beibehaltung von Texturdetails und Kontrast. Die meisten Artikel, die wir zuvor gelesen haben, befassen sich nur mit diesem Aspekt, um die Texturinformationen des visuellen Bildes und den Kontrast des Infrarotbildes zu bewahren, aber wie der Autor dieses Artikels sagte, sind der Kontrast des visuellen Bildes und die Textur des Infrarotbildinformationen verdienen ebenfalls unsere Aufmerksamkeit. Wie im Bild unten gezeigt, ist links das visuelle Bild und rechts das Infrarotbild. Wenn
Fügen Sie hier eine Bildbeschreibung ein
Sie sich die Informationen im Bild oben genau ansehen, werden Sie feststellen, dass die Informationen zur Blatttextur im rechten Infrarotbild im ersten Bild enthalten sind Reihe ist besser erhalten und der Kontrast des visuellen Bildes in der zweiten Reihe ist besser. Wenn es stärker wird, wird es interessant. Lassen Sie uns Stück für Stück über diesen Artikel sprechen.
Fügen Sie hier eine Bildbeschreibung ein

Netzwerkstruktur

Schauen wir uns zunächst die gesamte Netzwerkstruktur an
Fügen Sie hier eine Bildbeschreibung ein

Im Vergleich zur Netzwerkstruktur von DIVFusion ist es recht einfach. Als nächstes werden wir die Komponenten des Netzwerks Stück für Stück verstehen.

Baumeister

Fügen Sie hier eine Bildbeschreibung ein
Die obige Abbildung zeigt die Netzwerkstruktur des Generators. Der Eingang des Generators ist in zwei Pfade unterteilt, nämlich den Gradientenpfad und den Kontrastpfad. Der Gradientenpfad enthält zwei visuelle Bilder und ein Infrarotbild, und der Kontrastpfad enthält zwei Infrarotbilder Bilder und ein sichtbares Bild. Bild anzeigen. Wie bei FusionGAN wird das Eingabebild hier auf die Größe 132 x 132 aufgefüllt, um sicherzustellen, dass das endgültig generierte Bild dieselbe Größe wie das Eingabebild hat.

Die Eingaben der beiden Pfade durchlaufen zunächst vier Faltungsschichten (die spezifischen Inhalte des Faltungskerns, der Aktivierungsfunktion und der Stapelnormalisierung sind alle in der Abbildung dargestellt), extrahieren Merkmale und verbinden dann die aus den beiden Pfaden extrahierten Merkmale miteinander. Eine 1x1-Faltung und Aktivierung erzeugt das Zielbild.

Hier gibt es eine sehr interessante Sache: Die Eingabe in den Generator ist hier nicht ein einzelnes visuelles Bild und ein Infrarotbild, sondern ein Stapel mehrerer solcher Bilder.

Diskriminator

Fügen Sie hier eine Bildbeschreibung ein
Die Netzwerkstruktur des Diskriminators ist in der obigen Abbildung dargestellt. Wenn Sie vorsichtig sind, werden Sie feststellen, dass die endgültige Ausgabe nicht mit dem GAN übereinstimmt, das wir zuvor gesehen haben.

Wenn Sie sich an FusionGAN und DDcGAN erinnern, werden Sie feststellen, dass der Diskriminator beider letztendlich nur eine eindimensionale Wahrscheinlichkeit ausgibt. Selbst bei einem dualen Diskriminator wie DDcGAN ist die endgültige Ausgabe nur eine eindimensionale Wahrscheinlichkeit, während die Ausgabe des Diskriminators in GANMcC It ist sind zweidimensionale Daten.

Warum ist es also so konzipiert?

Die Logik des Autors des Artikels unterscheidet sich hier geringfügig von der anderer: Die vom Diskriminator ausgegebenen zweidimensionalen Daten repräsentieren jeweils die Wahrscheinlichkeit, dass das Eingabebild ein visuelles Bild ist, bzw. die Wahrscheinlichkeit, dass das Eingabebild ein Infrarotbild ist.

Wie wendet man diese zweidimensionalen Daten an?

Denken Sie nun über die Rolle dieses Modells nach, das darin besteht, ein fusioniertes Bild mit mehr Texturinformationen und Kontrastinformationen zu generieren und es in die GAN-Architektur zu integrieren. Bedeutet das, dass wir hoffen, dass das fusionierte Bild mehr Texturinformationen enthält? Der Diskriminator geht davon aus , dass das fusionierte Bild umso besser ist, desje höher die Wahrscheinlichkeit Das Gleiche gilt für das visuelle Bild, das heißt, wenn die beiden Wahrscheinlichkeiten des fusionierten Bildes, das in den Diskriminator eingegeben wird, beide groß sind, unser Der Fusionseffekt ist sehr gut. Wir werden diesen Prozess im Detail in der Verlustfunktion besprechen.

Gehen Sie nun zurück zum Titel und Sie werden feststellen, dass sich hier die Mehrfachkategorie befindet

verlustfunktion

Generatorverlustfunktion

Fügen Sie hier eine Bildbeschreibung ein
Die Gesamtverlustfunktion des Generators ist in der obigen Abbildung dargestellt. Der erste Teil ist der Textur- und Kontrastverlust und der zweite Teil ist der gegnerische Verlust mit dem Diskriminator.

Der L Gcon ist hier relativ kompliziert. Wie bereits erwähnt, müssen wir einerseits die Textur des sichtbaren Bildes und den Kontrast des Infrarotbildes sicherstellen, andererseits müssen wir auch den Kontrast des Bildes sicherstellen visuelles Bild und die Textur des Infrarotbildes.

Lassen Sie uns zunächst über die beiden Verlustfunktionen von L Gcon sprechen. Die Funktion dieser beiden Verlustfunktionen besteht darin, sicherzustellen, dass die Texturmerkmale des visuellen Bildes und die Kontrastinformationen des Infrarotbildes im fusionierten Bild enthalten sind.

Die folgende Formel wird verwendet, um sicherzustellen, dass das fusionierte Bild so viele Kontrastinformationen wie möglich im Infrarotbild enthält (die Bildpixelintensität wird verwendet, um Kontrastinformationen sicherzustellen). Die folgende Formel wird verwendet, um sicherzustellen, dass das fusionierte Bild mehr Texturinformationen
Fügen Sie hier eine Bildbeschreibung ein
enthält Das sichtbare Bild (hier werden Verlaufsinformationen verwendet, um Texturinformationen sicherzustellen)
Fügen Sie hier eine Bildbeschreibung ein
ist hier noch nicht abgeschlossen. Wie bereits erwähnt, müssen wir auch die Texturinformationen im Infrarotbild und die Kontrastinformationen im visuellen Bild beibehalten, also müssen wir dies auch tun Entwerfen Sie wie folgt eine Verlustfunktion, um diese beiden Arten von Informationen beizubehalten. Dasselbe wie bei der obigen Formel, das heißt, das Objekt zur Berechnung des Gradienten wird zu einem Infrarotbild und das Objekt zur Berechnung der Intensität (Kontrastinformationen) wird zu einem sichtbaren Bild
Fügen Sie hier eine Bildbeschreibung ein

Die letzte große Zusammenfassung,
Fügen Sie hier eine Bildbeschreibung ein
bei der β1 > β4, β2 > β3, {β2, β3} > {β1, β4}

Warum also β so einstellen?

Hier erklärt der Autor in der Arbeit, dass zunächst β1 der Parameter der Verlustfunktion zwischen dem Kontrast des fusionierten Bildes und dem Infrarotbild ist und β4 der Parameter der Verlustfunktion zwischen dem Kontrast des fusionierten Bildes und des sichtbaren Bildes ist. Da die Kontrastinformationen, die wir behalten möchten, hauptsächlich aus dem Infrarotbild stammen, sollte β1 > β4; entsprechend sollte β2 > β3 eingestellt werden.

Warum also {β2, β3} > {β1, β4} setzen? Der Autor erwähnte in der Arbeit, dass der Wert des Gradientenverlustterms oft kleiner ist als der Kontrastverlustterm. Um sicherzustellen, dass die Texturinformationen und Kontrastinformationen während des Trainingsprozesses ausgeglichen werden können, ist es notwendig, {β2, β3} > {β1, β4}, Das heißt, die Parameter des Texturverlusts werden größer eingestellt als die Parameter des Kontrasts.

Bisher hat der Generator die Verlustfunktion, die allein Gradienteninformationen und Kontrastinformationen garantiert, nicht mehr besprochen.

Da die im Artikel verwendete Netzwerkarchitektur GAN ist, muss sie auch mit dem Diskriminator konkurrieren. Die Verlustfunktion ist wie folgt

Fügen Sie hier eine Bildbeschreibung ein
Wenn Sie das Bild der gesamten Architektur oben betrachten, werden Sie feststellen, dass die Ausgabe ein zweidimensionaler Vektor ist. Die Daten an der ersten Position des Vektors stellen die Wahrscheinlichkeit dar, dass das Eingabebild ein sichtbares Bild ist, d. h. D (Ifuse). [1]; der Vektor Die Daten an der zweiten Position stellen die Wahrscheinlichkeit dar, dass das Eingabebild ein Infrarotbild ist, d. h. D(Ifuse)[2].

Auf diese Weise ist die obige Verlustfunktion leichter zu verstehen. Da wir möchten, dass der Diskriminator denkt, dass das fusionierte Bild ein visuelles Bild ist, und auch, dass das fusionierte Bild ein Infrarotbild ist, wird d hier auf 1 gesetzt, sodass das fusionierte Bild nach dem Training wie a aussieht visuelles Bild und ein Infrarotbild.

Diskriminator

Die Gesamtverlustfunktion des Diskriminators ist wie folgt:
Fügen Sie hier eine Bildbeschreibung ein
Von links nach rechts sind der Verlust der visuellen Bildunterscheidung, der Verlust der Infrarotbildunterscheidung und der Verlust der fusionierten Bildunterscheidung aufgeführt.

Was ist ihre Rolle?

Es ist klar, dass der Verlust der visuellen (Infrarot- oder Fusions-) Bildunterscheidung dazu beitragen soll, dass der Diskriminator besser identifizieren und beurteilen kann, ob es sich um ein sichtbares (Infrarot- oder Fusions-)Bild handelt. Durch die Kombination dieser drei Punkte wird der Diskriminator besser Fähigkeit, visuelle Bilder, Infrarotbilder und fusionierte Bilder zu identifizieren.
Fügen Sie hier eine Bildbeschreibung ein
Schauen wir uns zunächst die Verlustfunktion der visuellen Bildunterscheidungsfähigkeit an. Hier werden Sie feststellen, dass es eine weitere Funktion gibt: Was sind Pvis und Pir? Keine Sorge, tatsächlich entspricht Pvis D(Ifuse)[1], das in dem zuvor erwähnten Generator erwähnt wurde, und Pir entspricht D(Ifuse). [2].

Denken Sie nun darüber nach: Wenn Sie möchten, dass der Diskriminator seine Fähigkeit zum Erkennen von Bildern verbessert, bedeutet dies, dass Sie ein visuelles Bild eingeben möchten und der Ausgabe-Pvis so nahe wie möglich bei 1 und Pir so nahe wie möglich bei 0 liegt möglich, wenn Sie das glauben. Herzlichen Glückwunsch, Sie haben Recht. Hier
wird a1 auf 1 und a2 auf 0 gesetzt.
Fügen Sie hier eine Bildbeschreibung ein
Die obige Verlustfunktion soll dem Diskriminator helfen, seine Fähigkeit zur Unterscheidung von Infrarotbildern zu verbessern. Sie entspricht der vorherigen Verlustfunktion. Hier wird b1 auf 0 und b2 auf 1 gesetzt. Der Grund kann mit dem vorherigen Bild verglichen werden Bilderkennungsverlustfunktion.
Fügen Sie hier eine Bildbeschreibung ein
Die letzte Verlustfunktion soll dem Diskriminator helfen, seine Fähigkeit zu verbessern, fusionierte Bilder zu erkennen. Aus Sicht des Diskriminators werden die Bilder in drei Kategorien unterteilt, nämlich visuelle Bilder, Infrarotbilder und Fusionsbilder. Es gibt jedoch nur zwei Wahrscheinlichkeiten oben (die Wahrscheinlichkeit, dass das Bild ein visuelles und ein Infrarotbild ist). Was sollte also sein? erledigt ? Wie groß ist die Wahrscheinlichkeit, das Bild als fusioniertes Bild zu identifizieren?

Stellen Sie sich hier vor, wenn die Wahrscheinlichkeit des sichtbaren Bildes und die Wahrscheinlichkeit, dass der Diskriminator nach der Verarbeitung eines Bildes ein Infrarotbild ausgibt, sehr gering sind . Bedeutet dies, dass dieses Bild in den Augen des Benutzers kein visuelles Bild oder Infrarotbild ist? Diskriminator , aber im Diskriminator gibt es drei Kategorien von Bildern, nicht diese beiden Kategorien, sondern die dritte Kategorie , das ist das fusionierte Bild . In diesem Fall wissen wir, dass c auf 0 gesetzt ist , was bedeutet, dass der Diskriminator denkt dass das fusionierte Bild weder ein sichtbares Bild noch ein Infrarotbild ist, wodurch die Funktion der Identifizierung des fusionierten Bildes realisiert wird.

Tipps

Bitte beachten Sie hier, dass in den Parametereinstellungen des Papiers die Einstellungen von a1, a2, b1, b2 und c in der Verlustfunktion erwähnt werden. Hier werden Soft-Labels verwendet, das heißt, sie sollten auf 1 gesetzt werden, liegen aber auf einem Wert zwischen 0,7 und 1.2. Eine Zufallszahl; ursprünglich auf 0 gesetzt, wird sie auf eine Zufallszahl zwischen 0 und 0,3 gesetzt. Die vorherige Einstellung auf 1 oder 0 dient lediglich dem besseren Verständnis.

Zusammenfassen

Es ist auch ein fruchtbarer Artikel, hier ist eine kurze Einführung

  • Beim Extrahieren von Texturinformationen konzentrieren wir uns nicht nur auf das visuelle Bild, sondern auch auf die Texturinformationen des Infrarotbildes.
  • Bei der Extraktion von Kontrastinformationen konzentrieren wir uns nicht nur auf Infrarotbilder, sondern auch auf die Kontrastinformationen visueller Bilder.
  • Die Wahrscheinlichkeit, dass der Diskriminator mehrere Klassen generiert

Weitere Kolumnen zur Interpretation und Lektüre von Fusionsbildpapieren , kommen Sie und klicken Sie auf mich

【Lesen Sie den Artikel】DIVFusion: Dunkelheitsfreie Fusion von Infrarot- und sichtbaren Bildern

RFN-Nest: Ein End-to-End-Restfusionsnetzwerk für Infrarot- und sichtbare Bilder

【Artikel lesen】DDcGAN

Selbstüberwachte Funktionsanpassung für die Fusion von Infrarot- und sichtbaren Bildern

FusionGAN: Ein generatives kontradiktorisches Netzwerk für die Fusion von Infrarot- und sichtbaren Bildern

Beschreibung: DeepFuse: Ein tiefer, unbeaufsichtigter Ansatz für die Belichtungsfusion mit extrem belichteten Bildpaaren

Beschreibung: DenseFuse: Ein Fusionsansatz für Infrarot- und sichtbare Bilder

Referenz

[1] GANMcC: Ein generatives kontradiktorisches Netzwerk mit Multiklassifizierungsbeschränkungen für die Fusion von Infrarot- und sichtbaren Bildern

Je suppose que tu aimes

Origine blog.csdn.net/qq_43627076/article/details/128034247
conseillé
Classement