Cloud Computing und Big Data Kapitel 3 Fragen und Antworten zur Cloud-Speicherpraxis

Kapitel 3 Cloud-Speicherübungen

3.1 Multiple-Choice-Fragen

1. SAN ist ein Typ (B).

A. Speichergeräte B. Speichernetzwerksysteme, die für die Datenspeicherung entwickelt und gebaut wurden

C. Fabric-Switches D. HBAs

2. In GFS kann der Client parallel auf mehrere (C) zugreifen, was die Gesamtleistung des Systems verbessert.

A. Client B. Master-Server C. Chunk-Server D. Kontrollknoten

3. Die Leistungsanforderungen des verteilten Dateisystems umfassen hauptsächlich (D).

A. Hohe Effizienz, hohe Zuverlässigkeit B. Hohe Skalierbarkeit, Transparenz C. Autonomie D. Alle oben genannten Punkte

4. Je nach Speichermethode gehört Methode ( B ) nicht zur Replikat-Bereitstellungsstrategie.

A. Pfadbereitstellung B. Neuaufbaubereitstellung C. Quellanforderungsbereitstellung D. Zufällige Bereitstellung

5. Die Bestimmung der Anzahl der Kopien hängt mit dem Faktor ( D ) zusammen.

A. Eigenschaften kopieren              B. Systemumgebung              C. Zugriffsstatus                  D. Alle oben genannten

6. Die derzeitige Hauptmethode zur Bestimmung der Anzahl der Replikate umfasst nicht ( A ).

A. Zufällige Replikation B. Proportionale Replikation              C. Quadratwurzelreplikation                  D. Gleichmäßige Replikation

7. Die Gründe für die Löschung von Kopien sind hauptsächlich ( D ).

A. Der Lebenszyklus der Kopie ist abgelaufen.                                                       B. Die Häufigkeit des Zugriffs auf die Kopie ist gering

C. Der Speicherplatz des Knotens, auf dem sich die Kopie befindet, reicht nicht aus oder die Verarbeitungskapazität hat das Limit erreicht.            D. Alle oben genannten Punkte

8. Welcher der folgenden Punkte ist kein Vorteil der statischen Kopierverwaltungsstrategie (B)?

A. Das Replikationsschema ist festgelegt.                              B. Der Dateizugriffsmodus und der Bereich der Zugriffsknoten können vorhergesagt werden  

C. Vereinfachen Sie die Komplexität des Late-Copy-Managements.         D. Einfache Struktur

9. Welcher der folgenden Punkte ist kein Vorteil der zentralisierten Kopierverwaltungsstrategie (A)?

A. Die Anzahl der Dateikopien nimmt schnell zu.                  B. Ein umfassendes Verständnis des gesamten Cloud-Speichersystems

C. Erkennen Sie schnell den Status eines Knotens und kopieren Sie ihn        . D. Einfache Struktur

10. Die folgende Beschreibung der verteilten Kopierverwaltungsstrategie ist falsch (C).

A. Verteilen Sie die Kopierverwaltung des gesamten Cloud-Speichersystems auf jeden Speicherknoten                       

B. Jeder Speicherknoten kann einen ähnlichen Heartbeat-Mechanismus zur Kommunikation verwenden

C. Da die Anzahl der Dateikopien weiter zunimmt, nimmt die Belastung dramatisch zu      

D. Die Kosten für die Aufrechterhaltung der Kommunikation zwischen Speicherknoten sind relativ hoch

11. Die Hauptrolle im Paxos- Cloud-Speichersystem umfasst nicht (C).

A. Antragsteller                     B. Entscheidungsträger                 C. Ausführender              D. Lernender

12. Die folgende Beschreibung zur Datenspeicherstruktur von S3 ist falsch (B).

A. Enthält Buckets und Speicherobjekte               

B. Buckets sind die einzige Möglichkeit, Daten in S3 zu sortieren

C. Jedes Speicherobjekt muss in einem Bucket gespeichert werden      

D. Der Name des Buckets ist eindeutig

13. Zu den Leistungsvorteilen von S3 gehört (D).

A. Haltbarkeit und Verfügbarkeit B. Belastbarkeit und Skalierbarkeit

C. Hohe Datenzugriffsgeschwindigkeit und einfache Benutzeroberfläche. D. Alle oben genannten Punkte

14. In der Netzwerkarchitektur des Cloud-Speichersystems ist (A) hauptsächlich für die Speicherung von Datendateien verantwortlich.

A. Speicherknoten B. Kontrollknoten C. Aufgabenknoten          D. Datenknoten

15. Der Paxos- Algorithmus wird zur Lösung von ( C )-Problemen in verteilten Systemen verwendet .

A. Replikatbereitstellung          B. Replikatmengenkontrolle     C. Datenkonsistenz      D. Replikatlöschung

3.2 Füllen Sie die Lücken aus

1. Cloud-Speicher organisiert eine große Anzahl von Speichergeräten im Netzwerk über (Clustersystem), (Virtualisierungstechnologie) oder (verteiltes Dateisystem).

2. Cloud-Speicher ist im Wesentlichen nicht nur eine Art Speicher (Technologie), sondern auch eine Art (Dienst).

3. Das Cloud-Speichermodell kann von unten nach oben in (Speicherschicht), (Verwaltungsplanungsschicht), (Anwendungsschnittstellenschicht) und (Zugriffsschicht) unterteilt werden.

4. Der aktuelle Netzwerkspeicher umfasst hauptsächlich zwei Typen (Network Attached Storage/NAS) und (Storage Area Network/SAN).

5. Derzeit gibt es zwei Datenreplikationsmodi: (synchroner Replikationsmodus) und (asynchroner Replikationsmodus).

6. Im Cloud-Speichersystem umfasst der Hauptinhalt des Kopierverwaltungsmechanismus (Kopienbereitstellung), (Kopiermengenkontrolle), (Datenkonsistenzgarantie), (Kopienlöschung) und andere Mechanismen.

7. Bei der zufälligen Bereitstellungsmethode kann die zufällige Auswahlmethode zur Auswahl der Knoten des gesamten Netzwerks mithilfe von Methoden wie (Multi-Hash-Funktion) und (zugehöriger Hash) realisiert werden.

3.3 Fragen mit kurzen Antworten

1. Bitte beschreiben Sie die Hauptvorteile des Cloud-Speichersystems.

antworten:

  1. kostengünstig. Benutzer nutzen Cloud-Speicherdienste, ohne selbst Speichersoftware und Hardwaresysteme kaufen zu müssen, und müssen sich auch nicht selbst um Betrieb, Wartung und Wiederherstellung nach Katastrophen kümmern, wodurch die Kosten für die Datenspeicherung erheblich gesenkt werden.
  2. hohe Sicherheit. Die von professionellen Cloud-Dienstleistern bereitgestellten Datenspeicherdienste nutzen in großem Umfang Datenkopier- und Sicherungsmechanismen, um die Speicherung geschäftsbezogener Daten sicherer und zuverlässiger zu machen; Daten können auch während der Übertragung effektiv geschützt werden und die Übertragung ist stabiler.
  3. Einfach zu erweitern. Aus Benutzersicht müssen Benutzer den zukünftigen Bedarf an Speicherplatz nicht vorhersagen und können bei Bedarf dynamisch Speicherplatz beantragen. Das Speichersystem selbst kann den Speicherressourcenpool auch dynamisch erweitern. Wenn neue Speicherknoten hinzugefügt werden Das System wird die Ressourcenerweiterung automatisch realisieren.
  4. Umfangreiche Schnittstelle. Die aktuellen kommerziellen Cloud-Speichersysteme bieten im Allgemeinen eine umfangreiche Anwendungsprogrammierschnittstelle (API), die eine praktische Entwicklungs- und Betriebsplattform für Benutzer und Anwendungen bietet.
  5. Synchronisierung wird unterstützt. Basierend auf der Cloud-Speicherplattform können Benutzer Daten, Programme und Status zwischen mehreren Geräten (wie Laptops, Tablets, Smartphones, Smartwatches usw.) synchronisieren und so die Zusammenarbeit mit mehreren Geräten unterstützen.
  6. Notfallwiederherstellung. Die Netzwerksicherung wird im Allgemeinen durch professionelle Datenspeicherverwaltungssoftware in Kombination mit entsprechender Hardware und Speichergeräten realisiert. Cloud-Speicher basiert auf einer Multi-Rechenzentrumsplattform. Cloud-Computing-Rechenzentren speichern Datenkopien in Remote-Cloud-Computing-Rechenzentren über das Internet, nämlich Relocation Daten werden an verschiedenen Orten gesichert, und auch im Falle einer großen Katastrophe wie einem Erdbeben oder einer Überschwemmung ist eine Notfallwiederherstellung und -wiederherstellung möglich.

2. Bitte beschreiben Sie kurz die drei Knotentypen im GFS- System.

antworten:

  1. Klient. Der Client ist die von GFS für das Anwendungsprogramm bereitgestellte Zugriffsschnittstelle. Es handelt sich um eine Reihe dedizierter Schnittstellen, die in Form von Bibliotheksdateien bereitgestellt werden. Das Anwendungsprogramm kann diese Bibliotheksfunktionen direkt aufrufen.
  2. Hauptserver. Der Hauptserver ist der Verwaltungsknoten von GFS, logischerweise gibt es nur einen, er dient zum Speichern der Metadaten des Systems und ist für die Verwaltung des gesamten Dateisystems verantwortlich.
  3. Datenblockserver. Der Datenblockserver ist für die spezifische Speicherarbeit verantwortlich. Die Daten werden in Form von Dateien auf dem Datenblockserver gespeichert. Die Anzahl der Datenblockserver bestimmt direkt die Größe des GFS-Systems. GFS unterteilt die Datei entsprechend der voreingestellten Größe in Blöcke. Jeder Block wird als Datenblock (Chunk) bezeichnet und jeder Datenblock hat eine entsprechende Indexnummer (Index).

3. Welche Aspekte des GFS- Dateisystems wurden im Vergleich zum herkömmlichen verteilten Dateisystem entsprechend den Merkmalen von Anwendungen wie der Suche optimiert?

antworten:

  1. Zentralisiertes Verwaltungsmodell. GFS verwendet einen zentralisierten Verwaltungsmodus zur Verwaltung des gesamten Dateisystems, was das Design vereinfacht und die Schwierigkeit der Implementierung verringert. Der Hauptserver verwaltet alle Metadaten im verteilten Dateisystem, verwaltet einen Namespace und es ist sehr einfach, dem System einen neuen Datenblockserver hinzuzufügen. Der Datenblockserver muss nur auf dem Hauptserver registriert werden. Natürlich hat das zentralisierte Verwaltungsmodell auch einige inhärente Nachteile, z. B. kann der Hauptserver zum Leistungsengpass des gesamten Systems werden.
  2. Daten werden nicht zwischengespeichert. Der Caching-Mechanismus ist ein wichtiges Mittel zur Verbesserung der Leistung des Dateisystems. Um die Leistung des Dateisystems zu verbessern, ist die Implementierung eines Caching-Mechanismus erforderlich. Das GFS-Dateisystem führt jedoch kein Caching durch, hauptsächlich weil Google davon ausgeht, dass die meisten Anwendungen in der Reihenfolge von Streams lesen und schreiben und die Häufigkeit wiederholter Lese- und Schreibvorgänge nicht hoch ist. Das Nicht-Caching von Daten hat kaum Auswirkungen auf die Gesamtleistung von das System; Für häufig gelesene Daten kann der Datenblockserver den Dateisystem-Cache-Mechanismus des lokalen Betriebssystems verwenden, um die Leistung zu optimieren.
  3. Basierend auf dem Benutzermodus. Abhängig von der Berechtigung der Anwendung, Systemressourcen und Maschinenanweisungen zu verwenden, kann der Prozessor auf verschiedene Modi eingestellt werden, z. B. auf den Kernelmodus und den Benutzermodus. Die CPU ermöglicht in verschiedenen Modi die Ausführung unterschiedlicher Befehlssätze, was eng miteinander verbunden ist zu Betriebserlaubnissen. Im Kernel-Modus kann die CPU sowohl privilegierte als auch nicht-privilegierte Anweisungen ausführen; im Benutzermodus darf die CPU nur nicht-privilegierte Anweisungen ausführen. Die Verwaltungs- und Arbeitsprozesse von GFS werden alle im Benutzermodus ausgeführt, und ein einzelner Prozess hat keine Auswirkungen auf das gesamte Betriebssystem, wodurch die Stabilität des gesamten Systems verbessert wird. GFS und das Betriebssystem laufen in unterschiedlichen Räumen. Die lose Kopplung wird so weit wie möglich übernommen, was die Gemeinsamkeit untereinander verbessert und das separate Upgrade von GFS und dem Kernel erleichtert.
  4. Bietet eine dedizierte API. GFS stellt eine dedizierte API bereit, und die API wird in Form einer Bibliotheksdatei bereitgestellt, und das Anwendungsprogramm vervollständigt den Zugriff auf das GFS-Dateisystem durch Aufrufen dieser APIs. Eine dedizierte API kann personalisierte Unterstützung für Anwendungen basierend auf ihren Attributen bereitstellen. Das Anwendungsprogramm interagiert direkt mit dem Client, dem Masterserver und dem Datenblockserver über eine dedizierte API, was einfacher und bequemer ist.
  5. Stellen Sie einen Fehlertoleranzmechanismus bereit. Der Masterserver in GFS speichert drei Arten von GFS-Metadaten, darunter Namespace (Verzeichnisstruktur des gesamten Dateisystems), Datenbank- und Dateinamenzuordnungstabelle sowie Informationen zum Speicherort der Datenbankkopie. Um den Verlust von Namespaces und anderen Daten zu verhindern, der durch den vollständigen Zusammenbruch des Hauptservers verursacht wird, bietet GFS eine Remote-Echtzeitsicherung des Hauptservers. GFS verwendet hauptsächlich Replikate, um Fehlertoleranz von Datenblockservern und mehreren Kopien davon zu erreichen Dieselben Daten werden auf verschiedene Datenblockserver verteilt. Beim Schreiben oder Ändern von Daten müssen alle Replikate erfolgreich geschrieben werden, damit der Vorgang als erfolgreich gilt.
  6. Stellt Systemverwaltungsmechanismen bereit. Als verteiltes Dateisystem unterstützt GFS die Anwendung des gesamten GFS durch den entsprechenden Systemverwaltungsmechanismus. GFS ist ein Dateisystem, das auf einem großen Cluster mit einer großen Anzahl von Knoten basiert. Da diese Knoten häufig ausfallen, ist eine Cluster-Überwachungstechnologie erforderlich, um den ausgefallenen Knoten und die Ursache so schnell wie möglich zu finden und zu ermitteln. GFS unterstützt die dynamische Verbindung von Knoten und die Systemerweiterung beim Hinzufügen eines neuen Blockservers.

4. Was sind die Hauptaspekte der Transparenz des verteilten Dateisystems?

antworten:

  1. Standorttransparenz. In einem verteilten Dateisystem mit Standorttransparenz sieht der Benutzer den globalen Namensraum, und der Benutzer muss den physischen Speicherort der Datei nicht kennen, um auf die Datei zuzugreifen. Beim Erstellen der Datei wählt das verteilte Dateisystem automatisch aus den passenden Lagerort.
  2. Fehlertransparenz. Wenn einige Server ausfallen, offline gehen oder das Netzwerk nicht verfügbar ist, muss das verteilte Dateisystem den Benutzern kontinuierliche Speicherdienste bereitstellen, damit Benutzer keine internen Serverausfälle bemerken.
  3. Migrationstransparenz. Es ist nicht erforderlich, den Namen zu ändern, wenn sich der physische Speicherort der Dateien und Verzeichnisse ändert, und selbst während des Datenmigrationsprozesses sind die Daten weiterhin zugänglich.
  4. Transparenz kopieren. Verteilte Dateisysteme speichern normalerweise mehrere Kopien derselben Datei auf verschiedenen Knoten. Benutzer müssen die Details der Dateikopien nicht kennen, und die Erstellung, Verteilung und der Zugriff auf Kopien erfolgen alle automatisch [17].
  5. Transparenz der Parallelität. Das verteilte Dateisystem mit Parallelität und Transparenz kann sicherstellen, dass es keine Konflikte zwischen gleichzeitigen Benutzerdateizugriffen gibt, und das Problem der Lese-/Schreibkonsistenz gemeinsam genutzter Dateien lösen.

5. Bitte vergleichen und analysieren Sie die zentralisierte Kopierverwaltungsstrategie und die verteilte Kopierverwaltungsstrategie im Cloud-Speichersystem .

antworten:

  1. Zentralisierte Kopierverwaltungsstrategie. Die zentralisierte Kopierverwaltungsstrategie ist eine typische Indexknotenstrategie. Im Cloud-Speichersystem werden die Metadateninformationen aller Dateien zur einfachen Verwaltung zentralisiert. Zu den Vorgängen am Metadatenknoten gehören die Erstellung, das Layout und die Platzierung von Kopien durch das System. Der Vorteil der zentralisierten Verwaltungsstrategie besteht darin, dass sie über ein umfassendes Verständnis des gesamten Cloud-Speichersystems verfügt und den Status jedes Knotens und jeder Kopie schnell erkennen kann, ihre Nachteile liegen jedoch auch auf der Hand: Da die Anzahl der Dateikopien weiter zunimmt Als unabhängiger zentraler Knoten wird seine Last stark ansteigen und leicht zum Leistungsengpass des Cloud-Speichersystems werden.
  2. Strategie zur verteilten Kopieverwaltung. Die verteilte Kopierverwaltungsstrategie verteilt die Kopierverwaltung des gesamten Cloud-Speichersystems auf jeden Speicherknoten. Jeder Speicherknoten kann einen ähnlichen Heartbeat-Mechanismus für die Kommunikation verwenden, um die Informationen zwischen den miteinander verbundenen Speicherknoten zu leiten und die Kopierverwaltung gemeinsam abzuschließen. Die verteilte Kopierverwaltungsstrategie stellt bestimmte Anforderungen an die Leistung jedes Speicherknotens. Obwohl es bei der zentralisierten Kopierverwaltungsstrategie keinen Leistungsengpass gibt, sind die Kosten für die Aufrechterhaltung der Kommunikation zwischen Speicherknoten relativ hoch, was die Kommunikationskosten des Netzwerks erhöht.

6. Was sind die wichtigsten Punkte, die bei der Datensicherung in einem Disaster-Recovery-System berücksichtigt werden müssen?

antworten:

  1. Backup-Fenster. Das Sicherungsfenster ist die Zeitspanne, die eine Anwendung für den Abschluss eines Datensicherungsauftrags einräumt. Da der Datensicherungsauftrag dazu führt, dass sich die Leistung des Hosts verschlechtert oder sogar das Serviceniveau inakzeptabel wird, muss der Datensicherungsauftrag bei Ausfallzeiten oder bei geringem Geschäftsvolumen durchgeführt werden. Typische Lösungen umfassen die Beschleunigung von Backups und die Implementierung von Online-Backups.
  2. Wiederherstellungszeit. Die Wiederherstellungszeit von Sicherungsdaten steht in direktem Zusammenhang mit der maximalen Zeit, die der Dienst tolerieren kann. Wenn die Menge der Sicherungsdaten groß ist oder die Sicherungsstrategie komplex ist, erfordern die Sicherungsdaten oft eine lange Wiederherstellungszeit.
  3. Backup-Intervall. Angesichts der Auswirkungen von Datensicherungsaufträgen auf die Leistung des Hostsystems darf der Abstand zwischen Datensicherungsaufträgen nicht zu kurz, der Abstand zwischen Datensicherungsaufträgen jedoch nicht zu lang sein. Wenn zwischen zwei Sicherungen ein Unfall eintritt , Der Datenverlust ist zu groß. Für einige wichtige Informationssysteme ist eine große Menge nicht akzeptabel.
  4. Datenwiederherstellbarkeit. Der Zweck der Datensicherung ist die Datenwiederherstellung, aber häufig können die Sicherungsdaten aufgrund von Speichermedienfehlern, menschlichem Versagen, Sicherungsfehlern und anderen Gründen nicht wiederhergestellt werden.
  5. Die Kosten für die Datensicherung . Der Kern der Datensicherung besteht darin, Datenredundanz zur Verbesserung der Systemstabilität zu nutzen. Die Kosten für eine hochfrequente und hochstabile Datensicherung sind im Allgemeinen höher.

3.4 Beantworten Sie Fragen

1. Angenommen, es liegt ein 3- Armee-Problem vor, geben Sie die folgenden Informationen an:

  1. Eine Rote Armee lagerte im Tal und drei Blaue Armeen lagerten auf den umliegenden Hügeln .
  2. Die rote Armee ist stärker als jede blaue Armee. Wenn eine blaue Armee alleine kämpft, gewinnt die rote Armee. Wenn zwei oder mehr blaue Armeen gleichzeitig angreifen, gewinnt die blaue Armee.
  3. Die drei blauen Armeen müssen ihre Angriffszeiten synchronisieren; ihr einziges Kommunikationsmittel besteht jedoch darin, Signalsoldaten zu Fuß ins Tal zu schicken, wo sie möglicherweise gefangen genommen werden und so die Nachricht verlieren oder lange im Tal bleiben Gefangennahme vermeiden;
  4. Jede Armee hat einen Stabsoffizier, der dafür verantwortlich ist, die Angriffszeit vorzuschlagen; jede Armee hat außerdem 1 General, der die vom Stabsoffizier vorgeschlagene Angriffszeit genehmigt; natürlich muss die von einem Stabsoffizier vorgeschlagene Angriffszeit von mindestens zwei Generälen genehmigt werden sinnvoll sein;

Bitte beantworten Sie die folgenden Fragen:

  1. Gibt es ein Protokoll, das es den Blues ermöglichen würde, ihre Shot-Clocks zu synchronisieren?
  2. Gehen Sie gemäß der folgenden Abbildung vor und verwenden Sie dieses Protokoll, um das von den beiden Stabsoffiziern nacheinander vorgeschlagene Szenario zu beschreiben.

antworten:

Frage 1: Das Paxos-Protokoll kann verwendet werden.

Auffüllen:

Stabsoffiziere und Generäle müssen einige Grundregeln befolgen:

  1. Das Personal initiiert Vorschläge in einem zweiphasigen Commit-Verfahren (Vorbereiten/Commit), und in der Vorbereitungsphase muss eine Nummer angegeben werden.
  2. Wenn in der Vorbereitungsphase ein Konflikt auftritt, trifft der General eine Entscheidung basierend auf der Größe der Gruppe, und der Mitarbeiter mit der größeren Anzahl gewinnt;
  3. Wenn der Stab die vom General in der Vorbereitungsphase zurückgegebene akzeptierte Angriffszeit erhält, muss die zurückgegebene Angriffszeit in der Commit-Phase verwendet werden;

Zweite Frage:

  1. Stab 1 initiiert einen Vorschlag, Boten mit Briefen an 3 Generäle zu schicken, deren Inhalt (Nr. 1) ist;
  2. Die drei Generäle erhielten den Vorschlag von Stabsoffizier 1, und da sie zuvor keine Nummer gespeichert hatten, speicherten sie (Nummer 1), um ein Vergessen zu vermeiden; gleichzeitig baten sie den Boten, den Brief mit dem Inhalt zurückzunehmen als ( OK);
  3. Stab 1 erhält Antworten von mindestens 2 Generälen und sendet erneut Boten an 3 Generäle, der Inhalt ist (Nummer 1, Angriffszeit 1);
  4. Wenn die 3 Generäle die Zeit von Stabsoffizier 1 erhalten, speichern Sie (Nummer 1, Angriffszeit 1), um ein Vergessen zu vermeiden. Lassen Sie gleichzeitig den Boten den Brief zurücknehmen, der Inhalt ist (Akzeptiert);
  5. Stab 1 erhält (akzeptierte) Inhalte von mindestens 2 Generälen, die bestätigen, dass die Angriffszeit von allen akzeptiert wurde;
  6. Stab 2 initiiert einen Vorschlag, Boten zu schicken, um Briefe an 3 Generäle zu schicken, deren Inhalt (Nr. 2) ist;
  7. Die drei Generäle erhielten den Vorschlag von Stab 2, und weil (Nr. 2) größer als (Nr. 1) ist, speicherten sie (Nr. 2), um nicht zu vergessen; und weil sie den Vorschlag von Stab 1 zuvor angenommen hatten, fragten sie den Bote soll den Brief zurückbringen, der Inhalt ist (Nummer 1, Angriffszeit 1);
  8. Stab 2 erhielt Antworten von mindestens zwei Generälen, und da die Antworten den akzeptierten Inhalt des Vorschlags von Stab 1 enthielten, schlägt Stab 2 keine neue Angriffszeit mehr vor und akzeptiert die von Stab 1 vorgeschlagene Zeit;

Guess you like

Origin blog.csdn.net/m0_63394128/article/details/126567960