Investigación sobre la tecnología de plataforma de almacenamiento unificado de Internet de supercomputación

Hola a todos, soy Wang Chunxiao del Centro Provincial de Computación de Shandong (Centro Nacional de Supercomputación de Jinan). He participado en proyectos de supercomputación en Internet desde 2022. Soy el principal responsable de la investigación y el desarrollo de una plataforma de almacenamiento unificado para redes informáticas. También he trabajado en bases de almacenamiento. Después de mucha investigación, finalmente elegí la plataforma Alluxio. Después de más de un año de arduo trabajo, estoy muy agradecido con Alluxio por su apoyo y ayuda.

A continuación, nos centraremos en el tema de la supercomputación de Internet y lo compartiremos con usted desde tres aspectos:

(1) Problemas y desafíos existentes en la construcción de Internet de supercomputación;

(2) Investigación sobre tecnologías clave de supercomputación de plataforma de almacenamiento unificado de Internet;

(3) Aplicación y desarrollo futuro de la supercomputación de Internet.

Ver compartir completo

1. Problemas y desafíos en la construcción de Internet de supercomputación

En primer lugar, permítanme presentarles brevemente el Centro Nacional de Supercomputación de Jinan. Fue fundado en 2011 y es el lugar de nacimiento del servidor nacional de mi país "Sunway Blu-ray". Por supuesto, la escala de Sunway Blu-ray ahora ha aumentado desde petaflops. a exaescala. A partir de 2019, comenzamos a desarrollar y construir una plataforma universal basada en la plataforma nacional. Es decir, la plataforma de supercomputación Sunward, cuya CPU, GPU y ancho de banda de almacenamiento han alcanzado una escala considerable, desempeña un importante papel de apoyo en muchas industrias de la provincia de Shandong.

 

Desde 2009, nuestro país ha establecido sucesivamente muchos centros de supercomputación. Para agosto de 2023, nuestro país tendrá 14 centros de supercomputación a nivel nacional, más de 30 centros de computación inteligente y más de 500 grandes centros de datos en la nube. Con tal tamaño, también está a la vanguardia del suministro mundial de energía informática.

Hoy en día, con el aumento de la demanda de modelos grandes y muchas otras cosas, también han quedado al descubierto algunas deficiencias en la potencia informática. Esto es inseparable de la complejidad del desarrollo de nuestras aplicaciones: las aplicaciones actuales ya no se pueden resolver solo con potencia informática. En el pasado, simplemente se podían tomar algunos datos y un modelo y ejecutarlos en un determinado recurso. Ahora es la etapa de la potencia de computación múltiple. En algunos escenarios de aplicaciones de escala relativamente grande, existen demandas en cuanto a la escala y el tipo de potencia de computación y almacenamiento. Por ejemplo, la computación convergente como la computación en la nube, la computación de alto rendimiento y la computación con IA, así como el escenario de computación en el este y en el oeste propuesto por nuestro país, en realidad es difícil resolver el problema si simplemente aumentar la potencia informática o el almacenamiento en un área determinada. Por supuesto, existen diferencias regionales en la demanda de potencia informática y la distribución de recursos de mi país. Ésta es también la intención original de la propuesta de mi país de construir una Internet de supercomputación.

En abril de 2023, el Ministerio de Ciencia y Tecnología lanzó el trabajo de construcción de una Internet de supercomputación nacional para construir una red de energía y una plataforma de servicios de supercomputación integrada. El Centro Nacional de Supercomputación de Jinan es también una de las unidades de supercomputación de Internet. Lo que está haciendo actualmente es llevar a cabo una gestión unificada de recursos, control y coordinación de redes y almacenamiento de energía informática de área amplia para lograr un diseño óptimo de los recursos.

El Centro Nacional de Supercomputación de Jinan ha estado planificando y construyendo una Internet de supercomputación desde 2016 y ha trabajado en todos los niveles. Por supuesto, también se encuentran muchos problemas en la construcción y aplicación de redes de potencia informática.

1. El primero es la cuestión de las plataformas de potencia informática diversificadas, incluida la aparición interminable de diversas plataformas en la nube, plataformas de inteligencia artificial y plataformas de almacenamiento;

2. El segundo es el problema de los recursos heterogéneos, incluidos los estándares de chips de grupos nacionales, que son muy diferentes, y los sistemas de almacenamiento también tienen varias interfaces, que están muy dispersas, tienen estructuras complejas y muchos protocolos, lo que dificulta su implementación. interconexión e interoperabilidad, es necesario construir una plataforma unificada;

3. El tercero es la distribución desigual de la potencia informática, que es un problema común en nuestro país. Tomando como ejemplo la provincia de Shandong, la informática está en Jinan y el almacenamiento en Zibo. Si hay un cuello de botella en la red intermedia, es básicamente difícil lograr el montaje, la llamada o incluso la transmisión remota.

También existen algunos escenarios de aplicación complejos, como los campos de la teledetección meteorológica marina, cuyos procedimientos operativos son relativamente complejos. Los datos pueden almacenarse en un lugar y deben transferirse a otro lugar para el preprocesamiento, la simulación y el entrenamiento de modelos. otras operaciones, pero es posible que estas operaciones deban realizarse en diferentes plataformas, o incluso en diferentes regiones, sin una plataforma de servicios integrada, es difícil trabajar y dominar todas las plataformas. Problemas y desafíos Esto es también lo que debemos resolver al construir el núcleo de la supercomputación de Internet.

Este es el marco de la Internet de supercomputación, que permite a los centros de datos nacionales, empresariales/regionales y de borde lograr interconexión y clasificación jerárquica. La interoperabilidad consiste en permitir el acceso y la operación relativamente fáciles y unificados de la potencia informática, el almacenamiento y las redes. Puede fluir como agua y electricidad y entregarse a los niveles superiores para que lo utilicen varios usuarios. Algunos incluso son usuarios mixtos: por ejemplo, un algoritmo debe utilizar tanto alto rendimiento como IA.

Esta era la cadena industrial para el desarrollo de la supercomputación de Internet en ese momento. En el pasado, los usuarios utilizaban la potencia informática, el almacenamiento y el software a través de supercomputación o centros de datos, y existía una unidad de aplicación de terceros. Ahora hemos agregado una capa en el medio, con tres capas de definiciones superior, intermedia y descendente: las unidades de aplicación y las supercomputadoras en la primera capa sirven como proveedores de recursos paralelos, y el sistema operativo de la red de supercomputación sirve como la capa intermedia para proporcionar correspondiente potencia informática y red de almacenamiento. El modelo operativo puede referirse a plataformas como JD.com y Taobao, que pueden utilizarse como plataforma intermedia. Al igual que JD.com y Taobao, venden productos, pero lo que operamos es un recurso, que es un modelo que pasa de cortar el pastel a hacerlo juntos.

2. Investigación sobre tecnologías clave de supercomputación de plataforma de almacenamiento unificado de Internet.

Esta es la situación actual de la construcción de Internet de supercomputación. Se puso a prueba por primera vez en Shandong y abarcó 16 ciudades de la provincia de Shandong, incluidos los dos nodos centrales de Jinan y Qingdao. Ahora Jinan y Qingdao operan a través de interconexión de alta velocidad, y las ciudades restantes. son Utilice líneas dedicadas. También hay 30 nodos perimetrales que se pueden conectar mediante sdone o Internet. Al mismo tiempo, también nos hemos conectado a 28 clústeres informáticos y 45 sistemas de almacenamiento de 7 tipos. La plataforma unificada del sistema de almacenamiento está construida con Alluxio. Esta es la escala de nuestra primera versión del sistema operativo de red de supercomputación. Actualmente, la capa superior admite tres tipos de servicios: computación en la nube, HPC e IA. Proporciona principalmente recursos en tres aspectos:

1. Recursos informáticos;

2. Recursos de almacenamiento;

3. Recursos de la red.

Debido a que soy el principal responsable de la plataforma de almacenamiento unificada, me centraré en presentar la plataforma de almacenamiento unificada. En ese momento, puede ver el objetivo de la plataforma de almacenamiento unificada. es cualquier tipo de almacenamiento en la parte inferior o en la nube. Todos necesitamos administrar el almacenamiento. La capa que se ocupa del sistema de almacenamiento utiliza Alluxio como base de almacenamiento. Sobre esta base, también hemos realizado algunos trabajos de optimización, incluida la optimización de rutas, la estrategia de migración de datos, la transmisión cifrada, la verificación de coherencia, etc. Algunos de ellos todavía están en el proceso de verificación y no se han agregado a la primera versión. plan General.

Esta imagen muestra que la tecnología central de la plataforma de almacenamiento unificado es el diseño del bus de servicio. Lo saqué por separado porque desarrollamos un adaptador de almacenamiento unificado y un controlador de flujo de datos en la capa superior basado en Alluxio e incorporamos tres estrategias de circulación: circulación en tiempo real, circulación programada y circulación automática. También proporciona servicios de almacenamiento, datos y transferencia de datos para este portal de cálculo de códigos (el portal principal mencionado anteriormente) y puede proporcionar funciones de interfaz y montaje. Al igual que el adaptador de almacenamiento unificado, actualmente podemos hacer:

1. Montaje de almacenamiento automático;

2. Se admiten múltiples formas de acceder a los datos, incluidas la interfaz, el cliente y la línea de comandos.

Por supuesto, también hemos investigado sobre el aislamiento de datos de los usuarios y los métodos de almacenamiento óptimos, que ya se han integrado. El controlador de flujo de datos realiza mucho trabajo y tiene tres estrategias de flujo:

1. La transferencia en tiempo real es principalmente para los usuarios, porque los usuarios solicitan una parte de almacenamiento en Jinan y una parte de almacenamiento en Qingdao en nuestra plataforma. Si desean migrar los datos en tiempo real, el usuario especifica la dirección original. y el destino de la migración, seleccione la velocidad de transferencia y haga coincidir automáticamente la estrategia de migración. También hemos investigado un poco sobre modelos inteligentes para calcular el tiempo de ejecución de tareas en diferentes estados y seleccionar la estrategia óptima.

2. La transferencia programada actualmente está dirigida a escenarios oceánicos y universitarios, como los datos en el sitio en las escuelas o en el océano, porque algunos de ellos son datos de video y la escala de datos es particularmente grande. Si desea investigar y necesita ahorrar, en realidad no existe ningún dispositivo de almacenamiento en el borde. Sin una cantidad tan grande de dispositivos de almacenamiento, es posible que deba realizar una migración de datos programada cada semana. Configure la dirección de origen de la migración especificada y la dirección de destino dentro de un tiempo definido. También utilizamos el modelo inteligente para seleccionar la estrategia óptima en función del tiempo y la fecha límite de la tarea. Puedes optar por hacerlo por la noche o cuando el tráfico de la red sea relativamente bajo.

3. La transferencia automática también es una característica, que consiste en seleccionar de forma inteligente los datos y la ubicación que se migrarán según el motor de reglas. Puede haber muchos escenarios de este tipo. Hemos personalizado varios de estos escenarios y más adelante encontrará una introducción a los escenarios de flujo automático. Se juzga en función de si los datos se almacenan y calculan por separado. Por ejemplo, si se almacenan en Zibo y quiero calcularlos en Jinan, si las condiciones de la red no permiten que el usuario esté de acuerdo, podemos migrarlos automáticamente a. a él. Por supuesto, puede determinar si los datos se obtienen previamente combinando el modo de acceso de la base de datos de metadatos y la frecuencia de acceso de los datos del punto de acceso.

Este es nuestro plan de implementación, que actualmente está conectado a los sistemas de almacenamiento enumerados en la figura, incluido Alibaba Cloud. Hay alrededor de 130 interfaces externas, que pueden proporcionar servicios externos a través de la línea de comando del portal de servicios, cliente, API, etc. Seguimos la implementación clásica de Alluxio para la implementación actual. En la etapa posterior, esperamos lograr un despliegue distribuido: actualmente, debido a restricciones de la red, todas las exportaciones se concentran en Jinan. Aunque 16 ciudades ya han establecido China Unicom, las exportaciones aún no se han liberalizado. Por ejemplo, la conexión entre Qingdao y Zibo no se ha probado completamente. En tales circunstancias, no hay ningún problema con este diseño. Todo el almacenamiento debe implementarse y llamarse a través de la plataforma general Alluxio Master Jinan cuando se liberalicen otras redes, espero que si la informática está en Qingdao, el almacenamiento también lo esté. en Qingdao, puede realizar el montaje local sin tener que notificar al Maestro en Jinan para que le permita realizar la asignación. En realidad, esto agrega un paso más, por lo que ahora también estamos realizando pruebas y verificación de la implementación distribuida.

Este es un caso de transferencia automática de almacenamiento y separación de cálculo. Por supuesto, este también es el escenario real del campus inteligente actual.

Todos nuestros dispositivos de almacenamiento y recursos informáticos se han administrado en una plataforma de almacenamiento unificada y una plataforma en la nube, denominada plataforma de administración de múltiples nubes. En este caso, nuestro sistema operativo de red informática tendrá un cronograma general. En este entorno, todos los datos existen actualmente en el centro de datos más a la derecha. Supongamos que este centro de datos está en Zibo y el usuario está en Jinan o envía tareas de capacitación. la plataforma principal, después del envío, habrá un cronograma general para determinar dónde están los recursos informáticos, el entorno de capacitación previa y el entorno de capacitación para delinear ubicaciones y generar recursos, porque este contenedor debe generarse automáticamente en función de la demanda. se generará en función de la vista de datos (la nuestra en Alluxio Una capa de vista de datos se crea arriba). Según la vista de datos y el controlador de flujo de datos, los datos se migran desde la dirección original a la dirección de destino para su entrenamiento. Para este escenario, en realidad se requieren cuatro flujos:

√ Fluir desde el conjunto de datos original al entrenamiento en el entorno de preprocesamiento previo al entrenamiento;

√ Después del procesamiento, debe ir al entorno de capacitación para recibir capacitación;

√ Finalmente, el modelo debe ser devuelto al usuario;

√ Si el usuario lo configura, debe retroalimentarse a la escena final (como un campus) antes de realizar operaciones de inferencia.

Por lo tanto, hemos especificado el proceso de circulación en varios escenarios industriales específicos.

Esta es la interfaz actual de nuestra plataforma de almacenamiento unificado V1.0. Se ha publicado en el portal principal, incluido el portal de servicios y el portal de gestión. El portal de servicios tiene un total de 6 módulos y más de 20 submódulos.

Para la plataforma de almacenamiento unificado, todavía tenemos trabajo de seguimiento que continuar: incluida la implementación distribuida de los nodos Alluxio Master y la gestión de programación unificada en su capa superior. Luego está la captación previa de datos, que es la optimización del mecanismo de almacenamiento en caché de datos, incluido el diseño de la captación previa, las reglas de asociación y, lo que es más importante, queremos realizar un almacenamiento por niveles, que es lo que debemos hacer más adelante.

3. Aplicación y desarrollo futuro de la supercomputación de Internet.

A continuación se presentan las aplicaciones actuales de Internet de supercomputación en diversas industrias:

Nos centraremos en desarrollar la Internet de supercomputación en la segunda mitad de 2022, pero de hecho hemos estado diseñando el diseño desde 2016, por lo que ya tenemos algunas aplicaciones en muchas industrias: incluidos océanos, materiales, meteorología y protección del medio ambiente. ecología, simulación industrial, educación y otros aspectos.

Este es el modelo de acoplamiento oceánico, que es una red interconectada que construimos conjuntamente con el Laboratorio Laoshan. Como puede ver, los cálculos en el océano pueden ser relativamente complicados. Se requieren cálculos de modelos oceánicos y cálculos de modelos atmosféricos. El modelo atmosférico actual se realiza en la supercomputadora de Qingdao, el modelo oceánico se realiza en la supercomputadora de Jinan y luego se realiza el acoplamiento de archivos. Esta es la primera vez que implementamos la computación colaborativa remota en 2023 y hemos logrado buenos resultados.

En el campo de la teledetección, también tenemos un escenario de flujo de datos relativamente completo: estos son los datos del Centro Nacional de Datos Científicos de Observación de la Tierra: primero se transmiten a la supercomputadora de Jinan a través de una línea dedicada y luego se almacenan en archivos de bloque. A través de algunas operaciones de clasificación y almacenamiento, en el almacenamiento, como los objetos, los productos de datos se producen y comparten después del procesamiento. Este es también nuestro primer sistema de recopilación y procesamiento de datos que separa el almacenamiento y el cálculo entre dominios. También solicitamos establecer el Centro Nacional de Computación y Depósito de Observación de la Tierra.

En el campo del gobierno digital, debido a que el gobierno electrónico en sí está en nuestra unidad, actualmente apoyamos la operación eficiente de 30 unidades provinciales y 300 sistemas gubernamentales en la provincia de Shandong. Por supuesto, se trata principalmente de operaciones en la nube, lo cual es para hacer. recursos Expansión elástica.

En campos como la atención médica y la educación, el trabajo en la nube y en el borde se realiza principalmente. Es la red informática y de almacenamiento proporcionada por Suanwang, incluida la transferencia programada mencionada anteriormente. En el escenario de campus inteligente, hemos realizado el proyecto de la Universidad Tecnológica de Qilu y hemos hecho más en escenarios de aplicaciones de campus.

Finalmente, permítanme presentarles la empresa. Nuestras aplicaciones cubren más de 2000 empresas/universidades/instituciones en todo el país y también han recibido un amplio reconocimiento en el país y en el extranjero. Creo que en realidad es necesario construir una red de potencia informática, que ayudará a revitalizar nuestro stock actual de recursos de potencia informática. Si tenemos una Internet de supercomputación, deberíamos mejorar la utilización de los recursos informáticos, permitir que la potencia informática se monetice y permitir que los centros de potencia informática, los centros de supercomputación y otros centros de datos funcionen de manera sostenible y saludable, y en algunos ecosistemas de supercomputación, tiene mejor aplicaciones en los campos de la protección ambiental, los océanos y la teledetección, y creo que habrá escenarios de aplicación más amplios en el futuro.

Los recursos pirateados de "Qing Yu Nian 2" se cargaron en npm, lo que provocó que npmmirror tuviera que suspender el servicio unpkg: No queda mucho tiempo para Google. Sugiero que todos los productos sean de código abierto. time.sleep(6) aquí juega un papel. ¡Linus es el más activo en "comer comida para perros"! El nuevo iPad Pro utiliza 12 GB de chips de memoria, pero afirma tener 8 GB de memoria. People's Daily Online revisa la carga estilo matrioska del software de oficina: Sólo resolviendo activamente el "conjunto" podremos tener un futuro para Flutter 3.22 y Dart 3.4 . nuevo paradigma de desarrollo para Vue3, sin necesidad de `ref/reactive `, sin necesidad de `ref.value` Lanzamiento del manual chino de MySQL 8.4 LTS: le ayudará a dominar el nuevo ámbito de la gestión de bases de datos Tongyi Qianwen Precio del modelo principal de nivel GPT-4 reducido en un 97%, 1 yuan y 2 millones de tokens
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/5904778/blog/11046528
Recomendado
Clasificación