Introducción
- Los datos de Sequence Read Archive (SRA) están disponibles a través de varios proveedores en la nube y servidores NCBI. Es el mayor depósito de datos de secuenciación de alto rendimiento disponible públicamente.
- SRA acepta datos de varios departamentos de vida, metagenómica y estudios ambientales.
- SRA almacena datos de secuenciación sin procesar e información de comparación para mejorar la reproducibilidad y facilitar nuevos descubrimientos a través del análisis de datos.
- El sitio web del NCBI almacena la base de datos de los datos brutos de la secuenciación de segunda generación.
- Sitio web oficial de la SRA
Descargar la secuencia SRA de los resultados de búsqueda de Entrez
Por ejemplo, busque registros de RNA-Seq de tejido de ganglio linfático de ratón BALB / c en SRA Entrez
Obtener resultados de búsqueda
- Búsqueda avanzada en la búsqueda SRA: (((“mus musculus” [Organismo]) AND BALB / c *) AND “lymph *”) Y “rna seq” [Estrategia]
- Para limitar su búsqueda solo a datos alineados, agregue Y datos de alineación [atributo] a la consulta anterior.
- Haga clic en la casilla de verificación junto al registro (experimento) para seleccionar los datos de interés. Desmarque todas las casillas de verificación para seleccionar todos los registros (experimentos) de la búsqueda.
Obtener accesiones de ejecución
Las accesiones de ejecución se utilizan para descargar datos de SRA. Para descargar la lista de accesiones de ejecución seleccionadas en su búsqueda de Entrez, haga lo siguiente:
- Haga clic en enviar a en la parte superior de la página, seleccione el botón de opción Archivo y seleccione Lista de accesiones
- Guarde este archivo en la ubicación donde ejecuta el kit de herramientas SRA.
El formato del archivo Sraacclist.txt es el siguiente:
SRR11192680
SRR11192681
SRR11192682
SRR11192683
SRR11192684
Utilice el kit de herramientas de SRA para descargar archivos de datos de secuencia
- El archivo de ejecución SRA contiene solo datos de secuencia y no contiene metadatos vinculados a la ejecución (información de muestra, etc.)
- Asegúrese de estar ejecutando la última versión del kit de herramientas, ya que es posible que la versión anterior no sea compatible con los últimos datos cargados o con el último protocolo de red.
Instale el kit de herramientas SRA:
- Descarga sratoolkit.current-win64.zip: http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-win64.zip
- camino:C: \ Users \ xuyunfeng \ Desktop \ sratoolkit.current-win64 \ sratoolkit.2.10.9-win64
- Abra un shell de comandos, como iniciar o ejecutar == cmd.exe ==
- discos compactosVaya al directorio donde descomprimió el archivo zip
- contenedor de cd
Configurar el kit de herramientas de SRA
- Solo es necesario habilitar una pequeña cantidad de opciones para acceder a datos de acceso público y controlado en la nube. Para iniciar la configuración, ejecute:vdb-config -i
- Verá una pantalla donde puede manipular los botones presionando la letra resaltada en rojo, o presionando la tecla Tab hasta llegar al botón deseado, y luego presionando la barra espaciadora o la tecla Enter.
- Desea habilitar la opción "Acceso remoto" en la pantalla principal.
- Vaya a la pestaña "Caché", donde habilitará "Caché de archivos local" y establecerá la "Ubicación del repositorio de usuarios".
- El directorio del repositorio debe establecerse en una carpeta vacía. Esta es la carpeta donde la captación previa almacenará los archivos.
- Vaya a la pestaña de su proveedor en la nube y acepte "Informar la identidad de la instancia en la nube"
- La identidad de la instancia en la nube solo informa la nube que está utilizando (AWS v GCP), por lo que puede acceder a los datos de forma gratuita.
Compruebe si el kit de herramientas está disponible
fastq-dump --stdout -X 2 SRR390728
Después de unos segundos, el comando genera la siguiente salida
Leer 2 puntos para SRR390728
escritas 2 puntos para SRR390728
@ SRR390728.1 1 longitud = 72
CATTCTTCACGTAGTTCTCGAGCCTTGGTTTTCAGCGATGGAGAATGACTTTGACAAGCTGAGAGAAGNTNC
+ SRR390728.1 1 longitud = 72
;;;;;;;;;;;;;;;;;;;;;;; ;;;; 9 ;; 665142 ;;;;;;;;;;;;;;;;;;;;;;;;;;;;; 96 &&&& (
@ SRR390728.2 2 longitud = 72
AAGTAGGTCTCGTCTGTGTTTTCTACGAGCTTGTGTTCCAGCTGACCCACTCCCTGGGTGGGGGGACTGGGT
+ SRR390728 .2 2 longitud = 72
;;;;;;;;;;;;;;;;;; 4 ;;;; 3; 393.1 + 4 && 5 && ;;;;;;;;;;;;;;;;; ;;;; <9; <;;;;; 464262
Descargar datos públicos
- PrefetchEs parte del kit de herramientas de SRA. Este programa descarga Runs (archivos de secuencia comprimidos en formato SRA) y todos los demás datos necesarios para convertir Run del formato SRA a un formato más común. La captación previa se puede utilizar para corregir y completar descargas de ejecución incompletas
- Utilice este comando de captación previa para descargar Ejecutar del ejemplo anterior en formato SRA
$ prefetch SRR000001
Lista de carreras:
prefetch --option-file SraAccList.txt
- fastq-dump 和 sam-dumpTambién es parte del kit de herramientas SRA y se puede utilizar para convertir ejecuciones extraídas previamente del formato SRA comprimido al formato fastq o sam , por ejemplo:
quickq-dump --split-files SRR11180057.sra
- También puede evitar el paso de búsqueda previa ingresando solo Ejecutar acceso sin la extensión .sra en el comando fastqq-dump o sam-dump y descargar y convertir la operación paso a paso:
rapidq-dump: archivos divididos SRR11180057
Descarga el archivo enviado original
- Si desea utilizar el archivo enviado original en lugar de volcar datos estandarizados del archivo, SRA ha almacenado el archivo enviado original en un depósito de almacenamiento en la nube al que se puede acceder a través del comando prefetch.
- Consulte Descargar datos de secuencia de SRA mediante Amazon Web Services (AWS)
- Por ejemplo, el comando prefetch
captación previa: tipo fastq SRR11180057
Utilice el comando == - type == para especificar el tipo de archivo que se descargará. Puede encontrar el tipo de archivo del archivo original en la SRA de BigQuery o en la pestaña " Acceso a datos " en "Ejecutar navegador" , o usar cualquiera para obtener todos los formatos disponibles.
Descargar datos protegidos
Para obtener información sobre cómo descargar datos dbGaP, consulte: Guía de uso de datos protegidos
Descargar metadatos relacionados con datos SRA
Desde la página de resultados de búsqueda
- El archivo SRA Run no contiene ninguna información sobre los metadatos vinculados a los datos en sí (información de ejemplo, etc.).
- Para descargar los metadatos de cada ejecución en la consulta de Entrez, haga clic en Enviar a en la parte superior de la página, seleccione el botón de opción Archivo y luego seleccione RunInfo en el menú desplegable.
- Esto generará un tabularSraRunInfo.csvArchivo que contiene metadatos disponibles para cada ejecución.
Desde el selector de ejecución
Desde Run Selector, descargue un conjunto de metadatos ligeramente diferente en un archivo delimitado por tabulaciones
para descargar los metadatos para cada consulta de Run Entrez, haga lo siguiente:
- Haga clic en Enviar en la parte superior de la página, marque el botón de opción Ejecutar y luego haga clic en el botón para ingresar.
- Si es necesario, utilice los distintos filtros que se proporcionan en la interfaz Run Selector para refinar los resultados.
- Haga clic en el botón "Ejecutar hoja de información". Esto generará una tablaSraRunTable.txtArchivo que contiene metadatos disponibles para cada ejecución.
Descargar datos de secuencia desde Run Browser
Run Browser permite la descarga limitada de secuencias HTTP desalineadas y alineadas
Ejemplos de secuencias no alineadas
- Abra la ejecución seleccionada en Run Browser .
- Haga clic en la pestaña Lecturas .
Aplicando Filtro para encontrar algún material de lectura o campo de criterios de filtro vacío.
Haga clic en el botón Descarga filtrada .
Seleccione el formato de descarga disponible y haga clic en el enlace Descargar .
Ejemplo de secuencia alineada
Abra la ejecución seleccionada en Run Browser .
Haga clic en la pestaña Alineación .
Seleccione el formato de descarga disponible en el menú desplegable y luego haga clic en el botón Pantalla o Archivo para enviar la ejecución a la pantalla o archivo.
Descargar datos de secuencia SRA desde la nube
Referencia: https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/