WGCNA 소개
- WGCNA (Weighted Gene Co-Expression Network Analysis, weighted gene co-expression network analysis), 유사한 발현 패턴을 가진 유전자 세트 식별 (모듈), 유전자 세트와 샘플 표현형 간의 관계 분석, 유전자 세트 간의 규제 네트워크 매핑 키 식별 조절 유전자
- WGCNA는 복잡한 transcriptome 데이터 (다량의 샘플)에 적합합니다.
- 다양한 장기 / 조직 유형 및 다양한 단계의 발달 조절과 생물학적 및 비 생물 적 스트레스의 다양한 시간 반응 메커니즘을 연구합니다.
WGCNA 원리
원칙 요약
1.유전자 공동 발현 네트워크 구축: 먼저 유전자 공동 발현 네트워크를 구축하고, 일반적으로 두 유전자 간의 발현 패턴을 사용하여 이들 간의 상관 계수를 계산 한 다음 상관 계수를 기반으로 유전자 네트워크를 구축합니다
.모듈 식별: 유전 적 관계를 구축 한 후 임계 값을 사용하여 상대적으로 가까운 유전 적 관계를 설명하고 밀접한 관계를 모듈
3 으로 나눕니다 .모듈을 외부 정보와 연결: 모듈에 기능 값 할당을 포함하여 모듈에 대한 일부 기능 분석을 수행하고 모듈의 유전자를 강화하여 기능을 탐색합니다
.4.모듈 간의 관계 연구: 모듈의 표현 패턴과 모듈의 기능을 통해 생물학적 이슈와 관련된 핵심 모듈
5 를 선별합니다 .주요 모듈에서 조절 유전자 식별: 내부 주석 유전자의 기능 및 조절 수준 간의 관계 등을 포함하여 주요 모듈의 내부 유전자를 분석하여 모듈의 주요 조절 유전자 일부를 식별합니다.
유전 적 관계 네트워크 구축
유전자 간의 상관 관계 계산
- 유전자 간 유사성 : Pearson 상관 계수를 사용하여 서로 다른 샘플의 유전자 발현을 기반으로 두 유전자 간의 상관 관계를 계산합니다.
- 유전자 공동 발현 유사성 매트릭스 : S = [S ij ] (S ij 는 유전자 i 및 유전자 j의 피어슨 상관 계수를 나타냄)
- 하드 임계 값 : 하나의 크기가 모두 적합하고, 두 유전자가 유사한 지 판단하기 위해 임계 값을 설정합니다 (예 : 임계 값 0.8, 상관 계수가 0.8보다 큰 경우 유사, 0.79는 유사하지 않음, one-size-fits- 0.79와 0.81은 생물학에서 크게 다르지 않기 때문에 모든 방법은 생물학적 문제를 연구하는 데 적합하지 않습니다.
- Soft threshold : 가중 함수 (인접 함수)를 통해 상관 계수를 변환하여 인접 행렬 (인접 행렬)을 형성하고 행렬의 요소는 연속적입니다.
- 인접 함수 : 멱 함수 (멱지수 함수)
a ij = 검정력 (S ij , β) = lS ij l β
중요한 점은 인접성 함수의 매개 변수 (β)를 결정하는 것이다 척도없는 네트워크, 척도없는 네트워크의 지수 함수 분포의 유전자 발현 네트워크 따르는 것으로 원리에 기초를.
파워 지수 함수를 만들 수 행렬의 요소 는 스케일없는 네트워크 의 원칙을 따릅니다.
스케일없는 네트워크 (전력 지수 함수는 생물학적 중요성을 준수 함)
- 수학에서의 네트워크 : 네트워크 다이어그램의 포인트 는 네트워크의 각 노드 를 참조 하고 정도는 포인트에 연결된 패스 수 (연결 수)를 나타냅니다.
- 랜덤 네트워크 : 랜덤 네트워크 : 각 노드의 정도는 상대적으로 평균이고 랜덤 네트워크의 각 노드의 연결 수는 Poisson 분포를 따르며 대부분의 노드의 연결 수는 중간에 있습니다.이 중앙값을 랜덤 네트워크의 규모
- Scale-free 네트워크 : Scale-free 네트워크, 일반적인 정도보다 훨씬 많은 포인트가 적은 노드, 이러한 포인트를 허브 라고 하며, 허브는 소수의 다른 노드와 연결되어 궁극적으로 전체 네트워크를 구성합니다. 스케일 프리 네트워크에는 1 차 및 2 차 네트워크가 있음을 알 수 있으며 , 중요한 것은 허브가 중요한 노드 중 일부입니다 .
- 생물학적 조절 네트워크에는 매우 중요한 조절 역할을하는 유전자가 몇 개 있지만 다른 유전자는 조절 수준만큼 높지 않습니다.이 네트워크의 장점은 중요하지 않은 주변 유전자 만 파괴 될 경우 주요 기능입니다. 유기체는 파괴되지 않을 것입니다. 이것은 어떤 스트레스 나 외부 손상에 직면했을 때 유기체가 일정 시간 내에 반응 할 수 있다는 것을 의미합니다.
- 인접 기능의 확립은 유전자 발현 매트릭스가 비척도 네트워크에 부합하게 만들 것입니다
.-== 비늘이없는 네트워크 의 특성과 인접 함수가 유전자 발현 매트릭스가 비늘이없는 네트워크 원칙을 따르는 이유는 무엇입니까? ? ? ==
[1] 스케일없는 네트워크의 멱 법칙 분포 : 노드 연결 수가 k 인 노드의 수 h, k는 h에 반비례하고 음의 상관 관계가 있습니다. 대부분의 포인트는 연결 수가 적고 a 이 네트워크는 네트워크에 노드가없는 거리를 측정하는 척도입니다.
[2] 치료 후 유전자 상관 검정력 기능, 약간의 강력한 상관 관계, 약한 상관 관계 후 취한 n 번째 검정력, 상관 관계 축소
[3] Scale-free : 랜덤 네트워크에서 각 노드의 연결 수는 Poisson 분포를 따르며 대부분의 노드의 연결 수는 중간에 있으며이 중앙값을 랜덤 네트워크의 규모라고합니다. 비 규모 네트워크의 포인트는 연결이 매우 적습니다. 일부 포인트에는 많은 연결이 있으며 네트워크에는 네트워크의 노드 간 거리를 측정 할 수있는 스케일이 없습니다.
주요 매개 변수 β 결정
-
적절한 매개 변수 β를 찾아서 유전자 발현 관계가 스케일없는 네트워크를 따르고, 차수가 높은 노드의 수가 적고, 차수가 적은 노드의 수가 많을수록 좋습니다.
-
그리고 노드 각도 h의 노드 번호를 갖는 k 차는 멱 법칙 프로파일
멱 법칙을 따르고 ; 분포 함수가 멱 함수 흐림 (분포 밀도 함수로 인해 반드시 "모두 반환 ", 그래서 여기서의 멱 함수는 일반적으로 마이너스 1)보다 작게 지정되며 멱 법칙 분배 법칙을 만족한다고 말할 수 있습니다. 이 분포는 본질적으로 일반적인 현상입니다. 예를 들어, 지진의 크기는 일반적으로 크기가 작을수록 빈도가 커지고 크기가 클수록 빈도가 작아집니다. 지진의 크기를 독립 변수로 사용하고 발생 빈도 (또는 확률)를 종속 변수로 사용하여 (음의) 멱 함수를 따릅니다. -
WGCNA에는 1, β = 1, 2부터 시작하여 β의 값을 시도 할 수있는 모델이 있습니다. . . . 멱 함수가 무엇인지 하나씩 계산할 때 모델을 사용하여 계산 한 후 어떤 β가 더 좋은지 결정합니다.
-
β의 타당성을 판단하는 방법
특정 β 매개 변수를 취한 후 구체적으로 k 차 노드 수의 대수 log (k)를 계산하는데, 이는 확률의 대수 log (p (k))와 음의 상관 관계가 있습니다. 노드 발생 일반적으로 상관 계수는 0.8보다 크게 설정됩니다.
β 매개 변수를 8로 설정하면 노드와 차수가 스케일이없는 네트워크와 더 일치합니다.
설정된 매개 변수 β가 다음을 충족하는지 확인하기 위해 척도없는 네트워크, 플롯 로그 10 (p (k)) 및 한편 더 나은 평가를 위해 두 모델 간의 상관 계수, 즉 R 2를 제곱하십시오 . 모델 R 2가 1에 가까우면 다음 사이에 좋은 선형 관계가 있습니다. 둘
유전자 간의 발현 관계 계산 (간접 관계)
- 전에 우리는 유전자 간의 관계 만 고려했습니다.
- 유기체의 유전자 관계 : 직접 관계 + 간접 관계
- 톰: Topological Overlap Measure (TOM)를 이용하여 유전자 간의 연관 정도를 계산하고, 두 유전자 간의 관계를 분석하는 것 외에도 생물학적 중요성이있는 두 유전자와 다른 유전자 간의 연관성을 고려합니다.
- TOM 매트릭스를 설정하기 위해 인접 함수를 기반으로 두 유전자 간의 직접적인 관계를 고려하는 것 외에도 간접적 관계도 고려합니다.
TOM 공식에서 유전자 i와 j 사이의 관계를 계산하는 것은 i와 j 사이의 직접적인 관계를 고려할뿐만 아니라 세 번째 유전자 u 사이의 간접 관계도 고려합니다.
유전자 모듈 구축
Tom 값을 기반으로 동적 트리 생성 방법을 채택하여 유전자 모듈을 구축합니다.
계층 적 클러스터링
- 유전자 모듈의 분할은 유전자 간 연결 의 희소성 ( 유전자 간 희소성 정도로 이해 됨 )을 기반으로하며 TOM 매트릭스 (유사성)는 비 유사성 매트릭스 (비 유사성)로 변환됩니다.d ij w = 1-w ij(행렬 그리기의 편의를 위해)
- TOM 값을 기반으로 적합성의 계층 적 클러스터링으로 트리 구성
- 방법에 대한 간략한 설명 : 정적 전단 트리 및 동적 전단 트리 (동적 트리 방식 및 동적 혼합 전단 방식) WGCNA는 일반적으로 동적 전단 트리를 사용하고, R 패키지는 동적 혼합 전단 방식을 사용합니다.
정적 절단 트리: 클러스터 트리의 연속적인 가지를 정해진 고정 높이 로 단일 클러스터로 자릅니다. 이는 유전자 모듈 식별에 좋은 특이성 을 갖지만 민감도 가 낮고 유전자 모듈의 가장자리에서 유전자를 놓치기 쉽습니다.
동적 트리 방법: "위에서 아래로", 정적 방법으로 여러 개의 더 큰 모듈을 얻고, 연속적인 분해와 조합을 통해 최종 모듈을 식별합니다 (반복 반복 계산 프로세스).
동적 혼합 전단:
[1] 설정된 조건을 충족하는 기본 모듈 식별
(1) 모듈에서 미리 정의한 최소 유전자 수를 충족합니다.
(2) 클러스터의 동일한 분기에 있더라도 클러스터에서 너무 멀리 떨어져있는 유전자 , 또한 제거
(3) 각 클러스터 및 기타 주변 클러스터가 크게 다릅니다
(4) 나뭇 가지 끝에서 각 클러스터의 핵심 유전자가 밀접하게 연결되어 있습니다.
[2] 테스트 단계
(1) 할당되지 않은 유전자를 테스트하고 1 차 클러스터에 충분히 가깝다면 할당
(2) 일반적으로 WGANA는 동적 혼합 전단 방법을 사용하여
설립 과정의 매개 변수
- 모듈의 최소 유전자 수 (miniModuleSize)
- 병합 모듈의 최소 거리 (minicutHeight) : 모듈의 고유 값을 계산하고, 모듈의 고유 값을 사용하여 트리를 만들고, 높이 값 <0.2와 같이 매우 가까운 거리의 모듈을 병합합니다.
- 모듈 특성 값 (Epigengene): 모듈의 모든 유전자에 대해 주성분 분석 (PCA)을 수행합니다. 첫 번째 주성분의 값은 모듈의 전체 유전자 발현 수준 (발현 패턴)을 나타내는 Epigengene입니다. 모듈은 유전자로 간주 할 수 있습니다. , 모듈의 특성 값은이 유전자의 발현 값으로 볼 수 있습니다.
각 모듈의 특성 값은 모듈 간의 상관 관계를 구축하기위한 트리를 구축하는 데 사용되며 모듈은 다음에 따라 병합됩니다. 모듈 사이의 높이 값.
유전자 모듈 스크리닝
방법 1 :발현 패턴 분석-모든 샘플에서 각 모듈의 발현 패턴 분석
방법 2 :표현형 연관성 분석-유전자 모듈과 표현형 데이터 사이의 관계 분석 (이 둘 사이의 상관 계수 계산)
방법 3 :농축 분석-모듈 내 유전자의 GO 및 KEGG 기능 강화 분석 수행
방법 4 :표적 유전자-관심 대상 유전자를 기반으로 모듈 스크리닝
방법 1 : 모듈의 고유 값 표현 패턴 분석
-
모듈 발현 패턴 분석 : 각 샘플에서 모듈의 특성 값의 풍부함
-
모듈 특성 값 (Epigengene) : 모듈의 모든 유전자는 주성분 분석 (PCA)을 거치며, 첫 번째 주성분의 값은 모듈의 전체 유전자 발현 수준 (발현 패턴)을 나타내는 Epigengene입니다. 모듈은 유전자로 볼 수 있으며, 그러면 모듈의 특성 값은이 유전자의 발현 값으로 볼 수 있습니다.
-
샘플에 포함 된 모듈의 특성 값에 대한 긍정적 또는 부정적 표현이 높으면 모듈이 샘플과 밀접한 관련이 있음을 의미합니다.
방법 2 : 모듈 및 표현형 특성의 연관성 분석
- 모듈 유의성 (모듈 유의성, MS) : 모듈에있는 모든 유전자의 유전자 유의성 값의 평균값
- 유전자 유의성 (GS) : 유전자의 발현 수준과 종속 변수 수준 간의 상관 계수로,이 유전자의 발현 수준과 특정 표현형 간의 상관 계수로 이해할 수 있습니다. T test를 이용하여 각기 다른 표현형 표본 군에서 각 유전자의 차별적 발현에 대한 유의성 검정 P 값 (Pearson 상관 계수)을 계산합니다. 일반적으로 P 값은 10을 기준으로 한 로그를 사용하여 유전자 유의성 GS로 정의됩니다.
- 각 모듈의 MS 값과 특정 표현형 특성을 계산합니다. 한 모듈의 MS 값이 다른 모듈의 MS 값보다 상당히 높으면이 모듈과 특성간에 연관 관계가 있습니다.
- 모듈 고유 값 유의성 (Epigengene 유의성, ES) : 모듈의 고유 값과 특성 사이의 상관 계수 및 특성과 가장 높은 상관 관계가있는 모듈을 선택합니다.
방법 3 : 모듈 유전자의 기능적 농축 분석
- 각 모듈에 대해 GO 및 KEGG 기능 강화 분석을 수행하고 심층 탐구를 위해 당사의 연구 특성과 가장 밀접한 상관 관계가있는 모듈을 찾습니다.
방법 4 : 표적 유전자에 기반한 스크리닝 모듈
- 연구 목적, 예비 연구 결과 및 출판 된 문헌에 따라 큰 관심사 인 표적 유전자가 있으며, 표적 유전자가 위치한 유전자 모듈을 직접 선별하여 다음 분석 단계를 진행할 수있다.
주요 유전자 식별
방법 1 :모듈 내 유전자 연결성 분석
방법 2 :특정 기능 (유형) 유전자 분석
방법 3 :표적 유전자 연관 분석
방법 1 : 모듈 내 유전자 연결성 분석
- Connectivity (degree) : 유전자에 연결된 다른 모든 유전자의 합 (직접 연결 + 간접 연결), 유전자와 다른 유전자 간의 연관 정도를 설명하며 일반적으로 K 값으로 표현됩니다.
- 모듈 내 연결 모듈 내부 연결 IC : 모듈 내 유전자와 모듈 내 다른 유전자 간의 연관 정도 (공동 발현 정도), KIM 값으로 표현 , 모듈 멤버십 (MM) 측정에 사용할 수 있음
- Module Menbership MM 또는 Epigengene-bsaed connectivity KME : 모든 샘플에서 유전자의 발현 프로필과 특정 모듈 특성 값의 발현 프로필 간의 상관 관계를 사용하여이 모듈에서이 유전자의 정체성을 측정하는 모듈 식별
- KME 값이 0에 가까워이 유전자가 모듈의 구성원이 아님을 나타냅니다 .KME가 1 또는 -1에 가까워이 유전자가 모듈과 밀접하게 관련되어 있음을 나타냅니다 (양성 또는 음성).
- 모듈의 구성원이 아닌 모든 유전자에 대해 모듈에 대한 KME 값을 계산할 수 있습니다.
- KME와 KIM의 차이점 : IC는 특정 모듈에서 유전자의 정체성을 측정하고 MM은 글로벌 네트워크에서 유전자의 위치를 측정합니다.
- KME와 KIM은 높은 상관 관계가 있습니다 . 특정 모듈에서 KIM 값이 높은 허브 유전자는 해당 모듈에서 높은 KME를 가져야합니다.
주요 유전자 선별 :
【1】
- TOM 값 (모듈 조절 관계 테이블의 가중치 값)이 임계 값 (기본값 0.15)보다 큰 두 유전자는 관련이있는 것으로 간주하고 각 유전자의 연결 정도를 계산합니다. 강도를 먼저 선별 한 다음 연결 정도를 계산합니다.
- 모듈 (KME 또는 KIM)에서 상위 30 % 또는 10 % 순위를 차지하는 모듈 내부 연결 유전자
- Cytoscape는 일반적으로 네트워크 다이어그램을 그리기 위해 가중치 값 (TOM 값)을 사용합니다.
[2] - 유전자 유의성 GS에 상대적인 유전자 모듈 동일성 MM의 산점도를 만들고 추가 분석을 위해 오른쪽 상단에서 높은 MM 및 GS를 가진 유전자를 선택합니다.
- 유전자 유의성 (GS) : 유전자 발현 수준과 종속 변수 수준 간의 상관 계수로, 유전자와 표현형 특성 간의 연관 정도를 측정합니다. GS가 높을수록 표현형이 더 관련되고 생물학적으로 더 의미가 있습니다. GS는 양수 또는 음수 일 수 있습니다 (양의 상관 관계 또는 음의 상관 관계).
방법 2 : 특정 기능 (유형)에 대한 유전자 분석
- 연결성이 높은 유전자는 일반적으로 규제 네트워크의 상류에 위치하며, 낮은 연결성을 갖는 유전자는 일반적으로 규제 네트워크의 하류에 위치합니다.
- 조절 네트워크의 상류는 일반적으로 전사 인자와 같은 조절 인자이고, 하류는 일반적으로 기능적 효소 또는 단백질 분자입니다.
- 조절 기능이있는 유전자, 일반적으로 전사 인자에 초점을 맞 춥니 다. 이러한 유전자는 종종 핵심 유전자입니다.
방법 3 : 표적 유전자 연관 분석
- 연구 목적에 따라 표적 유전자의 TOM 값이 상위 10 개 유전자 또는 TOM 값이 0.2 이상인 유전자 (임계 값 설정 가능) 등 표적 유전자와 밀접한 관련이있는 유전자를 선별합니다.
- 표적 유전자와 상류 및 하류 규제 관계가있는 후보 유전자를 정확하게 스크리닝 할 수 있습니다.
- 표적 유전자가 고도로 연결되어 있지 않은 경우, 표적 유전자와 TOM이 높고 연결성이 높은 유전자를 선택할 수 있습니다.