생물학 강의 1에서 현대 통계 방법 및 응용 프로그램 우발 상황 표 1 : Chargaff 규칙 검증 (기본 페어링 규칙)

생물학 강의 1에서 현대 통계 방법 및 응용 프로그램 우발 상황 표 1 : Chargaff 규칙 검증 (기본 페어링 규칙)

문제 설명 : Chargaff 규칙

Nucleotide는 핵산의 기본 단위로 질소 염기를 핵으로하고 5 탄당과 1 개 이상의 인산기를 사용합니다. 아래 사진은 Wikipedia에서 가져온 것입니다. 질소 염기에는 아데닌 (A), 구아닌 (G), 시토신 (C), 티민 (T) 및 우라실 (U)의 5 가지 유형이 있습니다. 데 옥시 리보스 인 5 탄소 당은 DNA 단량체의 기본 단위 인 데 옥시 리보 뉴클레오타이드라고하고 리보스 인 5 탄소 당은 RNA의 기본 단위 인 리보 뉴클레오타이드라고합니다. DNA에있을 수있는 염기는 ATCG이고 RNA에있을 수있는 염기는 AUCG입니다.
여기에 사진 설명 삽입

뉴클레오티드 분포 빈도의 규칙은 1952 년 Elson과 Chargaff에 의해 발견되었습니다 (Elson, D 및 E Chargaff. 1952. "성게 배우자의 Desoxyribonucleic Acid 함량."Experientia 8 (4). Springer : 143–45.) . Chargaff의 몇 가지 실험 데이터는 다음과 같습니다.

##                   A    T    C    G
## Human-Thymus   30.9 29.4 19.9 19.8
## Mycobac.Tuber  15.1 14.6 34.9 35.4
## Chicken-Eryth. 28.8 29.2 20.5 21.5
## Sheep-liver    29.3 29.3 20.5 20.7
## Sea Urchin     32.8 32.1 17.7 17.3
## Wheat          27.3 27.1 22.7 22.8
## Yeast          31.3 32.9 18.7 17.1
## E.coli         24.7 23.6 26.0 25.7

첫 번째 열은 특정 유기체의 특정 부분을 나타내고 각 행에있는 4 개의 숫자는이 부분에있는 4 개의 뉴클레오티드 비율을 나타냅니다. 아래는 이러한 데이터의 히스토그램입니다.

여기에 사진 설명 삽입
Chargaff는 이러한 실험 데이터를 기반으로 결론에 도달했습니다. A의 내용은 T와 같고 C의 내용은 G와 같습니다.이 결론을 Chargaff 규칙이라고합니다. 이것은 실제로 고등학교 생물학에서 우리는 DNA 구조에 염기쌍 원리가 있다는 것을 배웠습니다. DNA는 이중 가닥 구조이기 때문입니다. 두 가닥의 염기는 쌍 관계를 충족합니다. A와 T는 쌍을 이룹니다. 그리고 C와 G는 쌍을 이룹니다. 따라서 p A = p T, p C = p G p_A = p_T, p_C = p_GA=,C=G

Chargaff 규칙의 통계 확인

논의 할 가치가있는 질문은 p A = p T, p C = p G p_A = p_T, p_C = p_G입니다.A=,C=G그것이 사실이든 아니든, 통계적 의사 결정 방법을 사용하여 모델링하고, 우리는 확인해야합니다 :
H 0 : C hargaff 규칙이 참이 아닙니다 H a : p A = p T, p C = p G H_0 : Chargaff 규칙이 아닙니다 참 \\ H_a : p_A = p_T, p_C = p_GH0:C H A R & lt G A F F 규칙 있지 않아야 합니다.Ha:A=,C=G

우리가 배운 가설 테스트 도구를 검토 할 수 있습니다.

사무용 겉옷 테스트 평균 시험 비율
단일 인구 Z 검사, T 검사 비례 z 테스트
두 인구 Z 검사, T 검사 비례 z 테스트
다중 인구 ANOVA F 테스트 우 발표 카이 제곱 검정

우리가해야 할 가설 검정에 따르면 이것은 분명히 4 인구 비율 검정 문제이므로 분할 표를 사용해야합니다.

분할 표 방법을 이해하지 못하는 경우 간단한 통계를 정의하여 Chargaff 규칙을 확인할 수도 있습니다. 정의 2 + (p C - P G) 2 \ 치 ^ 2 = (p_A-p_T) ^ 2 + (- p_C p_G) ^ 2 - 2 = (P P T A) χχ2=( pA)2+( pCG)2

이 통계를 직관적으로 이해하고 귀무 가설에서이 통계는 0과 같으므로 통계 값이 작을수록 귀무 가설을 더 신뢰할 수 있습니다.

statChf = function(x){
    
    
  sum((x[, "C"] - x[, "G"])^2 + (x[, "A"] - x[, "T"])^2)
}
chfstat = statChf(ChargaffTable)
permstat = replicate(100000, {
    
    
     permuted = t(apply(ChargaffTable, 1, sample))
     colnames(permuted) = colnames(ChargaffTable)
     statChf(permuted)
})
pChf = mean(permstat <= chfstat)
pChf
## [1] 0.00014

설명
처음 세 줄에 정의 된 statChf 함수는 우리가 정의한 χ 2 \ chi ^ 2 통계를 계산하는 것입니다.χ2. 네 번째 줄은이 함수를 사용하여 Chargaff의 실험 데이터를 대체하여χ 2 \ chi ^ 2통계를 계산하는 것입니다.χ 2 ;

5 ~ 8 개 행은 복제 함수를 사용하여 원래 데이터를 부트 스트랩하고 부트 스트랩 샘플을 사용하여 χ 2 \ chi ^ 2 를 계산합니다.χ2 통계,χ 2 \ chi ^ 2얻기χ2 의 경험적 분포. 100000의 첫 번째 입력은 100,000 세트의 부트 스트랩 샘플을 얻고 자 함을 의미하고 두 번째 입력은 이러한 부트 스트랩 샘플을 사용하여 {}에서 명령문을 실행하려고 함을 의미합니다. 이는 아마도 각 라인의 비율을 대체 할 것입니다. 새 샘플, statChf 함수를 사용하여χ 2 \ chi ^ 2계산χ2 통계.

9 ~ 10 번째 줄은 경험적 분포를 기반으로 검정의 p- 값을 계산하고 있는데 결과는 0.00014로 귀무 가설을 상당히 기각 할 수 있으므로 Chargaff 규칙이 유지됩니다. 아래 막대 그래프는 경험적 분포를 나타내고 빨간색 선은 실험 데이터를 나타냅니다. χ 2 \ chi ^ 2χ2 통계.

hist(permstat, breaks = 100, main = "", col = "lavender")
abline(v = chfstat, lwd = 2, col = "red")

여기에 사진 설명 삽입

추천

출처blog.csdn.net/weixin_44207974/article/details/112551516