【バイオインフォマティクス】隠れマルコフモデルを用いた生体配列のモデリング

マノリス・ケリス教授からのレッスン

隠れマルコフのゲノミクスへの応用をいくつか教えた

隠れ状態シーケンスの解読問題に焦点を当てる

系列確率推定とパラメータ問題の解決については詳細な説明がありません

この記事を閲覧するには一定の基礎が必要であり、それが必要な学生はステーション b に行ってティーチャー・タン・ユディ:隠れマルコフ
を読むことができます。 内容が複数の場所を参照しているため、記号は相違点を示していますが、意味は同じです。たとえば、Q と I はどちらも暗黙的なシーケンスを表します。

HMMS を使用した生物学的シーケンスのモデリング

これらの用語は、遺伝子の構造と遺伝子発現に関連しています。

  1. 遺伝子間: これは、染色体上の遺伝子間の DNA 領域を指します。
  2. CpG アイランド: CpG アイランドは、高密度の CpG 部位 (グアニン ヌクレオチドとそれに続くシトシン ヌクレオチドの領域) を含む DNA 領域です。これらの領域は遺伝子プロモーターの近くに位置していることが多く、遺伝子制御において役割を果たす可能性があります。
  3. プロモーター: プロモーターは、遺伝子の上流に位置する DNA 領域で、遺伝子を転写する酵素である RNA ポリメラーゼの結合部位として機能します。
  4. 最初のエクソン: エクソンは、mRNA に転写され、最終的にタンパク質に翻訳されるコーディング DNA の領域です。遺伝子内のエクソンはイントロンによって分離されています。最初のエクソンは、遺伝子のプロモーター領域の直後のエクソンです。
  5. その他のエクソン: 遺伝子内の最初のエクソンの後に位置する任意のエクソン。
  6. イントロン: イントロンは、遺伝子のコード配列 (エクソン) に挿入される遺伝子の非コード DNA 領域です。
  1. 特定の種類の DNA 配列を放出する能力: 特定の種類の DNA 配列を放出する能力を持つ生物またはサンプルを指します。これらの DNA 配列は、以前に知られていた遺伝子と同一ではない可能性がありますが、そのタイプのいくつかの特徴や性質は依然として保持しています。
  2. 特定のタイプの DNA 配列状態を認識する能力: イニシエーター、エクソン、イントロンなどの配列など、DNA 配列内の特定の状態を認識する能力を指します。機械学習アルゴリズムを使用すると、どの隠れ状態が観察された結果を生み出す可能性が最も高いかを判断し、一連の状態と遷移の関係を見つけて、より長い DNA 配列を生成することができます。
  3. 各状態の特性を学習可能: 特定の DNA 配列内のこれらの状態を識別するために、機械学習アルゴリズムを通じて各状態の特性を学習する生成モデルのトレーニングを指します。大規模な DNA 配列データセットで生成モデルをトレーニングすることにより、各状態を区別する特徴を学習でき、これらの特徴を利用して標識されていない DNA 配列を分類できます。

長いシーケンスを解析します。

隣接する位置間の依存関係

先ほど学習した生成モデルによれば、隠れ層と観測層だけを考慮するだけでなく、隠れ状態間の遷移関係も考慮する必要があることがわかります。

  • マルコフ連鎖と隠れマルコフの概念

マルコフ連鎖は実際には非常に単純で、オンラインビデオがたくさんあります

Hidden Markov に関する優れたチュートリアルは比較的少ないですが、これが私が良いと思うものです: Hidden Markov

分からなかったらネットで調べればいいよ

この図では、マルコフ連鎖の暗黙の状態は天気であり、隠れマルコフでは天気は観測状態、季節は暗黙の状態です。この違いに注意してください。

(記号表現は異なります)

3 つの要素: 上記は隠れマルコフ モデルの外部表現であり、隠れマルコフ モデルλ \lambdaを促進します。λが時間の経過とともに継続的に実行されるカーネルは、その 3 つの要素です: 状態遷移行列AAA、観測確率行列 (出力確率行列とも呼ばれます)BBB、および初期隠れ状態確率ベクトルπ \pi三重項として省略されるπ は次のようになります: λ = ( A , B , π ) \lambda=(A,B,\pi)=( A B p )

主な研究課題:

  1. 最初の研究の内容は、観測シーケンスの確率推定です。3つのサイコロの遷移確率行列と、各サイコロが各点を出力する確率がわかれば、トリックスターなどの任意の観測シーケンスの確率を計算できます。奇妙な 6 が 8 回連続してスローされると、これが発生する可能性がどの程度であるかがわかります。
    • 隠れマルコフ モデルの形式言語の概要は次のとおりです。隠れマルコフ モデルの 3 つの要素が与えられた場合、λ = ( A , B , π ) \lambda=(A,B,\pi)=( A B π )、特定の観測シーケンスの場合O = ( o 1 , o 2 , . . . , o T ) O = ( o 1 , o 2 , . . . , o T )=( o 1 2... o T )、彼の出現確率を求めます。
  2. 2 番目の研究の内容は、隠れ状態シーケンスのデコードです。古い 1,000 スイッチング 3 つのサイコロの遷移確率と、各サイコロが各点を出力する確率がわかっている場合、既知の観測シーケンス、つまり、次のシーケンスを渡すことができます。サイコロのポイント、不正行為者が使用したサイコロのシーケンス、つまり隠し状態のシーケンスをデコードします。言い換えれば、トリックスターが投げたすべての点の背後でどのサイコロを使用したかを把握し、彼がいつ千を出したかを判断することが可能です。
    • 隠れマルコフ モデルの形式言語の概要は次のとおりです。隠れマルコフ モデルの 3 つの要素が与えられた場合、λ = ( A , B , π ) \lambda=(A,B,\pi)=( A B π)和观测序列 O = ( o 1 , o 2 , . . . , o T ) O = ( o 1 , o 2 , . . . , o T ) =( o 1 2... o T )、最も可能性の高い対応する隠れ状態シーケンスを見つけますI = ( i 1 , i 2 , ... i T ) I=(i_1,i_2,...i_T)=(私は12...T

例えば

最初の HMM: GC が豊富な領域の検出

観察状態:一般配列(バックグラウンド)の4塩基の出現確率は同じで、プロモーター配列のGCの確率が高い

暗黙の状態: 前の塩基がバックグラウンドに属している場合、次の塩基の 99% が依然としてバックグラウンドであり、1% がプロモーターです。前の塩基がプロモーターに属する場合、次の塩基の 95% がプロモーター、5% がバックグラウンドになります。

モデルの実行: シーケンスの確率

実は、これは先ほど触れた隠れマルコフの最初の研究内容であり、観測系列の確率推定を解くというものです。

指定された隠れマルコフ モデルでは、3 つの要素λ = ( A , B , π ) \lambda=(A,B,\pi)=( A B π )、特定の観測シーケンスの場合O = ( o 1 , o 2 , . . . , o T ) O = ( o 1 , o 2 , . . . , o T )=( o 1 2... o T )、彼の出現確率を求めます。

ここでは 2 つのケースを示します。つまり、隠れ状態シーケンスが追加で与えられるため (実際の問題では知られていません。これは仮定です)、この観測状態の確率 (初期値) を計算できます。 * 1 回ごとの移行確率 * 各発射確率

  • 比較する
    • まず、観測シーケンスが与えられた後、隠れ層シーケンスがすべてバックグラウンドである (仮説) と隠れ層シーケンスがすべてプロモーターである (別の仮説) を比較すると、観測シーケンスが前に現れる確率は後者よりも高くなります。

  • 実際には、転送があるため、そのような仮定は数多くあります。
    • この例の確率は、乗算される 2 つの遷移確率が比較的小さいため (B->P および P->B) 小さくなります。

  • λ = ( A , B , π ) \lambda=(A,B,\pi) と指定できます。=( A B π )、特定の観測シーケンスの場合O = ( o 1 , o 2 , . . . , o T ) O = ( o 1 , o 2 , . . . , o T )=( o 1 2... o T )および仮定された暗黙的なシーケンスQ = ( q 1 , q 2 , . . . , q T ) Q = ( q 1 , q2 , . . . , q T )Q=( q 1 q2 _... qT )を使用して確率を求めます。しかし、重要な点は、暗黙のシーケンスが多すぎて想定できないということです。乱暴に列挙すると、オーバーヘッドが高くなり、時間の複雑さが高くなりすぎます。
    • したがって、観測シーケンスの確率を見つけることができるように、動的計画法を導入して最大同時確率の仮定 (隠れシーケンス) を見つける必要があります [この段落は私のナンセンスです。誤解している可能性があります。する必要はありませんそれを読んで質問してください。最初の研究コンテンツはフォワードアルゴリズムを使用し、2 番目のコンテンツは動的プログラミングを使用する必要があります]

ビタビ アルゴリズム ビタビ

これは動的計画法アルゴリズムです

大変申し訳ありませんが、私の誤解(私の下手な英語)とタイトルに誤解されたため、先生が実際に2番目の研究内容を教えていたことがわかりました(したがって、前の段落は全くのナンセンスです)、暗黙的な状態のデコードは、当然のことです既知の観測シーケンスから、最も可能性の高い対応する状態シーケンスを見つけます (ただし、2 つの内容は高度に相関しているため、無害です。HMM が何であるかを理解していれば、これは大きな問題ではありません)。

最初の研究内容のときのP ( O ∣ λ ) P(O|\lambda)を求めます。P ( O λ )が最も大きく、2 番目の研究内容はP ( I ∣ O , λ ) P(I|O,\lambda) をP ( I O ,λ )最大

隠れマルコフ モデルの形式言語の概要は次のとおりです。隠れマルコフ モデルの 3 つの要素が与えられた場合、λ = ( A , B , π ) \lambda=(A,B,\pi)=( A B π)和观测序列 O = ( o 1 , o 2 , . . . , o T ) O = ( o 1 , o 2 , . . . , o T ) =( o 1 2... o T )を使用して、条件付き確率P ( I ∣ O ) P(I∣O)P (O )が最大 (対応する可能性が最も高い)、隠れ状態シーケンスI = ( i 1 , i 2 , ... i T ) I=(i_1,i_2,...i_T)=(私は12...T

ボールタッチの例

  • 理解を助けるために中国語で例を挙げ、記号のさまざまな意味に注意してください。漸化式を理解すれば物事は簡単です
    • 隠れ状態セットQ = ボックス 1 、ボックス 2 、ボックス 3 Q = { ボックス 1 、ボックス 2 、ボックス 3 }Q=ボックス1 、ボックス2 、ボックス3 、 π 、 A 、 B \pi、 A、 B が与えられた場合、各ボックスは赤いボールと白いボールを引く確率が異なります。π A B

  • 時刻 t1 では、観測シーケンスが赤球o 1 o1であるため、o 1なので、最初のπ \piである限りπは対応するボックスo 1 o1o 1の確率

  • 時刻 t2 では、観測シーケンスは白球o 2 o2であるため、o 2なので、時間 t2 における 3 つのボックスの確率を計算できます。
    • 時刻t2のボックスNo.1を例にすると、時刻t1の確率(ボックス3個)に対応するボックスNo.1への転送確率を乗算し、その最大値を抽選確率に乗算します。ボックス No.1 の白球 (発射確率)
    • なぜこの方法が良いのかというと、最大値が採用され、他の 2 つの可能性は破棄されるため、これら 2 つの追跡を考慮する必要がないからです。

  • これが何であるかを説明します。これら 3 つの中で最大の状態を保存するもので、最終的なまとめで使用されます。

  • 次に、時刻 t3 で結果を取得し、最大可能性を見つけます。

  • 私たちはそれを前から後ろに押して、最大の確率を見つけてから、反転してこの道路からの道を見つけました。

クラスに戻る

実際、これはこの例のプロセスを反映しています。

パラメータの解決

上記の問題はλ = ( A , B , π ) \lambda=(A,B,\pi) で与えられることがわかりました。=( A B π )ですが、実際の問題においてこれらのパラメータはどこから来るのでしょうか

  • データから簡単に計算できます

  • 実際、何も知らないことの方が一般的であり、そこに課題が生じます。

  • 実はこれがHMMの3つ目の研究内容で、パラメータを解くというものです。数学的な導出はより複雑で、実際には EM アルゴリズム (プロセスは Kmeans に似ています) が使用され、継続的に反復し、最尤推定を通じて最良の値を見つけます。

  • EM

  • ゲノミクスにおける HMM の重要性 (私による)

    • たとえば、DNA 配列に従って、それがどの状態に属するかを決定します (プロモーター、エクソン、イントロンなど)。
  • ゲノミクスにおける HMM の重要性 (ChatGPT より)

    • 遺伝子同定: HMM は遺伝子同定、つまりゲノム配列からタンパク質をコードする遺伝子配列を見つけるために使用できます。このプロセスでは、HMM は既知のタンパク質コード配列情報を使用してモデルをトレーニングし、この情報に基づいて潜在的なタンパク質コード遺伝子を特定します。
    • DNA 配列のアラインメント: HMM を使用して DNA 配列をアラインメントできます。アライメントはゲノミクスにおける重要なタスクの 1 つであり、研究者が異なる種または個体間の DNA 配列の違いを見つけるのに役立ちます。HMM は、2 つ以上のシーケンスの類似性を比較することによってアライメントを達成できます。
    • RNA 配列構造の予測: HMM を使用して RNA 配列の構造を予測できます。RNA 配列は遺伝子発現において重要な役割を果たしているため、ゲノミクスの重要な部分です。HMM は、RNA 配列の既知の構造情報を使用して、新しい配列の構造を予測できます。
    • 遺伝子ファミリー分類: HMM は遺伝子ファミリー分類に使用できます。つまり、遺伝子はその機能と構造に従って異なるファミリーに分類されます。これは遺伝子の機能と進化の歴史を理解するために非常に重要です。
  • 対応する観察状態と隠れ状態 (ChatGPT による)

    • 隠れマルコフ モデルには、隠れ状態と観測状態の 2 つの状態があります。
    • 非表示の状態は、観察者には見えないモデル内の状態を表します。ゲノミクスでは、暗黙の状態は、DNA のオープン リーディング フレーム (ORF) や RNA のスプライス サイトなど、ゲノム配列の潜在的な構造とみなすことができます。遺伝子認識や RNA 構造予測では、HMM の隠れた状態は通常、遺伝子の位置と境界だけでなく、ヘアピン ループ、四重鎖、エクソン、イントロンなどの RNA のさまざまな構造状態を表します。
    • 観測状態とは、モデルの外側に見える状態、つまり直接観測できる状態を表します。ゲノミクスにおいて、観察状態とは通常、ATCG塩基配列、RNA配列の二次構造、アミノ酸配列などのゲノム配列上の特徴を指します。
    • したがって、ゲノミクスでは、HMM の隠れた状態は通常、ゲノム配列の基礎となる構造を表しますが、観察された状態はゲノム配列上の特徴です。HMM の目的は、ゲノム配列の機能と構造をより深く理解するために、観察された状態から隠れた状態を推測することです。

おすすめ

転載: blog.csdn.net/weixin_57345774/article/details/130241490