碱基序列匹配 (25 分)

地理项目是IBM和国家地理学会的合作研究项目,从成千上万捐献的DNA分析地球上人类是如何繁衍的。

作为一个IBM的研究人员,请你写一个程序找出给定的DNA片段之间的相同之处,使得对个体的调查相关联。

一个DNA碱基序列是指把在分子中发现的氮基的序列给罗列出来。有四种氮基:腺嘌呤 (A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(D),例如,一个6碱基DNA序列可以表示为 TAGACC。

给出一个DNA碱基序列的集合,确定在所有序列中都出现的最长的碱基序列。

输入格式:

输入的第一行给出了整数n,表示测试数据集合的数目。每个测试数据集合由下述两部分组成:

一个正整数m(2≤m≤10),给出数据集合中碱基序列的数目。

m行,每行给出一个60碱基的碱基序列。

输出格式:

对于输入的每个测试数据集合的所有的碱基序列,输出最长的相同的碱基子序列。

如果最长的相同的碱基子序列的长度小于3,则输出“no significant commonalities”来代替碱基子序列。

如果相同最长长度的子序列有多个,则仅输出按字母排序的第一个。

输入样例:

3
2
GATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
3
GATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATACCAGATA
GATACTAGATACTAGATACTAGATACTAAAGGAAAGGGAAAAGGGGAAAAAGGGGGAAAA
GATACCAGATACCAGATACCAGATACCAAAGGAAAGGGAAAAGGGGAAAAAGGGGGAAAA
3
CATCATCATCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCC
ACATCATCATAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AACATCATCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT

输出样例:

no significant commonalities
AGATAC
CATCATCAT

 本题由于数据规模较小,直接暴力求解,枚举所有子串,用strstr()函数,或者find()函数在其他串中匹配,或者用kmp也行。

#include<bits/stdc++.h>
using namespace std;

#define maxsize 61

void match(char c[][maxsize],int m)   ///二维数组c的行数为n
{
    bool findout=false;             ///是否找到公共串
    char ans[maxsize];              ///存放找到的公共串
    strcpy(ans,"Z");                ///初始化ans,因为题目中字符串的字母只有ATGD
    for(int i=60; i>=3; i--) ///枚举所有子串,长度i,从大到小,因为要求的是最长的公共子串
    {
        for(int j=0; j<=60-i; j++)  ///枚举所有长度为i的字串
        {
            char pattern[maxsize];  ///存放每次枚举的子串
            int cnt=0;              ///记录与后面字符串匹配的字符串的个数
            strncpy(pattern,c[0]+j,i);   ///枚举子串
            pattern[i]='\0';
            for(int k=1; k<m; k++)   ///在剩下的碱基序列中查找是否有该子串
            {
                if(strstr(c[k],pattern)) cnt++;
                else break;
            }
            if(cnt==m-1 && strcmp(ans,pattern)>0) ///如果都有pattern子串并且比原有的ans字典 
                                                  ///序小,则拷贝给ans
                strcpy(ans,pattern),findout=true;
        }
        if(findout)         ///如果长度为i的子串都匹配成功,
                            ///直接打印,因为从大到小枚举,得到的肯定是最长的
        {
            printf("%s\n",ans);
            return;
        }
    }
    strcpy(ans,"no significant commonalities");
    printf("%s\n",ans);
}
int main()
{
    int n;
    cin>>n;
    while(n--)
    {
        int m;
        scanf("%d",&m);
        char c[m][maxsize];
        for(int i=0; i<m; i++)
        {
            scanf("%s",c[i]);
        }
        match(c,m);
    }
    return 0;
}

猜你喜欢

转载自blog.csdn.net/armerzu/article/details/83350921
今日推荐