在序列搜索中常涉及相似性与同源性两个常用但又易混淆的概念。相似性是指序列比对过程中用来描述检测序列(测序获得的序列)和目标序列(数据库中的序列)之间相同DNA碱基或者氨基酸残基所占比例的高低。同源性是从共同祖先进化的群体基因特征。当相似程度高于50%时,比较容易推测检测序列与目标序列可能是同源序列。相似性的概念含义很广泛,还可以用于蛋白质空间结构、折叠方式以及氨基酸残基等特征的比较。除采用BLAST和FASTA搜索获得同源序列外,还可以采用模体(motif)和模式(patern)搜索的方法获得同源序列,根据最少的序列信息进行蛋白质家族分类。针对这些序列采用Mo ST或PORBE程序,可以很好地达到搜索的要求。
……