在GenBank数据库中, DNA和蛋白质序列的一个重要的特征是它们都被打上了索引号码作为标签。索引号码是一段由约4 ~ 10个数字和(或)字符组成的编码,每个索引号码与一个分子的序列记录相对应。索引号码也可能用来作为其他数据记录的标签,如蛋白质结构数据记录,甚至记录一个基因表达实验的结果,如基因芯片的检测结果。那么,如何来衡量这些序列或蛋白质数据的质量呢?RefSeq的目标是为每一个基因正常(无突变)的转录产物和蛋白质产物提供最好的代表序列。RefSeq数据管理系统对一个基因的索引号码的特征一般表现为: ......