基于标准化处理后的的数据,就可以对数据进行分析。具体的分析内容,可以根据不同的需要进行定制。数据分析的第一步是从海量的数据中检索到所需要的数据,在关系数据库系统里,索引是检索数据最有效率的方式。搜索引擎面对的是海量数据,像Google ,百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量,面对如此海量数据,使得数据库系统很难有效地管理。搜索引擎的核心为倒排索引,在数据可以被检索之前,需要将标准化的数据库转换为搜索引擎所需的JSON ( Java Script Object Notation )格式 ......