不问文件类型处理对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,http://www.yixiin.com/news/对于网上不同文件类型文件的处理,网络蜘蛛通常是采用插件的方式来处理。它会有一个比较智能化的插件管理程序负责管理不同的插件,对于需要处理的不同类型的文件,它会调用不同的插件来处理,之所以是采用插件的形式,主要是出于扩展性方面的考虑。互联网上有许多不同类型的文件,不同的文件需要完全不同的处理方式,而这个网络是不断变化的,随时会有新文件类型出现的叮能。而要完成对新类型的处理,最简单的方法就是给新类型编写新的插件,然后将插件直接交由管理程序来管理。同时这个插件的编写最好是由新文件格式的制造者自行完成,通常只有制造者才最了解新格式定义的意义!http://www.yixiin.com/quote/
搜索蜘蛛对于不同类型文件所采取的不同方式分析