网页特征识别方法

	分类实现方式(主要还是基于词频统计,但具体实现做了优化):
		1.定义一套自己的分类,例如取一淘分类
				但有一个原则最终子类只表示一类商品,不会表示多个分类,
				例如:手机、保护套、mp3、单反相机,不会有手机通信这种分类,便于以后分词
使用用

	  2.这些分类词要放到分词词库中,用该词库对网页分词,防止出现将手机套分为手机和套这种分词
	  
	  3.基于分类词对网页进行词频统计,词频最高的分类词即为网页的分类
	    3.1 统计中需要处理的问题:
	    	等价词(手机套、保护套、手机壳等)
				页面中有(title)、页面描述(description)、关键词 (keywords)、超链接文本、纯文本等 。这些属性都可能包含分类信息,但权重是不同的;
				前期可以使用title、keyword、description和标题进行统计
				例如:对商品“ESK 苹果 iPhone4/iPhone4s 浮雕 个性超薄 手机壳 保护外套 (天堂小屋)”
进行统计
				<meta name="description" content="ESK 苹果 iPhone4/iPhone4s 浮雕 个性超薄 手机壳 保护外套 (天堂小屋), 品牌: ESK, ESK, ESK 苹果 iPhone4/iPhone4s 浮雕 个性超薄 手机壳 保护外套 (天堂小屋)&lt;br&gt;1.专业保护您的iphone,完美贴合使您的iphone 看起来更完美·&lt;br&gt;2.ESK501是采用进口材料,镭射工艺制程,完美的产品让您的爱机更加美观&lt;br&gt;&lt;br/&gt;&lt;img src=&#39;http://g-ec4.images-amazon.com/images/G/28/hardline-asin/20120423-BQNP-01.jpg&#39;&gt;&lt;br&gt;&lt;br/..." />
				<meta name="title" content="ESK 苹果 iPhone4/iPhone4s 浮雕 个性超薄 手机壳 保护外套 (天堂小屋)-小家电-卓越亚马逊" />
				<meta name="keywords" content="卓越,亚马逊,卓越亚马逊,卓越网,joyo,amazon,joyo amazon,小家电,ESK 苹果 iPhone4/iPhone4s 浮雕 个性超薄 手机壳 保护外套 (天堂小屋),ESK" />
				<title>ESK 苹果 iPhone4/iPhone4s 浮雕 个性超薄 手机壳 保护外套 (天堂小屋)-小家电-卓越亚马逊</title>
				最后统计的词频是手机壳,则这个商品的分类就是手机壳

		4.建立分析样本,前期做的词频统计的结果都是通过人工看的方式来评价结果,正确的做法
		应该是对已知样本来进行统计,在已知样本上来统计结果的正确率,根据正确率来调整或决
		定使用不使用该算法。
		例如:我们已经按照自己的分类规则对100个网页打好标签,然后用自己的统计方法对这些网站分类,
					如果有N个网页分类正确,则我们的正确率就是N/100。

(转载本站文章请注明作者和出处 JavaRanger – javaranger.com ,请勿用于任何商业用途)

本文链接: http://www.javaranger.com/archives/190 

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>