PG电子【中国】平台网站 - PG SOFT

PG平台 电子数据挖掘 - 挖掘互联网|PG电子平台
× 快速导航
PG平台资讯
分类
PG平台 电子数据挖掘 - 挖掘互联网
发布日期:2024-03-10 21:51:11

  万维网包含了庞大的信息,如超链接信息,网页访问信息,PG电子平台教育等,提供用于数据挖掘丰富来源。

  该网站是过于庞大- 对纤维网的大小是非常巨大和迅速增加。这似乎是网络过于庞大的数据仓库和数据挖掘。

  Web页面的复杂性- 该网页并没有统一的结构。相对于传统的文本文档,他们是非常复杂的。有在网络的数字图书馆大量的文件。根据在任何特定的排序顺序这些库没有安排。PG电子平台

  网络是动态的信息源- 在网络上的信息被迅速更新。数据如新闻,股市,天气,体育,购物等会定期更新。

  用户群体的多样性- 在网络上的用户群体正在迅速扩大。这些用户有不同的背景,兴趣,以及使用目的。但是也有一些连接到互联网,仍然迅速增加超过1亿的工作站。

  信息的相关性- 可以认为,一个特定的人通常是感兴趣的网页只有一小部分,而腹板的部分的其余部分包含的是不相关的用户和可能淹没想要的结果的信息。

  网页的基本结构是基于文档对象模型(DOM)。 DOM结构指状结构树。在这种结构中的页的HTML标签对应于DOM树中的节点。我们可以分段使用预先定义的标签的HTML网页。在HTML的语法很灵活,因此,网页不遵循W3C规范。不遵循W3C的规范可能在DOM树结构导致错误。

  DOM结构最初被引入供呈现在浏览器中不为所述网页的语义结构的描述。 DOM结构不能正确识别网页的不同部分之间的语义关系。

  值被分配给每个节点。这个值被称为相干度。这个值被分配以指示如何相干是基于视觉感知的块中的内容。

  在VIPS算法首先提取从HTML DOM树中的所有合适的块。之后,它发现这些块之间的分隔符。