《网络信息挖掘》读书笔记

June 28th, 2005

自己一直在从事公司内部的知识管理工作,这些年来,从网站的运营到知识管理系统的开发,推广,也有点忙得不亦乐乎。也看了不少理论的图书。手头这本书就属
于很理论的那种, 每章后面都有参考文献,但是这些文献几乎都是2000年之前的。 5年过去了, 大概这方面的理论性知识没有突破性的进展。

知识管理的理论和实践可以说是完全脱节的。在实践中,我们看到的成熟的系统其实都是纯技术的,游离于流程和人之外的。本书的第一章用很大的篇幅介绍了知识
发现,知识挖掘,信息检索等概念的辨析。有一门新的学科,叫做网络信息计量学。 第二章还是讲知识发现,例举了 SPSS 的 5A
(Assess,Access,Analyze,Act,Automate)模型、SAS 的 SEMMA
(Sample,Explore,Modify,Model,Assess)模型,本章还提到了数据挖掘语言,结构化的挖掘语言 SML (
Structured Mining Language) 。

第三章讲到了虚拟数据库,我觉得虚拟数据库确实是不错的概念,特别是目前网格计算的概念下,可以低成本的利用现有计算能力,提高数据处理速度。
不过采用分布式的计算技术对技术设计有更高的要求。
虚拟数据库通常包括包装器(wrapper),映射器(mapper),提取器(extracter)三个基本模块。在三个模块上都分别有自己的
description language , 分别是 source description language , map
description language, extract description
language。这三个基本模块对于我目前设计中的知识抓取系统应该很有参考的,可惜这种东西理论的多,实践的太少。

第四章网络信息的结构挖掘提到了 Web 网页链接分析,1996年, Mckiernan 根据文献计量学引文( citation ) 的含义,提出 sitation 的概念,对网站的链接引用行为进行分析。提供了一个叫做 Citeseer 的自动引文索引系统。

分析评价网页的质量可以用 ZIPF 曲线分析网页的受欢迎程度,利用 WIF 评价网页的权威性。

英国南安敦大学的 Open Journal Project 开发了一个自动链接工具,该工具可根据语义相似性进行定量分析。

Kleinberg 提出了 HITS (Hyperlink Induced Topic Search)算法,这是基于 hub/authority 方法的搜索算法。

PageRank 算法和 HITS 算法是具有代表性的两种网页排序算法,前者适合于搜索引擎的服务器端,后者更适合搜索引擎的客户端。

第五章 网络信息的内容挖掘 提到了 HTML 向 XML 转换的工具,包括: HTML Tidy, HTML Kit, XspLit, HTML2XML 等。
实际上在非结构化数据的挖掘方面大多数的软件仅仅是一个全文检索系统而已。 在文本挖掘方面, IBM 的 TextMiner 或许可以参考。
本章提到了一个 WebMiner 的原型,系统组件包括:

  1. 文本收集 Agent
  2. 文本预处理 Agent
  3. 文本分类 Agent
  4. 文本聚类 Agent
  5. 多维文本分析引擎
  6. 用户接口 Agent

第六章 网络信息的使用记录挖掘 ,当然提到了对网站服务器日志的数据挖掘, 提到了 Webtrends, Open Market Web
reporter, Net analysis desktop 等软件,当然 Web 日志的挖掘也不是想很多人想象的那么简单。
其中学问当然大可“挖掘”。不过好在 Web 日志目前都可以 XML 化,awstats 是个不错的软件。 相信,一个 Webmaster
或者一个网站的 CEO最需要的就是对 Web 日志的挖掘了。

第七章 网络信息的挖掘策略, 谈到了元数据的类型, 目前国际上存在多种元数据,如 TEI 头标,统一资源特征,编码档案描述,书目记录格式
RFC ,DC 元数据,资源描述框架 RDF ,频道定义格式 CDF ,Internet 内容挑选平台 PICS 等。


Dublin Core
(DC) 是 OCLC
和美国超级计算机应用中心与1995年在俄亥俄州的都柏林召开的一次研讨会上提出来的,旨在寻求一套低成本,简捷,易用和可行的网络信息资源组织的著录格
式。 它定义了15个核心的基本元素,目前已经是一个描述 Web 文档元数据的国际通用标准。

第八章 网络信息挖掘的应用提到了 在电子商务,网络广告,客户关系管理,电子政务,网络信息管理,竞争情报工作等几个方面的应用,可以说电子商务中的应用是网络信息挖掘的主要领域。我在2001年设计公司网站框架时,就对捕捉 "点击流" (click stream) 提出一个可实践的方案来,为网站下一步分析用户点击行为打好基础。

一个挖掘充分的网站,完全有可能形成自适应的网站,类似一个机器人,它记录了浏览者的上网历史和偏好,推送让浏览者感兴趣的内容。

部署一套知识管理系统的成本,从市场上现有的大众产品而言,价格并不贵,但是都是着重于某一方面,没有完全符合一个企业实际需要的系统。网络信息挖掘是一个企业信息化后,必须考虑的因素。

我理想中的信息化的最高境界就是把公司的 Internet/Intranet/Extranet 完整打通的系统,他们分别实现了针对客户的 CRM/针对投资者的投资者关系管理,针对员工的雇员关系管理(ERM),针对合作伙伴和大客户的关系管理(PRM)。只有企业内部的流程能顺利的串起三个网络的三种角色的人,这样的企业才是一个客户满意,员工高效,合作伙伴双赢的企业。

最后,忘了提一句,该书作者 中山大学 黄晓斌,电子工业出版社 2005年1月出版。


Leave a Reply