胡狼狼@江湖

姓名:
位置: Beijing

星期二, 十一月 01, 2005

Google Home Base

Google Home Base
-只说 sayonly.com english other 创业生存手册 概要:本文试图通过一系列线索揭示Google Base与Semantic Web(语义网,以下简称SW)的关系,以此窥探Google在互联网服务的战略布局。当然本文属于创业生存手册系列,在系列的开篇中只说提到这个系列会提到web2.0,所以本文也会比较SW在web2.0的关系。本文引用的SW的资料大多数为英文资料,有识之士可以翻译并推介这部分材料,将是对于国内互联网整体水平的大的提升。Dedicated to another SW - Simon Willison。1,Google BaseGoogle Base(应该是base.google.com,暂时无法访问)还没有发布,谣言已经满天飞了,从webleon的给出的链接看到,google的产品拓展经理Tom Oliveri列出了一份清单,给出了正式的解释(只说译):
你也许已经看到了今天很多关于我们正在测试的一款新产品的报道,猜测了我们的计划。在这里我告诉你们我们真正在作的是什么。我们在测试一种内容拥有者提交他们的内容到google的新方式,通过这种方式,有希望补充我们已经使用的方式如google机器人以及SiteMaps(站点地图)。我们认为这是一款让人激动的产品,有新消息我们会立即通知你们。
这则简单的声明已经没有办法满足很多人的好奇心,试用过的人给出截图,更多的人在猜测google究竟在干什么。webleon文中说,应该是一个由用户自行创建网络数据库的服务。这些数据可以是任何的内容,从可以看到的数据内容看到,有-聚会服务的描述;-网站上关于时事的文章;-二手车出售列表;-蛋白质结构的数据库。这些内容,真的只是网络数据库、用户隐私?或者是google头脑发热的一次作恶(evil)?从google的对这个项目的声明和更多的猜测看,恐怕不这么简单。种种迹象表明,这是google在作一次SW的试水,是google开始向SW服务靠拢的一个试探。为什么只说能这么肯定,SW究竟是个什么东西,它怎么有那么大的魔力,让google这么讳莫如深?这话得从头说起。当然,也只有google,在产品的测试期间就能掀起这么强烈的关注。2,Google与Semantic Web的亲密接触几年前,Simon Willison发了一个简短的blog文章,对于google在作一些关于SW的研究而赞叹,他看到了一份以未来笔调描述google如何战胜Amazon和Ebay这些竞争对手的恢宏论文,作者是 Paul Ford。Simon Willison是一位很geek的程序员,我一直有看他的blog,虽然未必能完全看懂,他现在去了yahoo,有趣的是,它的名字的简写也是SW,把本篇文章献给他(其实应该是本章,但那样说也太失礼了)。Paul Ford那篇被多次提到(还有 Stuart)的文章讲的是,2009年,Google统治了互联网这个媒介,回顾如何击败Amazon和Ebay的历程,其实是一篇比较通俗的整体讲述什么是SW的文章,读起来颇为有趣。同样有趣的还有那个EPIC,当然就与SW无关了。其实美国东岸的几所学校对于SW的应用研究都很长时间了,最有成果的应该是piggy bank。2003年,google买了一家小公司,叫做Applied Semantic,应该用来做Google adsense的。因此有人写了一篇题为google在SW投资的文章,可以参看。google的搜索质量总监Peter Norvig今年初有一篇文章,题目叫做SW可以做什么,不能做什么是只说读到关于SW应用最透彻的文章之一,这系列文章很长,从各个方面探讨了SW应用和概念。Peter Norvig是个非常有眼光的人,我以前也是一直看他的网站,虽然至今他还没有blog,但是终于有RSS输出了。他有一篇传世文章,叫做十年学编程后来被很多人翻译过,其实这是他在NASA研究中心时候写的,呵呵,时间过去得真快。如今的Google Base的出现,必然有Norvig的眼光和推动力来成就这个网站。其实欧洲人比美国人更急于想实现SW,甚至已经有了semantic weblog,例如qlogger.com,但是没有人象norvig一样技术渗透,而且身后是google这样的公司。背靠着索引着最大互联网网页数量的google,在将网络爬虫使用到了极致之后,极有可能是第一个可能局部实现SW的商业机构,无论从技术还是从市场上看。当然SW是一种理想,至少google base让我们初尝到这种口味。让我们看一看,什么是SW,为什么Google要实现SW?3,什么是Semantic Web?什么是SW,就得先谈谈它的发明人Tim Berners-Lee,同时也是WWW的发明者。Tim Berners-Lee在近几年的报道提到互联网发展时(一般放到Future一页里面)无一例外的提到了SW,大约是发明WWW之后再发明不了其他玩意儿了,或者是其他玩意儿都没劲了。当然也还有其他的,5月的报告指出,目前网络在手机上面临的困境跟96年互联网在pc上面临的困境一样。当然,SW是对于整个互联网说的,跟接入的设备没有什么关系。专门关于SW的报告是题为SW在这里,列出了Nokia、HP、IBM等厂商的SW的进展,也可以在这里看到那次会议中谈论的细节,不过那里看不到那个SW在这里报道中的那个SW的形象图,画的是各种材料,包括砖头和木材,组合成的一头大象。形象地说明了在SW下,是各种可以识别的材料,组成了整个世界。many things to many people。只说喜欢他们另外一个宣传口号:Web Evolution causing a quiet revolutionSW的核心意义在于网络内容是由多种可以识别的数据组成的,在早期的互联网,93年左右,互联网停留在文件形态,组成的是一个个文件,传送都是使用ftp 等工具;94年左右互联网处于文本的形式,出现了html和URI(唯一地址),可以通过这个地址进行访问;而不断演化,今后将在以XML等可以标记的数据结构中,而网页只是展示这些数据的一种工具,你可以通过任何其他的形式进行展示,甚至机器也可以识别。互联网不再是由一篇篇的文档和页面组成,而是由一部分一部分细碎的数据构成。这样说比较玄妙了,其实还可以解释得更简单一点。SW就是把原来的互联网内容,切成碎片,文章标题归文章标题,发布时间放到发布时间,文章概要归文章概要,分别存放,每一个部分都是机器可以识别的(当然实际可能更复杂一点)。在Paul Ford的2002年如何战胜Amazon和Ebay中提到,它其实就是描述这些内容的另一种方式,这种方式下机器可以识别,具体方式虽然不是十分清晰,但是逻辑上,其实跟在你在学校里面学习的方式没有什么两样:-如果A是B的朋友,那么B就是A的朋友;-张三有一个朋友叫李四-因此,李四将有一个朋友叫张三-李四有一个朋友叫张三-那么,张三会有一个朋友叫李四就是这么简单。在互联网上,我们把内容放在一些定义好的XML标签指定的文件里面。然后会有程序自动收集这些内容,通过这些简单的规则,进行分析。所有区别于现在操作的就是,在搜索的时候,服务器的程序会综合更多的因素,进行更复杂的判断,理解你的请求的真实意义,然后给你最准确的内容。例如,你输入只说,他们准确的判断出,你要找的是我这个人,而不是错认为,你又说了一句什么话,或者给你一个许如芸的“只说给你听”的歌曲应付一下你。4,Google怎么实现Semantic Web?Google究竟怎么实现SW,在Peter Norvig的文章SW可以做什么,不能做什么已经可以看出些端倪,Norvig在今年一月份(或者更早)都已经想好了应该怎么启动了,或者说,应该怎么逐步打造SW。他谈到了四个问题:1)先有鸡还是先有蛋的问题,这个问题涉及到如何建立所需的信息,因为要必须有有组织的信息才能打造相应的工具,而如果没有相应的工具,怎么把信息放到组织里面去呢?这个问题只说要展开说一下,其实google并不是要建立一个Tim Berners-Lee等人理想中的SW,因为其实google其实只需要索引SW中的信息即可,因为如果SW建立起来,索引是一件简单的事情,甚至产品实现上面比google现在的搜索引擎更简单,技术要求更低。然而,问题就出来了,是先建立一个SW,然后来索引呢,还是先索引整个互联网,然后再生成把它放到有组织的SW里面去呢,这就是为什么google打造SW时遇到了先有鸡还是先有蛋的问题。那么只说的猜测是,目前Google base的作法是,目前互联网上的信息是很难组织,那么让用户提交有组织的信息到google,就能形成局部的SW。而这个局部的SW,就可以实现聚会服务的描述、网站上关于时事的文章、二手车出售列表等等信息的精确定位,机器也就能够理解这个范围内的信息。在Norvig后面的描述中可以证实只说的说法:
在正常情况下,定义语义的标准格式(schemas)似乎更好,但是,问题出在把什么内容放进这些标准格式,还有很多工作要做。因为还有以下提到的几个问题,这些问题在把内容放进这些标准格式中的时候,这些问题同样会出现,而且,google不能把握住这些环节,或者从整个互联网角度来讲,把握这些环节的公司服务或者工具太分散,无法形成标准,也无法保证安全和质量。Norvig举了一个google news例子,在前一个晚上google news一共索引了658个不同来源的新闻,google可以根据这些新闻页进行一个cluster运算,算出其中重要度最高的是Blair的新闻,然而,如果google依据这些写入新闻的新闻源来做这件事情,则几乎是不可能的。不过通过他们的页面上的新闻来索引计算出来的质量毕竟不高,所以google现在想到另外一个办法,也就是,让用户通过google base的接口提交到google,提交的数据是定义好的一些数据标准,google来控制这个提交过程并更准确的判断提交的质量、spam等等情况,并且可以将各种数据综合起来进行分析。2)竞争问题,你有不同的和相似方法和工具可以选择。这样子就无法跟踪用户行为的全貌。3)Cyc问题,Cyc是一个专业术语,讲的是通过广泛的本题作常识推理。这样说也许不太明白,举个例子就很容易了,例如“周杰伦”,这是一个人名,如果以错输为“周杰论”,这时机器就识别不出来了,但是如果拥有了一个很大的词库,那么这个通过识别出“周杰论”可能就是“周杰伦”,那么这就是一个Cyc问题。如何在SW 中判断这些Cyc以识别出常识的判断,这是建立真正意义的SW必须解决的问题。4)Spam,垃圾,这个不用多说了。但是注意到,由于SW是精确匹配,并且要求根据意图来适配,所以对于spam要求更高。顺便提及,Splog不就是Semantic Spam嘛。5,Semantic Web与Web2.0web2.0是tim o'reilly的概念,开始这个概念定义很模糊。应该是互联网应用的发展模式,催生了新一代的应用以及人们对于这些应用的理解方式和使用方法(这里谈到过这几个概念的分别)。国外也有人撰文web2.0会杀掉SW吗?,也有称Semantic Web 2.0。有很有趣的讨论。前一篇文章说得有点道理,web2.0是给少数人用的,SW会提供Accessiblity。Stefan Decker在这里补充了一下,Web2.0重“应用”,SW则是标准。这跟只说那边谈到web2.0是应用发展模式不谋而合。其实web2.0用来说明一种公司特性也未尝不可,不过你大声的说google是web2.0的公司,而M$是1.0的公司,确实有点怪。当然SW也作了很多应用,例如美国东岸的几所学校,例如欧洲连Semantic weblog也搞出来了,deri也做了很多应用了。另外,gnowsis也是另外一个狂想,只是我还没看懂它的结构图,为什么会有一个semantic web server在里面。6,结语还有几点:本文并没有分析google为什么要做SW,只说想这已经用不着只说在这里分析。SW对于各种应用的好处是显然的。Google对于SW的探索看似给予搜索引擎的,Norvig那篇文章下面也有人回复说,似乎google只是在搜索的角度看待SW,其实不然,因为互联网是一个请求应答系统,是我们人为将互联网标准定义成一个url指向一个网页的,这是一个陈旧的标准,或者对于更高层次的信息获取来讲,并非是必要的。关于信息适配的探索,其实google比任何其他人(谄媚呀)都高。有人说,Google还是从信息组织的角度来看待整个互联网(google的信条就是组织信息),或者,它只是互联网的一个信息组织者,以后也将成为SW 的信息组织者。其实,从根本来说,互联网整个媒介都是信息,除了信息没有其他任何东西,当然你可以持有另外一个观点互联网应用才是主导,这到了最深处都是殊途同归。刚写完,发现keso的已经出来了:
互联网提供了很多破坏规则的机会。门户新闻和搜索引擎新闻已经破坏了传统媒体的规则,分类网站正在破坏一些电子商务网站和招聘网站的规则。即将露面的 http://base.google.com/服务,很可能是一个更大的破坏者,它有可能笼络更多的个人内容提供者,进而改变互联网长期以来内容的组织方式。
其实规则很简单,就是在得到最小的spam的情况下,获得最有组织并且方便组织的信息,google实现的局部SW当然有控制,然而,SW的目标,不是web2.0那样的应用,而是Accessibility呀。 这场革命如此quiet,甚至谈不上“规则破坏”。(指Web Evolution causing a quiet revolution的quiet)本文引用的大量连接都是英文链接,由于时间关系,不能将其中摘录翻译,深感抱歉。SW的很多文章并不完全是很技术化的话题,这些材料对于国内互联网水平的增长是十分有益的。再次强调一下本文的观点:很显然,google base是google在SW的试验和测试。而SW就是google的本垒(home base)。

星期一, 十月 31, 2005

Google Base:Content Provider (转)

Google Base:Content Provider
Google Base亮了一下像,又闪了。根据官方的解释,它就是一个用户提交内容的系统,即用户可以自行创建数据库从而使得自己的内容可以被索引并被搜索到。至于Google Base的用途,比较众说纷纭,大概有这么几种说法:
作为分类信息(Classifieds):Steve Outing认为,Google将会尝试的是一种类似于Criaglist甚至是Ebay那样的模式,提供一种信息发布系统。同时它也指出Google Base相比较而言会显得“静态化”一些,没有人气旺盛支撑的话这样的社区走不了多远。
提供原数据:Webleon认为,利用Google Base收集原数据,通过API“将数据进行获取-整理-再发布”到第三方服务中,这有点类似于Ning的形式
语义网(Semantics Web):Sayonly认为,“这是google在作一次SW的试水”,即这部分数据转化为可为语义互联网的形式,从而对互联网的信息进行更高精确度的匹配。从这个角度上看,Google所做的,只是借助SW对自己既定目标的延伸而已。 在翻译那篇关于Web2.0的十八句名言”的时候,我印象最为深刻是这么一句:“在5到10年内,媒体的价值将存在于那些培养用户的公司,而不是那些控制内容的公司”。那我们回过头来看一看那些Content Provider的模式:最早就是像Hao123这样的网页目录。这种最早的对于互联网信息聚合的手段,是Yahoo最先开始的。它在数据信息显然不够丰富的时候,通过若干编辑的人工筛选实现了信息最优化。接着则是搜索引擎的方式。利用Bots,机器开始自动的检索静态网页的内容并将它们索引起来供人搜索,机器、数据库和表达式开始担任其原来编辑的责任。它所遇到的最大敌人就是Spam,其根本原因在于搜索的内容是孤立的,不是语境化的(Contextualized),它无法从内容本身而对网页进行评估,而只有通过Page Rank这样的反向链接技术。现在用户将成为内容提供方,这最大的优点在于,它有可能产生自我甄别的机能。正如Kevin Kelly在那篇“We are the Web”中所说的,通过一个类似于神经网络的构造,未来的Web的行为模式产生于我们每个人中间,即我们的每一个动作,每一次点击都将是在培育一个超巨大的AI机器:互联网。在这里,终端原数据具有的是无以比拟的智能化和结构优化。这样一来,整个Content Provider的模式从人工走向机器,再从机器走向人工,在这个从静态数据到动态数据转化的过程中,不断的得到提高的是信息的整合度和数据的结构化。所以无论Google Base最终的应用方向在哪里,它都是Google这家眼光长远的公司迈向未来信息检索和内容提供模式的一个重要的跳板。我们之所以敬佩Google,不仅仅是因为它不作恶,而是在于它能敏锐的捕捉信息发展潮流,勇敢的做那个吃螃蟹的人。

解读“NING”的野心(转)

显然,NING是一个让人第一眼看上去茫然的服务:craiglist, delicious,flickr..这些词汇混在一起,让你不知道这究竟是做什么的。不过,只用几分钟的时间,我们就明白了,这是一个让用户能够方便的创造自己的社会性网络服务的网站。比如,你可以很快的用NING提供的工具来创造一个属于自己的像FLICKR那样的网站,或者像CRAIGLSIT那样的分类广告站,以及你能够想像到的东西。从技术的角度看,NING为用户提供的服务相当于一个主机租用商而且是免费的。以前,我们要建一个网站,做好程序代码后,我们还需要自己装服务器,或者租用,这这个过程很麻烦。现在,你有任何的想法,用PHP代码实现后,就可以直接上载到NING上,OK,你的服务开始运行了,连域名都有了,虽然是个比较难看的三级域名--这是一个多么好的实验田啊。NING的核心价值显然不在为用户提供这么一个空间上:它是一个创造者互相交流的乐园。NING提供的交流方法包括:1,通过给项目(也就是读者自己创作的网站)打上标签,用户可以方便的浏览别人做的东西。看看谁的项目受欢迎,可以浏览这些项目的代码。(目前还只支持PHP语言。将来会支持RUBY和PYTHON两种脚本语言)浏览这些标签的过程,也就是研究市场的过程。2,可以让用户直接克隆别的用户的想法和代码,弄到自己的项目上,加以改进。这个相当于项目实施。CLONE---MIX---RUN,三步一个项目,
CLONE

MIX

RUN
现在这两个功能还只有那些批准为“BETA开发者”的用户能够使用。有人可能会觉得做网站,代码都不保密了还有什么商业前景呢。这个是个问题,不过在我看来,那是WEB1.0时代的想法。交流产生价值,以前出现的社会性网络都是针对某个具体用户群的,比如FLICKR以爱图者为主,DOUBAN服务于好书者。而这个NING,则是针对所有开发社会性网络的开发者和研究者,它下承技术,上启普通用户,很可能在将来社会性网络的发展过程中起到一个决定性的基石作用。让我们用一个可以想像的例子来打消代码保密的顾虑:假设我设计了一个网站,是专门用来收集BLOGGER资料的,所有人都可以在上面添加资料评论,等等。我在NING上面实施了这个项目,很多人发现很好,克隆了我的项目,于是我那个项目的标签就膨胀的好大好大,说明我的想法是受欢迎的,有市场的,于是我感到很爽。爽的同时,我发现,那些克隆我想法的人,对我的代码都做了小小的,偷偷的修改,融入了很多新的,我永远都想不到的东西。于是我两眼放光,兼融并包,最后弄出一个成熟的东西,在其它地方商业化的实施了。那你说我到底失去了什么?这也就是NING的本质性创新之处:它消除了用户和开发者的界限。开发者在研究别人东西的时候,也就同时是用户,NING将是一个宝贵的市场信息的集散地,只要你注意把握的话,一定有层出不穷的想法出现。而将来,当这个地方成为WEB2.0想法的一个枢纽,一个发电站的时候,NING的商业价值就出来了。(其功能的十分之一,至少会是这方面人才的一个集散地,有兴趣的话去注个册吧)