胡狼狼@江湖

姓名:
位置: Beijing

星期三, 十二月 07, 2005

bg1eym Posted by Picasa

星期一, 十一月 07, 2005

mnpemu Posted by Picasa


BLOGGER增加了一张个人的图片。用的是HELLO的照片托管。还算方便,照片是在川藏线边照的,离开芒康不远。

互联网10年

互联网10年,作业

IT99和醒客告诉我这个互联网10年的活动。其实一直也想写些当时的事情,虽然现在脑子里面只有些记忆的片断了。那是段令人兴奋的岁月,无论是互联网和我自己,都很纯粹,因为那会互联网远非现在是IT主流的东西,和很多人一样,几乎是本能的被迷住了。对于一个仍然很年轻的人来说,去回忆10年前是奇怪的感觉。十年很长,足以发生很多故事,我的故事非常简单,但是写着,却发觉自己的感受和今年春节在上海看《杨度》时一样。在动荡变革的年代,很多人和事情,起起伏伏,而这个过程远未结束。就如同这样的一个互联网10年的活动一样,本身也是在故事中。

和很多朋友的经历很相似,一个偶然的机会,接触到互联网,立刻就被他迷住。我是94年底的某一天,去师大天文系找搞计算的同学胡隽辉,在他的SUN SPARC 1+上第一次看到互联网,当时实际上只是一个高能所的登陆文本界面而已,可以发邮件和使用FTP,没有任何图像,但是却让人感觉到和世界连通了。我记得当时立刻去现在海龙的位置买调制解调器,当时那里的公司是在街边二层的简易房子里。当时的一块2400波特率的猫非常贵,我买了一个便宜的内置卡,花了1900块。后来的故事就是搞到了高能所登陆到BEP2机器的帐户,第一封邮件我已经忘记是发给谁了,当时好像是往带@的地方都发了一些,后来才拿到我在美国念书的哥哥的电子邮件,开始了作为日常使用的电子邮件发送和接收。当时好像上BEPC2这台VAX机器费用比较高,虽然是同学单位付钱,还是不敢经常停留,直到发现BEPC2的问题,就是如果有其他用户掉线,这时候你正好拨号进去,那么就可以不用帐号和密码进去。这样的日子持续了几个月时间,由于在家上网并不特别爽,经常我和胡隽辉一起在天文系机房熬到天亮,直到北京电信的互联网服务开通。

随后的一年,我如同过去的日子一样,上班下班,谁又想的到后来的日子因互联网而改变。我毕业后去的用友软件,应该说,我是觉得这是一份正经的工作,给企业提供软件,企业因此提高工作效率,我们赚到钱。但是在互联网领域,我这种朴素的思想却给我开了个巨大的玩笑,当大家在谈论各种商业模式的时候,挖掘用户真正需求的时候,很多人和我一样,并不成功。因为一种深刻的变革,他颠覆的东西往往是意想不到的。“你的生活因此而改变”我最近才真正理解。通过北京电信6031188上网那一年非常的轻松愉快,充满了暑假般的感觉和各种故事。当时最迷恋的和现在大多数网友一样,上网聊天。最早的聊天是用TALK,UNIX的一个小语句,用WHO看看谁在线,然后就找人聊。当时北京电信上网是可以登陆到UNIX系统里面的。我在上面第一个聊天的网友是朱子刚,我后来和他一起帮曾强做了实华开。TALK聊天其实非常人性化,你可以看到别人打字的节奏,你可以感觉到他就在身边一样。后来,更多的聊天是通过IRC开始的,全互联网全世界的IRC服务器都是互联互通的,当时在IRC上的大陆人非常少,我们也因此认识了很多在海外的朋友,当然基本都是华人。ELLE,POTHOLE,WEN,TELLME在这些我还能记起来的名字,后来他们大部分都到过北京,我也陪他们去过颐和园,长城这样我基本不去的地方。其中那个香港的女孩ELLE嫁给了我的朋友HMOON,为了能在香港定居他辗转多国,因为ELLE有个残疾弟弟,非常感人的爱情故事。我也起了一个网名MNPEMU一直用到现在,MNP是我的猫说明书上的一种纠错协议的名字,EMU是我陪一个网友去动物园时看到的一种像火鸡一样的澳大利亚鸟。95年下半年,我和朱子刚经常见面,他的公司国创本身就在做互联网,这让我非常羡慕。我们也在聊能通过互联网干些什么。说实在的,我并没有觉得上网看摇滚明星的资料和在IRC聊天是什么正事,所以我觉得还是企业应用是方向。当时在《中国计算机报》发了2篇文章讨论INTRANET和BS结构的企业软件,当时企业的网络都是NOVELL,这些探讨相当超前,我不知道王文京知不知道,当时刚从外面回到用友的我的领导薛峰倒是很感兴趣。直到现在,在互联网领域做复杂的企业应用几乎都不成功,而后来经营我们当时玩的高兴的互联网应用的人都赚了大钱。

96年春节前,朱子刚说有个机会,说他哥在加拿大的同学曾强要回国做互联网。我去见了曾强,然后几天后我就从用友辞职了,曾强是后来大家说的超级PR,我肯定无法避免不被他说服:)其实现在想来,继续在用友或者不离开主流的企业解决方案提供商,也许反而能离我的想法更近些。应该说我当时并没有想清楚能通过互联网干些什么。曾强很快拿到《世界日报》老钱的天使投资,并且和当时的老联通做了一间合资公司。我们当时,从国家信息中心、统计局、旅游局拿到数据库,我们要把这些信息拿到网络上,打造全球华人互联网。当时我和被我找来的同学李松经常在实华开在西苑饭店7号楼的办公室熬夜,上网聊天和做网站。当时,记得自己也玩摇滚的李松居然喜欢刚出道的刘若英,我们经常开着电视调到MTV听音乐干活。我记得一个让我们陶醉的瞬间,我们把一块3COM的网卡通过LINUX的资料网页而把驱动装上,然后背景音乐正是HEY JUDE。曾强经常给我们讲一些非常新的东西,比如NASDAQ,还给我们讲索罗斯的故事,他有一本索罗斯签名的原版《金融炼金术》后来离开实华开的时候我给拿走了。应该说当时我们一帮小孩非常努力,曾强谈合作的时候,无论是我们见到国内的官员还是企业,还有外国人,都愿意说现在互联网时代,我们一帮小孩多么厉害。他还对李松说,将来公司上市就可以买那辆红色法拉力了。说实在的,我对当时给我们的十几页纸并且有外国律师签字的10万股股票证书并不在意。曾强并不善于管理公司,加上作为他左膀右臂的朱子刚和我都还不到24岁,公司从几个人到几十个人只是几个月时间。公司有些混乱,但是真正促使我们走的还是收购瀛海威的事件。

很多最早知道瀛海威的人都是通过首体西门的那块“通往信息高速公路有多远”的广告牌。曾强和瀛海威接触还是因为他们通过一家叫Utopia的投资公司找到我们,当时96年8月正好是联通成立2周年,大家觉得应该搞些动作,联通支持我们通过联通实华开收购瀛海威,瀛海威也有这个意思。曾强和我们也陪着联通老总李荟芬和处长以上的官员视察了在物理所附近一家印刷厂楼上的瀛海威总部,我在那里见到了用友的老同事刘同,当时是张树新的助理。合作协议很快签署,总额1000万收购瀛海威,据说当时瀛海威的帐上已经没钱了。当时作为执行层接触的我和瀛海威的方明和刘同都成了我非常好的朋友,直到现在。方明和刘同后来结了婚,他们后来都在瀛海威鼎盛的时候离开了。后来发生的事情的细节也许只有当时的当时人知道,比起后来互联网的并购故事这并不算什么,因为一些原因,这次短暂的收购事件并没有太多见报,也许是因为当时互联网还根本不是媒体。协议签字2周后,我们的500万现金已经打到瀛海威帐户,我们也在开始做融合的前期准备。作为做互联网的我们,对瀛海威学习AOL的封闭BBS模式很不以为然。有一天下午,瀛海威突然发给我们一份传真,严厉指责我们破坏瀛海威民营企业得来不易的成果。紧接着,张树新把522万打回了我们的帐户,22万是利息。合资失败了。后来才知道是中兴发和中国通信建设总公司建入资8000万给瀛海威,同时中国电信支持瀛海威发展。怎么评价这些事情呢,联通当时是新锐的运营商,虽然势力微弱,不比中国电信瀛海威的选择无可挑剔,即便是为了获得中国电信的支持不得已的策略,但是后来张树新自己不也因为与电信抢食而被打压么,这其中值得回味。这次事件集互联网并购,电信运营商的竞争冲突一起,令人唏嘘不已。

后来,我们决定离开瀛海威,一方面张树新答应将一些互联网的开发工作交给我们的团队来做,另外一方面我们觉得实华开前途未卜。前者的诱惑更大,因为我们因此而能够开一间自己的公司。朱子刚因为后者也离开了,创办了一家叫云网的公司,现在是网上一个著名支付平台和最大的网络数字卡销售商。我们后来给瀛海威做开发,拿到了28万至今尚欠4万未付。和我们一起做外包的还有一家做网络游戏开发团队,不知道他们现在怎么样了。我们离开实华开的时候,正好实华开的INTERNET CAFÉ中国第一家网吧在首体开业,店长是我们的通事外国人菲利普,原来在日本的美国空军,人很英俊,通过网络从台湾找到我们。我们喝到了非常纯正的咖啡,也听了一场爵士演出,享受了一下128K专线的上网感觉。大家都不免有些伤感,现在看来,曾强其实对我们这些年轻人不错,走的时候票都给报了。后来在98年四通利方和实华开一起办两个世界杯的啤酒晚会,我们还见到曾强和他聊的不错,他的孩子已经1岁多了。菲利浦在我们走后也走了,我们和他还有李松还搞了一个MUSICHINA的网站,在北京的酒吧靠28.8的猫直播过演出没,菲利浦一度非常落魄,因为离开公司的我们都直接面临生存的压力,如果从事的互联网行业当时并不能养活我们。这么说其实不对,因为我们当时通过瀛海威和给世纪互联等公司给他们做出版和网上购物挣了一些钱,我们只是不知道后来上网玩的东西能挣大钱。我们的公司在我们离开实华开后办了起来,叫捷贝公司。好听的名字被别人注册走了,用“贝”子是我们定的方向是互联网数据库开发提供软件解决方案,实际上也够背的,在互联网热潮前死掉了。因为曾强的熏陶,我们曾经和我用友的同事于光辉做一间合资公司,我终于把在用友想到的网络进销存作了一个BS结构网络版,在昆仑饭店我们开发布会的时候,用友来了很多人“学习”,包括副总老吴和薛峰。于光辉的美天科技口号是“网络时代 应用为王”,他从香港人那里拿到了700万人刀的投资。也许从用友出来的人都差不多,给企业提供解决方案,然后赚钱。所以,我们当时并看不上纯粹的互联网公司,像世纪互联、东方网景,中网等,因为他们不能赚钱。我们的捷贝开到98年夏天,经过1年多的打拚,大家筋疲力尽。当时我们正在和中国技术进出口总公司信息中心合作,我们的电子商务平台的用户有很多都是知名的进出口公司,什么中国机电商会、机械进出口公司等,我们的模式还是给企业提供解决方案。当时马云正在和外贸部的信息中心合作。捷贝后来大家觉得做的很累因为很多原因, 有着失败公司各自的不幸。主要的原因是方向,我们的定位在中国需要强势的关系背景,虽然我们一直也有这样的资源,但是对年轻人来说,我们很难把握住这些强势的资源,比如技术进出口总公司这样的巨头,而我们的技术并非真正竞争优势。为什么后来其他的做互联网“玩”的东西的人可以成功呢,因为他们的获得的网友资源是牢牢控制在自己手里的,就这么简单。互联网后来给很多像我们一样的年轻人提供了创业的舞台。捷贝后来3个人留下了,他们和信息中心的处长范越英一起投奔了海虹,他们把捷贝的技术一直做下去,就是海虹经常提到的电子商务解决方案和药网招标平台。

年轻人凑一起开公司其实体会更多的是自由。我们当时在魏公村租的8块一米的办公室,饿了吃新疆村和誰赌输了去买麦当劳。在平时那种宽松的气氛中,让我们暂时忘记了时刻存在的生存压力。我们在乌烟瘴气的办公室听着震耳的摇滚乐,不过,后来大家还是喜欢一个叫SHAMPOO的女歌手。下班回家大家回到租住的四合院(在现在太阳园的那个地方)看无聊的电视剧和球赛,但是大家一起评论和笑骂,看的和喜剧一样。周末把还在读研的同学还有学校低年级的MM叫来一起做饭开PARTY。应该说我们一起创业的天文系的同学非常聪明也是很会享受生活的人,但是却理想主义太多而实干不足。我们觉得实华开给我们最大报酬是给过去的校长方复康开会赞助,在西苑饭店我们吃了顿饭,饭桌上夸我们是北师大出来的优秀学生,其实我们从来不是什么好学生,主要是不想当好学生。当时我们在魏公村百花科技园的办公室更像一个网吧,各色人等都过来打红警和极品飞车。97年我们认识了还在摩托的NETMAN,通过NETMAN认识了汪延、董纳新和李松波。陈彤当时还没有毕业,来我们的内部BBS还混过一段。四通利方当时还是一个WEBBORAD ,当时和四通利方的人还不熟,在上面还因为瀛海威打过架。当时汪延去计算机世界展瀛海威的展台有些冲突正好有气,而我们是瀛海威的开发商。在当时业界有在我们看来已经很大的互联网公司的情况下,我们实在看不出他们能折腾出什么。我们也有BBS,但是因为根本就是自己人玩,所以需要密码然后才能进入,而这个密码必须是我们允许才能生效。很多时候眼光就是这样,你完全无法证明一件事情的对错,而很多事情,特别是互联网成功的案例,都是因为别人不愿做而成功。我们也层找到过当时还叫创联网络的万网,我的大学同学张向宁在搞域名注册和帮企业做网站。我们的出版系统能够帮助企业很快的做网站,但是我们自己怎么就没有想到去企业推销呢。老实说,我们并不能吃苦。后来,运气好的和能吃苦的,都成就了大事,而我们则开了一家有着美好和痛苦回忆的公司,然后各自散去。作为四通利方的老网友,山野论坛的第一任版主,至今仍然在新浪的论坛混,但是世界已经在我身边轰轰烈烈的改变。而这种改变的动力竟然就是互联网。如果你能意识到身边默默发生的变化,而周围的巨头还在睡梦中的时候,千万要抓住这样的机会,如果你还想成就些事情或者对生活有所期待。

后记:
捷贝结束后,我一度逃避从事互联网行业,也因为99年5月的一件突发事件离开朋友们半年时间。00年经历了MIH投资EOL失败的网络泡沫破碎,01年和开始玩互联网同时交往的女友结婚,她一直在上海,现在在我身边。01年开始从事移动计算历经PDA,SP一直到现在在天下互联做“中国总机”。之后一直没有创业,现在的兴趣包括登山、越野和业余无线电。捷贝的域名www.jetbase.com 后来被一家硅谷公司注册,和我一起创业的朋友和同学现在在埃森哲、诺华、中搜等公司。

星期二, 十一月 01, 2005

Google Home Base

Google Home Base
-只说 sayonly.com english other 创业生存手册 概要:本文试图通过一系列线索揭示Google Base与Semantic Web(语义网,以下简称SW)的关系,以此窥探Google在互联网服务的战略布局。当然本文属于创业生存手册系列,在系列的开篇中只说提到这个系列会提到web2.0,所以本文也会比较SW在web2.0的关系。本文引用的SW的资料大多数为英文资料,有识之士可以翻译并推介这部分材料,将是对于国内互联网整体水平的大的提升。Dedicated to another SW - Simon Willison。1,Google BaseGoogle Base(应该是base.google.com,暂时无法访问)还没有发布,谣言已经满天飞了,从webleon的给出的链接看到,google的产品拓展经理Tom Oliveri列出了一份清单,给出了正式的解释(只说译):
你也许已经看到了今天很多关于我们正在测试的一款新产品的报道,猜测了我们的计划。在这里我告诉你们我们真正在作的是什么。我们在测试一种内容拥有者提交他们的内容到google的新方式,通过这种方式,有希望补充我们已经使用的方式如google机器人以及SiteMaps(站点地图)。我们认为这是一款让人激动的产品,有新消息我们会立即通知你们。
这则简单的声明已经没有办法满足很多人的好奇心,试用过的人给出截图,更多的人在猜测google究竟在干什么。webleon文中说,应该是一个由用户自行创建网络数据库的服务。这些数据可以是任何的内容,从可以看到的数据内容看到,有-聚会服务的描述;-网站上关于时事的文章;-二手车出售列表;-蛋白质结构的数据库。这些内容,真的只是网络数据库、用户隐私?或者是google头脑发热的一次作恶(evil)?从google的对这个项目的声明和更多的猜测看,恐怕不这么简单。种种迹象表明,这是google在作一次SW的试水,是google开始向SW服务靠拢的一个试探。为什么只说能这么肯定,SW究竟是个什么东西,它怎么有那么大的魔力,让google这么讳莫如深?这话得从头说起。当然,也只有google,在产品的测试期间就能掀起这么强烈的关注。2,Google与Semantic Web的亲密接触几年前,Simon Willison发了一个简短的blog文章,对于google在作一些关于SW的研究而赞叹,他看到了一份以未来笔调描述google如何战胜Amazon和Ebay这些竞争对手的恢宏论文,作者是 Paul Ford。Simon Willison是一位很geek的程序员,我一直有看他的blog,虽然未必能完全看懂,他现在去了yahoo,有趣的是,它的名字的简写也是SW,把本篇文章献给他(其实应该是本章,但那样说也太失礼了)。Paul Ford那篇被多次提到(还有 Stuart)的文章讲的是,2009年,Google统治了互联网这个媒介,回顾如何击败Amazon和Ebay的历程,其实是一篇比较通俗的整体讲述什么是SW的文章,读起来颇为有趣。同样有趣的还有那个EPIC,当然就与SW无关了。其实美国东岸的几所学校对于SW的应用研究都很长时间了,最有成果的应该是piggy bank。2003年,google买了一家小公司,叫做Applied Semantic,应该用来做Google adsense的。因此有人写了一篇题为google在SW投资的文章,可以参看。google的搜索质量总监Peter Norvig今年初有一篇文章,题目叫做SW可以做什么,不能做什么是只说读到关于SW应用最透彻的文章之一,这系列文章很长,从各个方面探讨了SW应用和概念。Peter Norvig是个非常有眼光的人,我以前也是一直看他的网站,虽然至今他还没有blog,但是终于有RSS输出了。他有一篇传世文章,叫做十年学编程后来被很多人翻译过,其实这是他在NASA研究中心时候写的,呵呵,时间过去得真快。如今的Google Base的出现,必然有Norvig的眼光和推动力来成就这个网站。其实欧洲人比美国人更急于想实现SW,甚至已经有了semantic weblog,例如qlogger.com,但是没有人象norvig一样技术渗透,而且身后是google这样的公司。背靠着索引着最大互联网网页数量的google,在将网络爬虫使用到了极致之后,极有可能是第一个可能局部实现SW的商业机构,无论从技术还是从市场上看。当然SW是一种理想,至少google base让我们初尝到这种口味。让我们看一看,什么是SW,为什么Google要实现SW?3,什么是Semantic Web?什么是SW,就得先谈谈它的发明人Tim Berners-Lee,同时也是WWW的发明者。Tim Berners-Lee在近几年的报道提到互联网发展时(一般放到Future一页里面)无一例外的提到了SW,大约是发明WWW之后再发明不了其他玩意儿了,或者是其他玩意儿都没劲了。当然也还有其他的,5月的报告指出,目前网络在手机上面临的困境跟96年互联网在pc上面临的困境一样。当然,SW是对于整个互联网说的,跟接入的设备没有什么关系。专门关于SW的报告是题为SW在这里,列出了Nokia、HP、IBM等厂商的SW的进展,也可以在这里看到那次会议中谈论的细节,不过那里看不到那个SW在这里报道中的那个SW的形象图,画的是各种材料,包括砖头和木材,组合成的一头大象。形象地说明了在SW下,是各种可以识别的材料,组成了整个世界。many things to many people。只说喜欢他们另外一个宣传口号:Web Evolution causing a quiet revolutionSW的核心意义在于网络内容是由多种可以识别的数据组成的,在早期的互联网,93年左右,互联网停留在文件形态,组成的是一个个文件,传送都是使用ftp 等工具;94年左右互联网处于文本的形式,出现了html和URI(唯一地址),可以通过这个地址进行访问;而不断演化,今后将在以XML等可以标记的数据结构中,而网页只是展示这些数据的一种工具,你可以通过任何其他的形式进行展示,甚至机器也可以识别。互联网不再是由一篇篇的文档和页面组成,而是由一部分一部分细碎的数据构成。这样说比较玄妙了,其实还可以解释得更简单一点。SW就是把原来的互联网内容,切成碎片,文章标题归文章标题,发布时间放到发布时间,文章概要归文章概要,分别存放,每一个部分都是机器可以识别的(当然实际可能更复杂一点)。在Paul Ford的2002年如何战胜Amazon和Ebay中提到,它其实就是描述这些内容的另一种方式,这种方式下机器可以识别,具体方式虽然不是十分清晰,但是逻辑上,其实跟在你在学校里面学习的方式没有什么两样:-如果A是B的朋友,那么B就是A的朋友;-张三有一个朋友叫李四-因此,李四将有一个朋友叫张三-李四有一个朋友叫张三-那么,张三会有一个朋友叫李四就是这么简单。在互联网上,我们把内容放在一些定义好的XML标签指定的文件里面。然后会有程序自动收集这些内容,通过这些简单的规则,进行分析。所有区别于现在操作的就是,在搜索的时候,服务器的程序会综合更多的因素,进行更复杂的判断,理解你的请求的真实意义,然后给你最准确的内容。例如,你输入只说,他们准确的判断出,你要找的是我这个人,而不是错认为,你又说了一句什么话,或者给你一个许如芸的“只说给你听”的歌曲应付一下你。4,Google怎么实现Semantic Web?Google究竟怎么实现SW,在Peter Norvig的文章SW可以做什么,不能做什么已经可以看出些端倪,Norvig在今年一月份(或者更早)都已经想好了应该怎么启动了,或者说,应该怎么逐步打造SW。他谈到了四个问题:1)先有鸡还是先有蛋的问题,这个问题涉及到如何建立所需的信息,因为要必须有有组织的信息才能打造相应的工具,而如果没有相应的工具,怎么把信息放到组织里面去呢?这个问题只说要展开说一下,其实google并不是要建立一个Tim Berners-Lee等人理想中的SW,因为其实google其实只需要索引SW中的信息即可,因为如果SW建立起来,索引是一件简单的事情,甚至产品实现上面比google现在的搜索引擎更简单,技术要求更低。然而,问题就出来了,是先建立一个SW,然后来索引呢,还是先索引整个互联网,然后再生成把它放到有组织的SW里面去呢,这就是为什么google打造SW时遇到了先有鸡还是先有蛋的问题。那么只说的猜测是,目前Google base的作法是,目前互联网上的信息是很难组织,那么让用户提交有组织的信息到google,就能形成局部的SW。而这个局部的SW,就可以实现聚会服务的描述、网站上关于时事的文章、二手车出售列表等等信息的精确定位,机器也就能够理解这个范围内的信息。在Norvig后面的描述中可以证实只说的说法:
在正常情况下,定义语义的标准格式(schemas)似乎更好,但是,问题出在把什么内容放进这些标准格式,还有很多工作要做。因为还有以下提到的几个问题,这些问题在把内容放进这些标准格式中的时候,这些问题同样会出现,而且,google不能把握住这些环节,或者从整个互联网角度来讲,把握这些环节的公司服务或者工具太分散,无法形成标准,也无法保证安全和质量。Norvig举了一个google news例子,在前一个晚上google news一共索引了658个不同来源的新闻,google可以根据这些新闻页进行一个cluster运算,算出其中重要度最高的是Blair的新闻,然而,如果google依据这些写入新闻的新闻源来做这件事情,则几乎是不可能的。不过通过他们的页面上的新闻来索引计算出来的质量毕竟不高,所以google现在想到另外一个办法,也就是,让用户通过google base的接口提交到google,提交的数据是定义好的一些数据标准,google来控制这个提交过程并更准确的判断提交的质量、spam等等情况,并且可以将各种数据综合起来进行分析。2)竞争问题,你有不同的和相似方法和工具可以选择。这样子就无法跟踪用户行为的全貌。3)Cyc问题,Cyc是一个专业术语,讲的是通过广泛的本题作常识推理。这样说也许不太明白,举个例子就很容易了,例如“周杰伦”,这是一个人名,如果以错输为“周杰论”,这时机器就识别不出来了,但是如果拥有了一个很大的词库,那么这个通过识别出“周杰论”可能就是“周杰伦”,那么这就是一个Cyc问题。如何在SW 中判断这些Cyc以识别出常识的判断,这是建立真正意义的SW必须解决的问题。4)Spam,垃圾,这个不用多说了。但是注意到,由于SW是精确匹配,并且要求根据意图来适配,所以对于spam要求更高。顺便提及,Splog不就是Semantic Spam嘛。5,Semantic Web与Web2.0web2.0是tim o'reilly的概念,开始这个概念定义很模糊。应该是互联网应用的发展模式,催生了新一代的应用以及人们对于这些应用的理解方式和使用方法(这里谈到过这几个概念的分别)。国外也有人撰文web2.0会杀掉SW吗?,也有称Semantic Web 2.0。有很有趣的讨论。前一篇文章说得有点道理,web2.0是给少数人用的,SW会提供Accessiblity。Stefan Decker在这里补充了一下,Web2.0重“应用”,SW则是标准。这跟只说那边谈到web2.0是应用发展模式不谋而合。其实web2.0用来说明一种公司特性也未尝不可,不过你大声的说google是web2.0的公司,而M$是1.0的公司,确实有点怪。当然SW也作了很多应用,例如美国东岸的几所学校,例如欧洲连Semantic weblog也搞出来了,deri也做了很多应用了。另外,gnowsis也是另外一个狂想,只是我还没看懂它的结构图,为什么会有一个semantic web server在里面。6,结语还有几点:本文并没有分析google为什么要做SW,只说想这已经用不着只说在这里分析。SW对于各种应用的好处是显然的。Google对于SW的探索看似给予搜索引擎的,Norvig那篇文章下面也有人回复说,似乎google只是在搜索的角度看待SW,其实不然,因为互联网是一个请求应答系统,是我们人为将互联网标准定义成一个url指向一个网页的,这是一个陈旧的标准,或者对于更高层次的信息获取来讲,并非是必要的。关于信息适配的探索,其实google比任何其他人(谄媚呀)都高。有人说,Google还是从信息组织的角度来看待整个互联网(google的信条就是组织信息),或者,它只是互联网的一个信息组织者,以后也将成为SW 的信息组织者。其实,从根本来说,互联网整个媒介都是信息,除了信息没有其他任何东西,当然你可以持有另外一个观点互联网应用才是主导,这到了最深处都是殊途同归。刚写完,发现keso的已经出来了:
互联网提供了很多破坏规则的机会。门户新闻和搜索引擎新闻已经破坏了传统媒体的规则,分类网站正在破坏一些电子商务网站和招聘网站的规则。即将露面的 http://base.google.com/服务,很可能是一个更大的破坏者,它有可能笼络更多的个人内容提供者,进而改变互联网长期以来内容的组织方式。
其实规则很简单,就是在得到最小的spam的情况下,获得最有组织并且方便组织的信息,google实现的局部SW当然有控制,然而,SW的目标,不是web2.0那样的应用,而是Accessibility呀。 这场革命如此quiet,甚至谈不上“规则破坏”。(指Web Evolution causing a quiet revolution的quiet)本文引用的大量连接都是英文链接,由于时间关系,不能将其中摘录翻译,深感抱歉。SW的很多文章并不完全是很技术化的话题,这些材料对于国内互联网水平的增长是十分有益的。再次强调一下本文的观点:很显然,google base是google在SW的试验和测试。而SW就是google的本垒(home base)。

星期一, 十月 31, 2005

Google Base:Content Provider (转)

Google Base:Content Provider
Google Base亮了一下像,又闪了。根据官方的解释,它就是一个用户提交内容的系统,即用户可以自行创建数据库从而使得自己的内容可以被索引并被搜索到。至于Google Base的用途,比较众说纷纭,大概有这么几种说法:
作为分类信息(Classifieds):Steve Outing认为,Google将会尝试的是一种类似于Criaglist甚至是Ebay那样的模式,提供一种信息发布系统。同时它也指出Google Base相比较而言会显得“静态化”一些,没有人气旺盛支撑的话这样的社区走不了多远。
提供原数据:Webleon认为,利用Google Base收集原数据,通过API“将数据进行获取-整理-再发布”到第三方服务中,这有点类似于Ning的形式
语义网(Semantics Web):Sayonly认为,“这是google在作一次SW的试水”,即这部分数据转化为可为语义互联网的形式,从而对互联网的信息进行更高精确度的匹配。从这个角度上看,Google所做的,只是借助SW对自己既定目标的延伸而已。 在翻译那篇关于Web2.0的十八句名言”的时候,我印象最为深刻是这么一句:“在5到10年内,媒体的价值将存在于那些培养用户的公司,而不是那些控制内容的公司”。那我们回过头来看一看那些Content Provider的模式:最早就是像Hao123这样的网页目录。这种最早的对于互联网信息聚合的手段,是Yahoo最先开始的。它在数据信息显然不够丰富的时候,通过若干编辑的人工筛选实现了信息最优化。接着则是搜索引擎的方式。利用Bots,机器开始自动的检索静态网页的内容并将它们索引起来供人搜索,机器、数据库和表达式开始担任其原来编辑的责任。它所遇到的最大敌人就是Spam,其根本原因在于搜索的内容是孤立的,不是语境化的(Contextualized),它无法从内容本身而对网页进行评估,而只有通过Page Rank这样的反向链接技术。现在用户将成为内容提供方,这最大的优点在于,它有可能产生自我甄别的机能。正如Kevin Kelly在那篇“We are the Web”中所说的,通过一个类似于神经网络的构造,未来的Web的行为模式产生于我们每个人中间,即我们的每一个动作,每一次点击都将是在培育一个超巨大的AI机器:互联网。在这里,终端原数据具有的是无以比拟的智能化和结构优化。这样一来,整个Content Provider的模式从人工走向机器,再从机器走向人工,在这个从静态数据到动态数据转化的过程中,不断的得到提高的是信息的整合度和数据的结构化。所以无论Google Base最终的应用方向在哪里,它都是Google这家眼光长远的公司迈向未来信息检索和内容提供模式的一个重要的跳板。我们之所以敬佩Google,不仅仅是因为它不作恶,而是在于它能敏锐的捕捉信息发展潮流,勇敢的做那个吃螃蟹的人。

解读“NING”的野心(转)

显然,NING是一个让人第一眼看上去茫然的服务:craiglist, delicious,flickr..这些词汇混在一起,让你不知道这究竟是做什么的。不过,只用几分钟的时间,我们就明白了,这是一个让用户能够方便的创造自己的社会性网络服务的网站。比如,你可以很快的用NING提供的工具来创造一个属于自己的像FLICKR那样的网站,或者像CRAIGLSIT那样的分类广告站,以及你能够想像到的东西。从技术的角度看,NING为用户提供的服务相当于一个主机租用商而且是免费的。以前,我们要建一个网站,做好程序代码后,我们还需要自己装服务器,或者租用,这这个过程很麻烦。现在,你有任何的想法,用PHP代码实现后,就可以直接上载到NING上,OK,你的服务开始运行了,连域名都有了,虽然是个比较难看的三级域名--这是一个多么好的实验田啊。NING的核心价值显然不在为用户提供这么一个空间上:它是一个创造者互相交流的乐园。NING提供的交流方法包括:1,通过给项目(也就是读者自己创作的网站)打上标签,用户可以方便的浏览别人做的东西。看看谁的项目受欢迎,可以浏览这些项目的代码。(目前还只支持PHP语言。将来会支持RUBY和PYTHON两种脚本语言)浏览这些标签的过程,也就是研究市场的过程。2,可以让用户直接克隆别的用户的想法和代码,弄到自己的项目上,加以改进。这个相当于项目实施。CLONE---MIX---RUN,三步一个项目,
CLONE

MIX

RUN
现在这两个功能还只有那些批准为“BETA开发者”的用户能够使用。有人可能会觉得做网站,代码都不保密了还有什么商业前景呢。这个是个问题,不过在我看来,那是WEB1.0时代的想法。交流产生价值,以前出现的社会性网络都是针对某个具体用户群的,比如FLICKR以爱图者为主,DOUBAN服务于好书者。而这个NING,则是针对所有开发社会性网络的开发者和研究者,它下承技术,上启普通用户,很可能在将来社会性网络的发展过程中起到一个决定性的基石作用。让我们用一个可以想像的例子来打消代码保密的顾虑:假设我设计了一个网站,是专门用来收集BLOGGER资料的,所有人都可以在上面添加资料评论,等等。我在NING上面实施了这个项目,很多人发现很好,克隆了我的项目,于是我那个项目的标签就膨胀的好大好大,说明我的想法是受欢迎的,有市场的,于是我感到很爽。爽的同时,我发现,那些克隆我想法的人,对我的代码都做了小小的,偷偷的修改,融入了很多新的,我永远都想不到的东西。于是我两眼放光,兼融并包,最后弄出一个成熟的东西,在其它地方商业化的实施了。那你说我到底失去了什么?这也就是NING的本质性创新之处:它消除了用户和开发者的界限。开发者在研究别人东西的时候,也就同时是用户,NING将是一个宝贵的市场信息的集散地,只要你注意把握的话,一定有层出不穷的想法出现。而将来,当这个地方成为WEB2.0想法的一个枢纽,一个发电站的时候,NING的商业价值就出来了。(其功能的十分之一,至少会是这方面人才的一个集散地,有兴趣的话去注个册吧)

星期三, 十月 26, 2005

长尾理论挑战二八定律

长尾理论挑战二八定律
近日在AdAge上看到北美广播巨头纷纷有大动作,心想莫非失落的媒体卷土重来?开始关注并尝试着写一篇观察出来。在纷繁复杂的相关行业信息中搜索的过程中,碰到Podcasting(中文暂时有部分尝鲜者译为“播客”)这个新概念,基于RSS技术的Podcasting和Blog如出一辙,只是信息载体不同于Blog的文字而是声音,广播厂商利用此技术让受众能够轻松下载想听的内容到便携式音乐设备,方便随时收听;另一方面,卫星广播推出订阅服务,将一些更深入的内容,更独家的访问作为收费服务,创造了一定规模的固定忠实用户,对于广告主和媒体公司而言,其蕴涵巨大商机。
原来新时期的广播行业已经慢慢褪去大众媒体的光彩,摇身一变针对固定细分市场的分众媒体。XM和Siruis纷纷推出更细分更专业的广播频道,而新的广播公司通过传媒巨子的合作也粉墨登场。融合了互联网技术后,广播行业呈现出一股新气象。
追根溯源,必然会有理论依据支撑行业现象。于是,长尾理论出现,和二八定律产生直接冲突。所谓长尾理论(The Long Tail),从统计学中一个形状类似“恐龙长尾”的分布特征的口语化表述演化而来。查阅维基百科有关“长尾”的条目,得知由一杂志主编Chris Anderson于去年十月提出,他认为,只要存储和流通的渠道足够大,需求不旺或销量不佳的产品共同占据的市场份额就可以和那些数量不多的热卖品所占据的市场份额相匹敌甚至更大。

举一个市场的例子,亚马逊网上书店成千上万的商品书中,一小部分畅销书占据总销量的一半,而另外绝大部门的书虽说个别销量小,但凭借其种类的繁多积少成多,占据了总销量的另一半。从“长尾理论”模型图中可以发现,红色区域和蓝色区域的面积大约相等。
《当代广告》和《广告和促销》两本原版专业教材让我记住了二八定律,不仅作用于营销市场。同样适用于生活中的一些存在竞争的情况。百分之二十的消费者购买百分之八十的某一类商品,而百分之八十的消费者只购买另外百分之二十的商品,厂商便称那百分之二十的消费者为”品牌忠诚者“,其数量的增加必然带动另外百分之八十的”品牌摇摆者“的数量,并保持二八比例不变。传统营销手段受制于薄弱的技术和高昂的成本,即使NIKE推出制订运动鞋的服务,也是基于大规模生产的基础和高出一般水平的价格,而互联网技术的不断发展,让我们看到了二八定律失效的可能性。
国内的三大门户网站,加上新进的TOM、QQ,和中华网、新华网一起构成网络新闻信息的供应主力部队,那么散落在各个BSP(博客服务供应商)上难以计算的博客们是不是就是那条长长的信息尾巴呢?主力网络媒体毕竟规模有限,而博客们的队伍则继续壮大,两者不同的地方只在于访问率(类比市场销量,加以思考)而已。再偏门再边缘的信息也有需要,因此我们可以说,长长的尾巴里有那些红色区域所不能满足我们的东西。换言之,如果技术的成熟和成本的保证得以完成,二八定律在互联网相关产业上便宣告失效。
窄告广在国内的异军突起是个很好的例子,窄告靠的不只是噱头十足的概念,而是创始人张向宁在万网时期就开始酝酿的上下文广告盈利模式。主流网络广告的形式不外乎横幅式、弹出式、背投式、浮动式等冲击眼球的动感模式,大部分广告主都是知名品牌和实力厂家,而上下文广告很好的运用了同网页内容的相关性和点击计费的收费模式,给予成千上万小企业和个人工作室有效推广自己到达目标受众,提高营销效率。窄告作为中国上下文广告的代表,成功占领大半主流网络媒体,如今每月收入100万元,良好的发展趋势成了同类产品GoogleAdsense本地化的最大障碍。当然,后者在欧美市场的成功同样和窄告在中国市场的爆发是同样道理,随着”长尾“越拖越长,上下文广告前景一片光明。
从目前来看,传统营销市场还是二八定律的天下,而以RSS技术为基础的Blog和Podcasting,搜索引擎广告,上下文广告,还有网上拍卖行业、网上招聘行业,公关危机在线解决方案都能够从”长尾理论“中获益。

必备的在线blog工具

必备的在线blog工具
写blog是件快乐的事,但是很难有十全十美的blog工具供你使用,再说各种工具有不少要安装等等,特麻烦,我写blog只用如下在线的编辑工具:1 功能较好的所得编辑器(WYSIWYG),尽管writely还不够丰富,我还是推荐它,它能自动保存,当然现在gmail也可以,你也可以使用gmail编辑器,这样一来就不必担心断网/死机等郁闷问题,online.thinkfree.com也不错,但是需要java虚拟机,比较麻烦;其他的在线所见即所得(WYSIWYG)编辑器从编辑功能上说,都没什么问题,ewebeditorhtml_generator都不能自动保存,写blog最怕耗费巨大热情写完了,浏览器坏了/数据丢了,又得从头再写,汗... 有基本的所见即所得工具+小代码生成器,比如你要生成一个提交按钮啊,生成一个表格布局啊什么的这些小工具都是挺方便的.2 简单的在线图像编辑器(1 2 3),来处理或者生成简单的图片而不必启动机器上达几百兆的ps软件,因为用这些专业软件处理完的图片也就用最简单的那两三种功能而已;3 refer/linkback/click go的统计分析。refer是用户访问你的网站来源统计,包括搜索引擎和关键词部分,这个功能现在大部分的计数器都有这个;linkback是指通过tarckback工具或者blog搜索的反向链接工具来分析链接你的都是那些网站(123);第三种工具就是统计分析你的blog中那些链接经常被人点击,对在blogger来说,分析点击来改善链接设置的方法等颇有益处,这个叫mybloglog工具是从webleon的网站上发现的(:致谢;4 feed转换工具,类似于feedburner/feedsky/2rss/feeddigest等,他们的作用不只是将你的分散的feed烧铸成1个完整版的,更重要的是提供一个缓冲包括你种子的url和数据的缓冲.比如说,zheng前段的klogs当了,但是订阅他的feedburner就不必担心,他会把他使用的最新空间的feed烧铸在里头。5 还有一个就是在线的定向信息获取工具,例如rss订阅bloglines,例如利用搜索引擎icerocket.com,例如利用watchlist等来阅读自己关注的主题、领域或者Blogger,但是随着时间的积累你的feed会不断的增加,1方面你要去删除1部分,另一方面你要有选择有区分的阅读,比如确定的那些必须每天都读的,而那些则不必等。总之这里头还是有点难度的。好工具很多的,只简单介绍几个。我用blogger作为发布工具,希望blogger的控制面板中能自己增加链接,把这些链接加里边,这样就不必每次都要到收藏夹里找了。

AJAX 值得关注

AJAX基础教程
  这篇文章将带您浏览整个AJAX的基本概貌,并展示两个简单的例子让您轻松上路.   什么是 AJAX?   AJAX (异步 JavaScript 和 XML) 是个新产生的术语,专为描述JavaScript的两项强大性能.这两项性能在多年来一直被网络开发者所忽略,直到最近Gmail, Google suggest和google Maps的横空出世才使人们开始意识到其重要性.   这两项被忽视的性能是:   无需重新装载整个页面便能向服务器发送请求.   对XML文档的解析和处理.步骤 1 – "请!" --- 如何发送一个HTTP请求  为了用JavaScript向服务器发送一个HTTP请求, 需要一个具备这种功能的类实例. 这样的类首先由Internet Explorer以ActiveX对象引入, 被称为XMLHTTP. 后来Mozilla, Safari 和其他浏览器纷纷仿效, 提供了XMLHttpRequest类,它支持微软的ActiveX对象所提供的方法和属性.   因此, 为了创建一个跨浏览器的这样的类实例(对象), 可以应用如下代码:
if (window.XMLHttpRequest) { // Mozilla, Safari, ... http_request = new XMLHttpRequest();} else if (window.ActiveXObject) { // IE http_request = new ActiveXObject("Microsoft.XMLHTTP");}  (上例对代码做了一定简化,这是为了解释如何创建XMLHTTP类实例. 实际的代码实例可参阅本篇步骤3.)   如果服务器的响应没有XML mime-type header,某些Mozilla浏览器可能无法正常工作. 为了解决这个问题, 如果服务器响应的header不是text/xml,可以调用其它方法修改该header.
http_request = new XMLHttpRequest();http_request.overrideMimeType('text/xml');  接下来要决定当收到服务器的响应后,需要做什么.这需要告诉HTTP请求对象用哪一个JavaScript函数处理这个响应.可以将对象的onreadystatechange属性设置为要使用的JavaScript的函数名,如下所示: http_request.onreadystatechange = nameOfTheFunction;   注意:在函数名后没有括号,也无需传递参数.另外还有一种方法,可以在扉页(fly)中定义函数及其对响应要采取的行为,如下所示:
http_request.onreadystatechange = function(){ // do the thing};  在定义了如何处理响应后,就要发送请求了.可以调用HTTP请求类的open()和send()方法, 如下所示:
http_request.open('GET', 'http://www.example.org/some.file', true);http_request.send(null);  open()的第一个参数是HTTP请求方式 – GET, POST, HEAD 或任何服务器所支持的您想调用的方式. 按照HTTP规范,该参数要大写;否则,某些浏览器(如Firefox)可能无法处理请求.有关HTTP请求方法的详细信息可参考http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html W3C specs   第二个参数是请求页面的URL.由于自身安全特性的限制,该页面不能为第三方域名的页面.同时一定要保证在所有的页面中都使用准确的域名,否则调用open()会得到"permission denied"的错误提示.一个常见的错误是访问站点时使用domain.tld,而当请求页面时,却使用www.domain.tld.   第三个参数设置请求是否为异步模式.如果是TRUE, JavaScript函数将继续执行,而不等待服务器响应.这就是"AJAX"中的"A".   如果第一个参数是"POST",send()方法的参数可以是任何想送给服务器的数据. 这时数据要以字符串的形式送给服务器,如下所示:
name=value&anothername=othervalue&so=on 步骤 2 – "收到!" --- 处理服务器的响应   当发送请求时,要提供指定处理响应的JavaScript函数名.
http_request.onreadystatechange = nameOfTheFunction;   我们来看看这个函数的功能是什么.首先函数会检查请求的状态.如果状态值是4,就意味着一个完整的服务器响应已经收到了,您将可以处理该响应.
if (http_request.readyState == 4) { // everything is good, the response is received} else { // still not ready}  readyState的取值如下:   0 (未初始化)   1 (正在装载)   2 (装载完毕)   3 (交互中)   4 (完成)   接着,函数会检查HTTP服务器响应的状态值. 完整的状态取值可参见 W3C site. 我们着重看值为200 OK的响应.
if (http_request.status == 200) { // perfect!} else { // there was a problem with the request, // for example the response may be a 404 (Not Found) // or 500 (Internal Server Error) response codes}  在检查完请求的状态值和响应的HTTP状态值后, 您就可以处理从服务器得到的数据了.有两种方式可以得到这些数据:
http_request.responseText – 以文本字符串的方式返回服务器的响应 http_request.responseXML – 以XMLDocument对象方式返回响应.处理XMLDocument对象可以用JavaScript DOM函数 步骤 3 – "万事俱备!" - 简单实例  我们现在将整个过程完整地做一次,发送一个简单的HTTP请求. 我们用JavaScript请求一个HTML文件, test.html, 文件的文本内容为"I'm a test.".然后我们"alert()"test.html文件的内容.
Make a request  本例中:   用户点击浏览器上的"请求"链接;   接着函数makeRequest()将被调用.其参数 – HTML文件test.html在同一目录下;   这样就发起了一个请求.onreadystatechange的执行结果会被传送给alertContents();   alertContents()将检查服务器的响应是否成功地收到,如果是,就会"alert()"test.html文件的内容. 步骤 4 – "X-文档" --- 处理XML响应  在前面的例子中,当服务器对HTTP请求的响应被收到后,我们会调用请求对象的reponseText属性.该属性包含了test.html文件的内容.现在我们来试试responseXML属性.   首先,我们新建一个有效的XML文件,后面我们将使用这个文件.该文件(test.xml)源代码如下所示:
I'm a test.  在该脚本中,我们只需修改请求部分:
...onclick="makeRequest('test.xml')">...  接着,在alertContents()中,我们将alert()的代码alert(http_request.responseText);换成:
  var xmldoc = http_request.responseXML;  var root_node = xmldoc.getElementsByTagName('root').item(0);  alert(root_node.firstChild.data);  这里,我们使用了responseXML提供的XMLDocument对象并用DOM方法获取存于XML文件中的内容.

星期二, 十月 25, 2005

重回互联网

很难想象会开一个自己的BLOG,而且居然在10/25,对我来说只是一个普通的日子。

开这个BLOG的目的是把看到,想到的一些也许对以后工作有些用处东西记录下来。

开这个BLOG也是因为这篇文章,震动很大:

Google公司副总:社区、内容将取代API称王
2005-10-22 08:54 作者:红树 来源:eNet硅谷动力【eNet硅谷动力消息】

美国伯林格姆当地时间本周五,Google的副总裁博思沃斯在"Zend/PHP展会"上表示,计算的力量正在由专有技术、微软的API转向Web上的链接和内容。

博思沃斯表示,与10年前相比,计算力量已经发生了转移。许多开发人员已经不再使用C++和VisualBasic开发客户机-服务器模式的软件。他说,今天,人们更多地使用PHP、LAMP组合(Linux、Apache、MySQL、Perl/PHP/Python)。过去的应用软件都通过"控制模式"开发,微软通过API控制了软件开发。但是,目前,这种模式已经完全没有用了。

博思沃斯指出,按需计算和内容是关键的。他将在线CRM提供商Salesforce.com看作是按需计算服务提供商的典范。他说,重要的是我能够接触哪些社区和内容能够带来什么样的价值。及时更新和动态的内容是价值之所在,他说,Web上所有人的最大挑战是如何及时地发布信息。

博思沃斯还对Office进行了抨击。他说,我对人们为使用Word等工具创建内容买单感到震惊。内容将通过免费工具提供给受众。

据博思沃斯称,10年前,API意味着控制,目前占有主导地位的是链接。他说,在目前的这个世界上,API就是链接,可供使用的链接有许多。

博思沃斯指出,在线社区正在迅速发展。人们最先是开始构建内容社区,然后逐步提供对它的访问。博思沃斯还将Web论坛看作是一项重要的发展。他说,医疗健康是一个可以通过Web通讯得到改进的领域,如果数据可以方便地共享,病人将可以得到更好的医疗服务。