
Tag的兴起源于两种社会性网络服务的应用 - del.icio.us书签和Flickr的图片分享服务。这两种Web服务很巧妙的将Tag功能运用其中,配合他们独特的易用性,一定程度上引爆了Tag以及分众分类的流行。不过这些服务的语言系统都是基于英文,所以在接受和认知程度上,他们更符合英文用户的使用习惯。
分词特征:英语和汉语在分词的定义上有着显著的区别。英文中的词干以单词形式出现,而中文中的词干是由单个字组成的“词组”。从语言学(Linguistic)的角度来说,英语中的单词可以直接排它性的定义,而汉语的词需要通过特定的分词结构来进行区别。举一个简单的例子,“她用魔法做了一个毒苹果然後扮成一个老婆婆到森林去找白雪公主”。这个句子中的“苹果”和“果然”就需要通过中文的分词算法来解决,到底是“苹果”为一个词还是“果然”为一个词?而英语中很少会出现这样的问题。总的来说,两种语言的分词特征有显著不同。关于中文分词详情见卢亮的中文分词系统。
语义普遍认知(Common Sense)的差别:在不同的语言环境下,对语义的普遍认知存在很大的差异,比如Technology,这是一个普同的定义词,但在汉语中,对于它的解释可能是:科技,技术,工艺等等。在这种情况下,Technology本身在英语语境的普遍认知度则比科技,技术,工艺这三个词中的任一词在汉语语境中的普遍认知度高。同样的情况也出现在汉语语境中,Keso举了“春节”这个例子,在英文中它可以表述为ChineseNewYear,SpringFestival,LunarNewYear等等。可见,不同语言系统中的语义普遍认知度差别明显。
缩写词的特征:这是在英语中一个很特有的现象,比如Get Things Done这个短语是一本书名,在使用中往往被缩写为“GTD”,又比如中国共产党 - Chinese Communist Party,在使用中被普遍缩写为CCP。在英语语境中,许多特定词组都是通过缩写形式来表达。而这种表达方式运用于Tag标签就非常方便,如创作共用Creative commons往往被缩写为CC, 这样的例子不胜枚举。但在汉语语境中则没有这个特征。
趋同性:在整个Tag系统里面还有一个很显著的特征,就是趋同性。也就是对于同一个对象的定义,往往人们趋同选择被定义次数多标签作为其分众分类。举个例子,boingboing在美味书签中被使用“Blog”标签了200多次,而被使用“news”标签了90次,也就是说,用户在定义的时候更趋向于选择使用次数多的标签。而这种结果又恰恰的反射出大家对同一事物的普遍认知度上。所以在整个Tag系统中,用户对一个事物的理解有着趋同性的特征。并且这种趋同性从一个侧面能够反映出群众的普遍认知度,甚至用户结构等。
通过最近做的一些简单使用调查,结合开发中的一些经验,对于分众分类在在汉语上的应用和普及我持比较保守的态度。不伦是从语言的使用习惯,用户群的普遍认知度,还是汉语语境的分词结构,许多地方分众分类标签容易模糊用户的导向,分众分类在中文的社会性网络服务中作为一种辅助功能而存在更为可行,或者在某一些特定领域比如具体地点名称上进行应用,但作为内容平级分类模式,其应用与汉语语境的用法和习惯等诸多方面无法协调,它并不是一种能够在中文环境中保持生命力的应用模式。
是也乎?! 但是,完全可以中文E文混用哪?! 中文的网路语言发展的也非常快, 比如说: NB = 牛逼 FB = 腐败 等等,网路语言与正常的书面语言早就不是一个系统和规则了, 当然都是汉语的大分类中, 只要推广utf-8 的应用,对于TAG 系统来讲,中文不过是一 组UTF编码字串,不是普通的E文单词,而已,对于信息的交流,追踪,应该说没有影响的?? 只是对应的要有中文词语与E文单词的多对多对应表来自动对应相同的关键词来进行交叉引用…
Zoomq提到了对Tag用法的应用,这也正是一个问题,每个人都有自己的用法,folksonomy的方式希望通过tag产生更多相关词共性,但中文词组简化字首的共性存在差异明显比英文大很多,而且Common Sense的交集不明显。
小时候听相声,现在还记得姜昆的一个段子,好像是点名: 上海吊车厂 — 上吊 自贡刹车厂 — 自刹(杀)…
我只想补充几句,缩写、简写汉语中自古有之,最常用的无外乎中国是中华人民共和国的简称,tag应该是个全球化的东西,包括语种,既然语言本身的巨大差异决定了各自词干的组成,那么我们对简写或缩写的定义也应该因语种而异,我倒是觉得汉语的缩写更能清晰有效地会意,相反英语的缩写因其字母的独立无意往往缺乏语境而纯粹成为文字游戏,顺举一例: http://plod.popoever.com/archives/000438.html 请注意我对 BSP 的注解 而外贸必然是对外贸易,财经必然是财政经济,等等 汉语的市场远大于英语,两者并存并不矛盾,分享交流也是一个过程,包括语言。在未来别的说不好,一个人掌握多种语言的趋势是必然的,地球太小了,要不咱先发明个火星语什么的?
夜半三更 乱说一气 片面之词 阿弥陀佛
btw(顺及): 她用魔法做了一个毒苹果,然後扮成一个老婆婆到森林去找白雪公主:)
为什么汉语中的标点符号比英语来得丰富?很简单,思维模式所致。东方人擅长叙述,西方人擅长总结,所以西方人的语言往往是先讲结果,然后来个because of,而东方人则是因为这个,因为那个,然后这个,然后那个,最后怎么怎么,所以汉语中长句出现的机率远远低于英语,中国人发明了各种标点来丰富整个啰里啰唆的叙述过程^.^
我认为语义不成为问题,消除该问题最简单的方法就是足够巨量的信息。
Ping Back来自:blog主题讨论与卡农换位 http://www.donews.net/sayonly/archive/2005/05/29/403414.aspx