Commons:Automatic conversion between Simplified and Traditional Chinese

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search

Shortcut: C:CST 字词转换处理即对繁简字、地区词的转换处理,本页面阐述中文维基在字词转换使用中的一些基本要求。

历史[edit]

中文维基百科建立时,虽然只有用一个域名“zh.wikipedia.org”,但实际上有不少条目都写了两个版本,如法国法國(国↔國)就曾经是两个不同的条目;繁简名称没有区别的条目(如日本)也分成两个条目(日本/简,日本/繁)。这个方法的好处在于:条目内部不存在繁简问题,繁体条目使用繁体字、港台词汇;简体条目使用简体字、大陆词汇,两者互不干扰。但这种方法却大大增加了大家的工作量,因为繁简版本之间很快地就不同步了,只能靠人工来整合繁简之间的差异。

最早的中文维基每个条目都可能有繁简分立的两个版本。如何处理繁体简体的并存,中文维基百科必须采取特殊的方法,不然就只能面临繁简分家的命运,这是中文维基百科自创建以来最为迫切的问题之一。

繁简体之间的对应关系,不是简单的一对一,而是复杂的多对多。而维基百科所面临的问题,已经超出了繁简之间的字体转换问题。由于大陆台湾马来西亚新加坡等地多年来资讯文化独树一格,许多外国译名以及新生词语也有非常大的分歧。如台湾所说的“帛琉”,在大陆却是“帕劳”,大陆使用“打印机”,台湾用的却是“印表機”。如此案例,屡见不鲜,且大大地超出了英语维基百科上英美词语之间的分歧。

基本要求[edit]

勿手动转换文本内的繁简语句[edit]

编辑或翻译维基共享资源(除图像描述页以外的页面,如Commons:、Help:等多语言页面)的时候,如果缺乏正当理由,请不要手动地将文本源码中的繁体语句转为简体,或简体转为繁体(广义地也包括将一个地区用词转换成另一地区用词,如港澳繁体转换成台湾正体),以免影响他人的编辑和阅读。手动做这种转换可能将被视为“繁简破坏”。

对于读者来说,想只看繁体或简体的读者,可以在界面上方选择“大陆简体”、“香港繁體”、“澳門繁體”、“大马简体”、“新加坡简体”与“臺灣正體”六者之一;

对于编辑者来说,想修正机器转换不正确的词汇,可以使用形如“-{zh-hans:一般简体词汇; zh-hant:一般繁體詞彙; zh-cn:大陆简体词汇; zh-tw:臺灣正體詞彙; zh-hk:香港繁體詞彙; zh-mo:澳門繁體詞彙; zh-my:大马简体词汇; zh-sg:新加坡简体词汇}-”这样的“手工转换”的技术,或者{{NoteTA}}模板。总之手动转换文本繁简语句是没有必要的。

请注意:若您的浏览器安装了同文堂等中文繁简转换软件,或可以进行中文繁简转换的移动应用程式,请在编辑时将其关闭或移除。

勿手动转换异体字[edit]

尽管异体字间的功能相近,且所代表的意义相同,但手动转换异体字,很可能引发编辑争议,甚至招致编辑战的发生。因此在手动转换异体字之前,请先考虑以下两种情况:

一是在现代汉语中或者电脑输入中已经不再使用或者极少使用的异体字,如“靑/青”、“敎/教”、“囯/国”,这种情况下,将异体字转换为正体字是值得提倡的,反之则视为破坏。因为此类异体字在电脑输入或者现代汉语中极少用到,使用此类异体字不便于阅读。

二是目前现代汉语中仍然有在使用的异体字,此类异体字由于使用频率较高,或者是在不同的地区,对哪一个字是正体的定义不一样,例如“床/牀”,中国大陆和台湾把“床”视为正体字,把“牀”视为异体字,而在香港则是相反,香港视“牀”为正体,对此类异体字进行手动转换违反地域中心。此外,“台/臺”这一对字由于政治原因常常成为修改的对象,由于“-{台}-”字虽为俗写,但是在台湾已经广泛使用,因此不应该对其进行手动转换,而是应该遵循先到先得的原则,因为对这些字进行手动转换对条目没有实际的改善作用。

概括性来讲:

  • 如果所有地区皆常用A,罕用B→可将源码B直接改为A,不宜使用转换。
  • 如果某些地区常用A而罕用B,某些地区常用B而罕用A→源码文字先到先得,不得修改,同时全局转换。
  • 如果所有地区混用A/B→源码文字先到先得,不得修改,不得使用转换。
  • 如果某些地区混用A/B,其他地区常用A而罕用B→源码文字先到先得,不得修改,其他地区可使用转换。

转换技术[edit]

在技术上,维基百科的字词转换共通过四个层级来实现:其一是MediaWiki内置的转换表ZhConversion.php,供各维基计划全域转换;其二是在MediaWiki:Conversiontable中定义的简繁和地区词转换表,供中文维基百科本地全局转换;其三是各公共转换组,供主题领域相同和相似的条目统一转换;其四是各条目内设置的手工转换,供该条目单独使用。其中,公共转换组和条目内手工转换人人均可编辑,而修改本地转换表则需要管理员权限,修改全域转换表需要向MediaWiki版本库提交代码。因此,如欲新增或修复全域及本地全局转换,一般用户需在中文维基百科提出字词转换请求,交由管理员协助处理。

繁简与地区词转换分开[edit]

“繁简转换”的意义应只是字体上的转换(例如简体的“打斗”会正确转换成繁体的“打鬥”),而地区词转换旨在为中国大陆、台湾、新加坡、马来西亚、香港、澳门地区的中文用户提供贴近其语言习惯的转换模式。其中,中国大陆(zh-cn)、新加坡(zh-sg)与马来西亚(zh-my)的地区词为简体中文;台湾(zh-tw)、香港(zh-hk)与澳门(zh-mo)的地区词为繁体(正体)中文。

目前维基系统用简体转换表繁体转换表来处理繁简全局转换,用中国大陆转换表港澳转换表新马转换表台湾转换表来处理地区词全局转换。

原先地区词的分歧,纳入简繁转换全局系统处理,但其后发现这样的做法产生不少问题:

  1. 地区词与繁/简体并无必然关系,正如“香港繁体区”的人一样能以繁体书写“大陆简体区”常用的词汇。
  2. 维基百科的简繁转换系统,与其他维基姊妹计划共用,如果简繁转换系统包含地区词汇替换,可能会使其他维基的转换不准确,例如不需要地区词转换的维基文库
  3. 自动转换过程会出现一些“失误”,例如繁体的“數位人士”,转换成简体的时候会变成“数码人士”,要透过其他技术解决,造成编辑上的困难。

全局转换是最为方便快速的转换处理方式,但也较容易出现过度转换的问题,基于以上各项理由:

  • 繁简转换除了一些转换后出错的词汇外,都应当进入全局转换中,尽可能不要手动繁简转换;
  • 而地区词的转换,由于会对全局转换造成可能的失误,应尽可能地用手动转换实现,除了稳定和使用广泛的地区对应词汇,尽可能不要进入全局地区转换。

即:对手动转换,应当主要用于地区转换,对全局转换,应当主要用于繁简转换。

繁简处理[edit]

Main gallery: Wikipedia:繁简处理.

用繁体或简体创建的文章,标题必须是全部为简体或繁体字,如果标题繁简混杂,例如“中國历史”,那么系统将无法自动转换。

所有的简繁转换应当纳入到全局转换管理(zh-hans↔zh-hant)中,遇到有繁简体的转换出现问题,应当到中文维基百科的繁简体转换请求反映。

对于进入全局转换后出错的词汇,可以采用下方的地区词手动转换处理方式,用{{NoteTA}}或其它相关模板在出错的页面中进行。

地区词处理[edit]

公共转换组[edit]

对于一些主题、领域相同和相似的条目,其中需要被转换的内容是大同小异的,可以把这些多个条目中要用到的共同转换字词单独创建一个转换组。通过在页面的{{NoteTA}}模板中指定组名,实现该页应用这一公共组的地区词转换,所有应用该公共转换组的页面都可以不用单独维护,实现同步维护的目的。公共转换组的方便程度处于全局转换与全文转换之间,而过度转换程度也处于这两者之间。