幫助:語言標籤
這篇幫助文檔講解HTML lang
屬性中語言標籤(英:language tags)的用法。語言模板通常會用到語言標籤。
用途
中國內地 | 香港特區 | 台灣地區 | 日本 | 朝韓 |
---|---|---|---|---|
返 | 返 | 返 | 返 | 返 |
骨 | 骨 | 骨 | 骨 | 骨 |
系 | 系 | 系 | 系 | 系 |
塌 | 塌 | 塌 | 塌 | 塌 |
扉 | 扉 | 扉 | 扉 | 扉 |
萌娘百科收錄的內容涵蓋了多個語言及地區,介紹中不可避免地會使用到不同語言。語言標籤旨在標記一段文字的語言信息。
在HTML中使用lang
屬性指定語言標籤,這是一個全局屬性。
<span lang="zh-Hans">这是一段标记为“汉语,简体字”的文本。</span>
其中粗體部分為lang
屬性,下劃線部分為語言標籤。類似的代碼被封裝在{{Lang}}、{{Ruby}}乃至{{LyricsKai}}等模板中,使用時填寫語言標籤即可。
字形選擇
在萌娘百科,語言標籤最重要的使用情境莫過於使漢字以合適的字形顯示。
漢字在東亞很多地區都有使用,經過各自發展,不同地區對於漢字的字形(或寫法)有了各自的習慣與標準。這些漢字很可能會遇到共用Unicode碼位的情形,這時就需要標記語言來讓瀏覽器顯示正確的變體,很多情況下這體現為根據語言標籤調用不同的字體(如表格所示)[1]。
這種情況不僅限於漢字。
屏幕閱讀器
標記語言能夠讓屏幕閱讀器正確地發音和切換語種,服務視覺障礙者。
結構
語言標籤使用IETF(互聯網工程任務組)的BCP 47文檔所定義的格式。
语言子标签-扩展语言子标签-文字子标签-地区子标签-变体子标签-扩展子标签-私用子标签
語言子標籤為必須,其餘為可選,應保持相對順序。子標籤之間以連字號-
相連。各個子標籤有其不同的標準,由於地區子標籤之後的子標籤極不常用,下面僅就前四項進行詳細說明。
主要語言子標籤
主要語言子標籤(英:primary language subtag)總是出現在語言標籤的開頭。可以使用ISO 639-1所定義的二字母代碼,以及ISO 639-2、ISO 639-3和ISO 639-5所定義的三字母代碼,全小寫。推薦的做法是優先使用ISO 639-1的二字母代碼,三字母代碼多在沒有二字母代碼的情況下作為補充使用。
常見的語言子標籤 (ISO 639-1二字母代碼和ISO 639-3三字母代碼) | ||
---|---|---|
語言 | 二字母代碼 | 三字母代碼 |
漢語(特指官話) | zh
|
zho
|
—官話、現代標準漢語 | 不適用 | cmn
|
—贛語 | 不適用 | gan
|
—客家語 | 不適用 | hak
|
—文言 | 不適用 | lzh
|
—閩南語 | 不適用 | nan
|
—吳語 | 不適用 | wuu
|
—粵語 | 不適用 | yue
|
英語 | en
|
eng
|
壯語 | za
|
zha
|
藏語 | bo
|
tib
|
—衛藏語 | 不適用 | bod
|
—康語 | 不適用 | khg kbg
|
蒙古語 | mn
|
mon
|
維吾爾語 | ug
|
uig
|
朝鮮語、韓語 | ko
|
kor
|
日語 | ja
|
jpn
|
泰語 | th
|
tha
|
越南語 | vi
|
vie
|
阿拉伯語 | ar
|
ara
|
印地語 | hi
|
hin
|
印度尼西亞語 | id
|
ind
|
俄語 | ru
|
rus
|
西班牙語 | es
|
spa
|
葡萄牙語 | pt
|
por
|
法語 | fr
|
fra
|
德語 | de
|
deu
|
意大利語 | it
|
ita
|
波蘭語 | pl
|
pol
|
烏克蘭語 | uk
|
ukr
|
土耳其語 | tr
|
tur
|
塞爾維亞語 | sr
|
srp
|
丹麥語 | da
|
dan
|
希臘語 | el
|
ell
|
—古希臘語 | 不適用 | grc
|
梵語 | sa
|
san
|
拉丁語 | la
|
lat
|
芬蘭語 | fi
|
fin
|
世界語 | eo
|
epo
|
擴展語言子標籤
擴展語言子標籤(英:extended language subtag,簡記extlang)在使用時緊跟主要語言子標籤,並位處其他任何子標籤之前。每一個「主要語言子標籤-擴展語言子標籤」組合都會有其對應的主要語言子標籤,且與擴展語言子標籤的名稱完全一致,故「主-擴」形式只是為了保證語言標籤在舊系統中的兼容性,如有可能請優先只用主要語言子標籤來標記語言,如標記粵語時使用yue
而不是zh-yue
。
文字子標籤
文字子標籤(英:script subtag)可以使用ISO 15924所定義的四字母代碼,首字母大寫。
常見的文字子標籤 (ISO 15924四字母代碼) | ||
---|---|---|
文字 | 代碼 | |
漢字 | Hani
| |
簡化字、簡體字 | Hans
| |
正體字、繁體字 | Hant
| |
希臘字母 | Grek
| |
拉丁字母 | Latn
| |
西里爾字母 | Cyrl
| |
朝鮮語字母、韓語字母 | Jamo
| |
注音符號 | Bopo
| |
諺文、韓字 | Hang
| |
韓漢混用文 | Kore
| |
悉曇文字 | Sidd
| |
天城文 | Deva
| |
平假名 | Hira
| |
片假名 | Kana
| |
假名 | Hrkt
| |
日文文字[2] | Jpan
|
地區子標籤
地區子標籤(英:region subtag)可以使用ISO 3166-1 alpha-2所定義的二字母代碼,全大寫。
常見的地區子標籤 (ISO 3166-1二字母代碼) | |
---|---|
地區 | 代碼 |
中國內地(或泛指中國) | CN
|
香港特別行政區 | HK
|
澳門特別行政區 | MO
|
台灣地區 | TW
|
朝鮮 | KP
|
韓國 | KR
|
馬來西亞 | MY
|
新加坡 | SG
|
美國 | US
|
英國 | GB
|
示例
- 其他較常用的語言代碼(基本上可直接作為語言標籤使用)可以在#主要語言子標籤一節中的表格中找到。
- 漢語一般情況下不用標記,僅供參考。
- 請儘量使用最簡煉的語言標籤,僅在現有子標籤無法涵蓋必要的語言信息、無法有效區分各個語言時再進一步添加子標籤。
語言標籤 | 涵義 | 備註 |
---|---|---|
zh
|
漢語 | 沒有任何其他標註,在中文萌娘百科這個以漢語為主的站點上不推薦使用 |
zh-Hans
|
漢語,簡體字 | 在中文萌娘百科使用的繁簡轉換處理系統中使用的記法,省略了地區標註 |
zh-Hant
|
漢語,繁體字 | |
zh-CN
|
漢語,中國內地 | 在中文萌娘百科使用的繁簡轉換處理系統中使用的記法,省略了簡繁標註 |
zh-HK
|
漢語,香港特別行政區 | |
zh-TW
|
漢語,台灣地區 | |
zh-Hans-CN
|
漢語,簡體字,中國內地 | 權衡了兼容性和完整標註的需要,但該記法實際應用不多 |
zh-Hant-HK
|
漢語,繁體字,香港特別行政區 | |
zh-Hant-TW
|
漢語,繁體字,台灣地區 | |
zho-Hans
|
漢語,簡體字 | 使用三字母語言代碼,但兼容性可能不佳 |
zho-Hant-HK
|
漢語,繁體字,香港特別行政區 | |
cmn-Hans
|
官話,簡體字 | zh 在表示普通話、官話的時候可以使用cmn 代替,但兼容性可能不佳
|
cmn-Hant-TW
|
官話,繁體字,台灣地區 | |
zh-cmn-Hans
|
漢語,官話,簡體字 | zh 和cmn 重複,不推薦使用這種記法
|
zh-Latn
|
漢語,拉丁字母轉寫 | 可以用於標記漢語拼音(-pinyin )、威妥瑪拼音(-wadegile )、注音第二式等
|
yue
|
粵語 | 粵語沒有二字母代碼,故記為三字母代碼 |
zh-yue
|
漢語,粵語 | 添加zh 以保證兼容性,有條件者應單用yue 來與官話作區分
|
en
|
英語 | |
ja
|
日語 | |
ja-JP
|
日語,日本 | 日語絕大多數情況都無需區分地域,不推薦使用 |
ja-Jpan
|
日語,日文文字 | 日語即默認以日文文字書寫,無需區分,不推薦使用 |
ja-Hrkt
|
日語,假名書寫 | 可以用於標記假名注音,不常用 |
ja-Latn
|
日語,拉丁字母轉寫 | 可以用於標記各種日語羅馬字 |
ko
|
朝鮮語/韓語 | 在中文萌娘百科廣泛使用的記法,省略朝韓地區 |
ko-KP
|
朝鮮語,朝鮮 | 標明了地區,不常用 |
kor-KR
|
韓語,韓國 | |
ko-Kore
|
朝鮮語/韓語,韓漢混用 | |
ru
|
俄語 | |
ru-Latn
|
俄語,拉丁字母轉寫 | |
sa-Sidd
|
梵語,以悉曇文字書寫 | |
art-x-xdi8 [3]
|
人工語言,希頂語 | 使用了私用子標籤,其兼容性無從談起 省略了文字標註,無法從標籤中判斷標記的文本是希頂字母還是希頂漢字 |
以下代碼可能被錯誤使用 | ||
ch
|
查莫羅語 | 常被錯誤當作漢語,若確實需要的情況下應當使用zh 標記之
|
cn
|
||
jp jap lj
|
常被錯誤當作日語,應當使用ja 標記之
| |
kr
|
卡努里語 | 常被錯誤當作朝鮮語/韓語,應當使用ko 標記之
|
kp
|
||
gr po sp cz kz dk
|
||
unicode
|
Unicode(統一碼)是一套信息技術標準,不是可標記的語言 | |
ipa
|
IPA(國際音標,International Phonetic Alphabet)是一套標音系統 若確實需要標記應當使用 fonipa
|
|
註釋
參見
- (簡體中文)HTML lang 屬性(W3School)
- (英文)Language tags in HTML and XML(萬維網聯盟,W3C)
- (簡體中文)為什麼使用語言屬性?(W3C)
- (簡體中文)選擇語言標籤(W3C)
- (簡體中文)lang - HTML(超文本標記語言)(MDN)
- (中文)IETF語言標籤(中文維基百科)
- (英文)ISO 639 Code Tables | ISO 639-3(世界少數民族語文研究院,SIL)
- (純文本)IANA Language Subtag Registry(互聯網號碼分配機構,IANA)——IANA維護的語言子標籤註冊表,除標明
Deprecated
(已棄用)的各個子標籤均可正常使用 - (英文)Language subtag lookup app——用於查找和檢驗語言標籤是否正確的非官方工具