某些语言已接受拉丁字符的音译,例如印地语,俄语或日语.例如,用梵文剧本写的“男人正在吃饭”的印地语是’आदमीखारहाहै’.音译,它将是’Aadmi kha raha hai’. (或类似的东西;这种方法经常在网上使用,特别是如果人们无法访问印地语键盘.)
在这种情况下,我们使用拉丁文脚本但仍然使用印地语,因此使用lang属性标记任一变体是可以接受的:
< span lang =“hi”>आदमीखारहाहै.< / span>或者< span lang =“hi”> Aadmi kha raha hai.< / span>
我的问题是关于通常用拉丁字母本身编写的语言,但可能有非发言者/学习者的语音指南 – 无论是IPA还是临时发音 – 是否有任何最佳实践来赋予其语义含义?
例如,在爱尔兰语中,如果我要说“男人正在吃饭”,我会说“Táa fear ag ithe”.我可以将其标记为:
< span lang =“ga”>Táafear aghehe.< / span>
如果我要为非发言者提供发音指南,我可能会说“Taw on far eg egh-he”.这句话并非毫无意义,(如’lorem ipsum’文本),但英语或爱尔兰语中的句子也不例外.
解决方法
简短版本:如果您想特别说它是用拉丁字母书写的,请为您提供的示例选择“hi-Latn”或“ga-Latn”.
长版:
The W3C spec for the lang attribute没有具体提到这一点 – 它建议依赖于拼写的一些用法(例如使用它来渲染所用字符的高质量版本),但有些则没有(例如用于搜索引擎) .
RFC1766,其指定语言标签的格式,表明标签的特化可用于表示“脚本变体,例如az-arabic和az-cyrillic”.有关脚本子标签in this article on the W3C site的更多内容,以及the later RFC5646中的额外内容.那个指向ISO standard list of script names,在该列表中,您需要的脚本是“Latn”,因为它们是其他脚本的罗马化形式.