有趣的数据_ChatGPT的多语种训练数据集

看openai公布的GPT-3训练数据集的语言占比,中文语料只占总训练量的0.1%

GPT-3训练模型所用数据集的各语言占比情况

lang 语言名 训练集 占比
en 英语 181014683608 92.65%
fr 法语 3553061536 1.82%
de 德语 2870869396 1.47%
es 西班牙语 1510070974 0.77%
it 意大利语 1187784217 0.61%
pt 葡萄牙语 1025413869 0.52%
nl 荷兰语 669055061 0.34%
ru 俄语 368157074 0.19%
ro 罗马尼亚语 308182352 0.16%
pl 波兰语 303812362 0.16%
fi 芬兰语 221644679 0.11%
da 丹麦语 221551540 0.11%
sv 瑞典语 220920577 0.11%
ja 日语 217047918 0.11%
no 挪威语 212193299 0.11%
zh 中文 193517396 0.10%
cs 捷克语 139918438 0.07%
hu 匈牙利语 127224375 0.07%
id 印度尼西亚语 116930321 0.06%
tr 土耳其语 116141938 0.06%
hr 克罗地亚语 101613675 0.05%
vi 越南语 83077650 0.04%
el 希腊语 61607673 0.03%
ar 阿拉伯语 60839973 0.03%
sr 塞尔维亚语 52875283 0.03%
zh-Hant 繁体中文 38583893 0.02%
ca 加泰罗尼亚语 35126650 0.02%
ko 韩语 33147663 0.02%
sk 斯洛伐克语 27957963 0.01%
th 泰语 26806557 0.01%
sl 斯洛文尼亚语 26037337 0.01%
et 爱沙尼亚语 20718080 0.01%
fa 波斯语 16731301 0.01%
iw 希伯来语 15027640 0.01%
uk 乌克兰语 14905898 0.01%
ms 马来语 13389340 0.01%
lv 拉脱维亚语 13290098 0.01%
bs 波斯尼亚语 13160941 0.01%
lt 立陶宛语 12921255 0.01%
is 冰岛语 12792837 0.01%
hi 印地语 9434632 0.00%
sq 阿尔巴尼亚语 9253803 0.00%
tl 菲律宾语 8650331 0.00%
gl 加利西亚语 6947527 0.00%
jw 爪哇语 6604056 0.00%
bg 保加利亚语 5919807 0.00%
af 南非荷兰语 5461216 0.00%
ta 泰米尔语 5163171 0.00%
mr 马拉地语 3660217 0.00%
cy 威尔士语 3459671 0.00%
ml 马拉雅拉姆语 3227746 0.00%
bn 孟加拉语 3003033 0.00%
ga 爱尔兰语 2878943 0.00%
az 阿塞拜疆语 2496202 0.00%
kn 卡纳达语 1913389 0.00%
my 缅甸语 1853421 0.00%
te 泰卢固语 1638366 0.00%
uz 乌兹别克语 1458861 0.00%
rw 卢旺达语 1430208 0.00%
ceb 宿务语 1329456 0.00%
ne 尼泊尔 1120450 0.00%
ku 库尔德语 1091032 0.00%
eu 巴斯克语 1048905 0.00%
km 高棉语 1041164 0.00%
ka 格鲁吉亚语 924256 0.00%
gd 苏格兰盖尔语 841970 0.00%
hy 亚美尼亚语 840171 0.00%
mt 马耳他语 748610 0.00%
si 僧伽罗语 708343 0.00%
pa 旁遮普语 703086 0.00%
ur 乌尔都语 689768 0.00%
kk 哈萨克语 670231 0.00%
sw 斯瓦希里语 585858 0.00%
st 塞索托语 538257 0.00%
be 白俄罗斯语 533405 0.00%
mk 马其顿语 529413 0.00%
mg 马拉加斯语 507043 0.00%
gu 古吉拉特语 494798 0.00%
lo 老挝语 449476 0.00%
ht 海地克里奥尔语 430911 0.00%
lg 卢干达语 261217 0.00%
yi 意第绪语 227609 0.00%
tg 塔吉克语 210167 0.00%
su 巽他语 208819 0.00%
hmn 苗语 175972 0.00%
ny 齐切瓦语 161994 0.00%
or 奥里亚语 131688 0.00%
dv 迪维希语 112819 0.00%
ky 吉尔吉斯语 91289 0.00%
bh 比哈尔语 48094 0.00%
xx-Goth 切罗基语 48025 0.00%
xx-Runr 因纽特语 37558 0.00%
iu 叙利亚语 31142 0.00%
syr 蒙古语 21482 0.00%
mn 哥特文 7779 0.00%
xx-Phnx 古北欧文 4343 0.00%
xx-Qaai 腓尼基文 4185 0.00%
xx-Egyp 古南阿拉伯文 3395 0.00%
xx-Nkoo 古埃及文 3338 0.00%
xx-Tfng 楚瓦文 3277 0.00%
xx-Cakm 茅艾文 2608 0.00%
xx-Yiii 查格特文 2357 0.00%
chr 彝文 2315 0.00%
xx-Phag 八思巴文 1750 0.00%
xx-Tavt 傣泰文 1622 0.00%
xx-Dsrt 沙漠文 1504 0.00%
xx-Java 爪哇-巽他文 1448 0.00%
xx-Sund 修南文 780 0.00%
xx-Copt 科普特文 707 0.00%
xx-Glag 格拉哥里文 673 0.00%
xx-Olck 欧鲁奇利文 573 0.00%
xx-Shaw 萧伯纳式文码 542 0.00%
xx-Samr 撒玛利亚文 313 0.00%
xx-Avst 阿维斯陀语 213 0.00%
xx-Bopo 注音符号 188 0.00%
xx-Linb 线性文字B 156 0.00%
xx-Ogam 欧甘文 84 0.00%
xx-Cham 占城文 49 0.00%
>> Home

51ak

2023/02/21

Categories: 有趣的 数据 chatgpt Tags: 原创

《数据库工作笔记》公众号
扫描上面的二维码,关注我的《数据库工作笔记》公众号