专家:AI很可能导致人类智能的退步(2)
然而研究团队指出一个被长期忽视的问题:AI是持续进化的系统,当它不断吸收新知识时,这种不平等会自我强化还是自我修正?
答案是令人担忧的。试想当同一议题的"低资源语言答案"与"英语答案"在模型里并存时,只要用任意第三语言提问,模型仍会大概率输出英语知识。
这种动态学习过程中的不平等意味着,低资源语言社区不仅在起跑线上落后,更在比赛进行中不断被拉开距离。
如果考虑到现实中越来越多的人通过AI获取知识,这种结构性偏差还可能带来另一层影响:不同语言用户所接触的知识质量与广度会出现长期分化。在高度依赖AI的社会中,这种差距可能逐渐转化为认知能力与知识结构的差异。
实验设计:19种语言与4个模型
为了捕捉这种微妙的不平等,研究团队设计了一个精妙的实验框架,涵盖19种语言(按照开放网页数据集中占比分为高、中、低资源语言)和4个主流模型(GPT-4o-Mini、Llama-3.1-8B、Qwen3-8B、Aya-Expanse-8B)。
关键在于他们构建了多语言平行数据集--同一组问题被翻译成所有语言,确保知识"质量"完全相同,从而隔离出语言本身的影响。
实验使用四类数据集:
虚构新知识:例如设定在2048年的未来场景,包含200个问答对(如"如何用基因分析追踪健康")真实医学知识:从MultiMedQA筛选的专业医学问题,确保对模型是"全新"的通用常识对抗集:人类构造的常识问题,用于测试抗错误信息能力生成的常识对抗集:AI生成的常识问题,用于测试抗错误信息能力通过这两种知识类型的对比,研究能清晰区分:是新知识本身难学,还是语言导致了学习差异?实验在两种场景下进行:上下文学习(知识放在提示词中)和微调(知识写入参数),全面覆盖实际应用情况。
正是在考虑控制变量后的观察窗口中,不平等的四重面向逐渐清晰。
微调实验暴露了学习效率的差异。所有模型在高资源语言中学习新知识时,通常4个训练轮次就能达到60-90%准确率,但在低资源语言中需要8轮以上才能接近同等水平。更残酷的是学习效率的上限差异--即使训练12轮后,GPT-4o-Mini在英语、中文上的准确率超90%,而在低资源语言中停滞在60-80%。这就像给两个学生同样的教材:英语学生读一遍就懂,斯瓦希里语学生却需要反复读三遍,且最终理解程度仍不如前者。这种"学习效率"的差异,直接导致低资源语言社区需要支付更高的计算成本和时间成本,才能获得同等质量的知识服务。
图1:四个模型在两个数据集上学习新知识的性能。与高资源语言(橙色曲线)相比,大语言模型(LLMs)在低资源语言(蓝色曲线)中学习新知识时面临更大的挑战,无论是在效率还是准确性方面。
更具结构性的不公体现在知识迁移差异上。无论模型最初通过何种语言材料学习"基因分析"这一概念,当使用高资源语言进行提问时,其准确率始终高于低资源语言。这一现象表明,知识从其他语言迁移至高资源语言通常比迁移至低资源语言更为容易,语言之间难以形成对等的知识交换关系。
图2:在四个模型和两个数据集的上下文学习设置下,研究了新知识传递的不平等性。角度轴表示新知识被注入的语言,而三种曲线显示了模型在高、中和低资源语言中的平均准确率。结果显示,当新知识被引入到其他语言时,低资源语言的用户会受到显著的不利影响。
语言亲缘关系进一步影响迁移效果:法语、西班牙语等罗曼语族语言之间的迁移相对顺畅,而跨语系迁移(如英语至泰米尔语)则面临显著困难。这种迁移壁垒植根于模型内部的"语言领地"--特定神经元专司特定语言,其重叠程度直接决定知识能否跨语言通行。这种不对称性意味着,低资源语言的知识生产者处于系统性劣势之中,例如,他们无法像高资源语言使用者那样,平等地从其他语言中获取知识。
当需要对不同语言下冲突信息进行取舍时,模型的优先级差异或者说隐性语言等级结构显露无遗。
图3:GPT-4o-Mini在上下文学习设置下针对虚构新知识数据集的具体知识冲突场景。当高资源语言引入的知识与低资源语言冲突时,模型在其他语言中的输出主要与高资源语言的知识一致。