您现在的位置是: > 区块百科区块百科
警惕数据陷阱:网络充斥低质机翻内容对大语言模型训练的影响研究
zhoucl 2026-03-03 18:32:43 区块百科 已有人查阅
导读
亚马逊云计算人工智能实验室的研究人员最近发现,网络上存在大量由机器翻译生成的内容,而这些翻译跨越多种语言的质量普遍较低。研究团队强调了在训练大型语言模型

亚马逊云计算人工智能实验室的研究人员最近发现,网络上存在大量由机器翻译生成的内容,而这些翻译跨越多种语言的质量普遍较低。研究团队强调了在训练大型语言模型时,数据质量和来源的重要性。这一发现突显了在构建高质量语言模型时,需要更加关注数据的质量和来源的选择。
研究还发现,机器生成内容在资源较少语言的翻译中很普遍,并占网络内容的很大一部分。
本站注意到,研究团队开发了名为MWccMatrix的庞大资源,用于更好地理解机器翻译内容的特征。该资源包含64亿个独特句子,覆盖了90种语言,并提供了相互翻译的句子组合,即翻译元组。
这项研究发现,大量网络内容通常通过机器翻译被翻译成多种语言。这种现象普遍存在于资源较少语言的翻译中,并且占据了这些语言网络内容的很大一部分。
研究人员还注意到,出于广告收入等目的,被翻译成多种语言的内容存在选择性偏差。
根据我的研究,我得出以下结论:“过去十年,机器翻译技术取得了显著进步,但仍然无法达到人类质量水平。在过去的多年中,人们使用了当时可用的机器翻译系统将内容添加到网络上,因此网络上大部分机器翻译内容的质量可能相对较低,无法满足现代标准。这可能导致LLM模型产生更多的‘幻觉’,而选择偏差则表明即使不考虑机器翻译错误,数据质量也可能较低。对于LLM的训练来说,数据质量至关重要,高质量的语料库,如书籍和维基百科文章,通常需要进行多次向上采样。”
本文标签:
很赞哦! ()
相关文章
随机图文
警惕数据陷阱:网络充斥低质机翻内容对大语言模型训练的影响研究
亚马逊云计算人工智能实验室的研究人员最近发现,网络上存在大量由机器翻译
微软员工报告DALL-E 3模型存在“不当内容”漏洞后,遭到“封口令”
2月2日消息,微软软件工程部门经理Shane Jones最近发现OpenAI旗下的DALL-E
华为ADS 2.0在智界S7的夜间车道巡航能力表现出色,令人赞叹
近日,华为与奇瑞合作推出的智界S7车型已正式上市。该车搭载了备受关注的HUAWEI ADS 2.0
滑铁卢大学团队在Nature子刊登文章,评述当下和未来中的"量子计算机与大型语言模型"
模拟当今量子计算设备的关键挑战之一是学习和编码量子比特之间复杂关联的能力。新兴技
