拉美版大模型要来了


最近,拉美国家传来好消息:由智利国家人工智能中心牵头,巴西深度参与,阿根廷、哥伦比亚、墨西哥、秘鲁等国共同参与研发的Latam-GPT测试版将于10月份发布。作为首款主要针对拉美历史、文化及语言多样性设计的大型语言模型(LLM),其问世备受瞩目。

当前主流语言模型大多基于英语语料构建,对非英语使用人群的需求考虑不足,导致其在处理高度本地化问题时表现欠佳。这也使得占全球人口超过8%的拉美地区难以充分受益于人工智能技术。

智利科技知识和创新部部长艾森·埃切韦里曾就此表示,人工智能需要向世界展现“我们自身的多样性”。仅就拉丁美洲而言,一个合格的人工智能产品,“不仅要会说西班牙语或葡萄牙语,还要理解我们的特质”。

值得关注的是,作为拉美地区首款大语言模型,Latam-GPT从设计之初就具有浓浓的拉美特色。

一是在训练数据的来源与开放性方面,该模型摒弃了全球商业大模型普遍采用的“网络爬虫抓取”模式,转而与本地大学、图书馆、政府机构等合作,获取了大量难以在线上找到或尚未数字化的数据,如历史文献、学术文本和口述历史等。这种方式确保了内容的本地化与高质量。

二是在对拉美复杂语言与文化的理解方面,该模型虽以西班牙语、葡萄牙语和英语为基础,却同样重视捕捉区域内独特的语言习惯、历史脉络和文化语境,力争通过精细的本地化训练,准确识别特定地域的表达方式。如,同样都是“torta”这个单词,在智利意为三明治,在墨西哥则指蛋糕。

三是在泛区域协作模式方面,作为一个可修改的开源模型,Latam-GPT允许区域内的企业和开发者自由使用、修改和分发。此举既摆脱了对昂贵许可和“一刀切”解决方案的依赖,也有助于激发本地创新,推动形成一个基于泛区域协作的人工智能生态。

特别值得一提的是,Latam-GPT非常关注对拉美文化遗产的保护与传承。例如,Latam-GPT已将智利拉帕努伊语和马普敦贡语纳入试点计划,旨在为其构建数字知识库,支持语言复兴与文化延续。专家评论称,将人工智能从单纯的技术工具提升为文化遗产的“数字卫士”,将为全球人工智能应用开拓新的方向。

尽管尚未正式发布,但拉美业界已经赋予了Latam-GPT极大的期待。有专家表示,Latam-GPT不仅是一项技术突破,更是一份维护数字主权的“宣言”。这一创举让拉美地区从先进技术的被动消费者转变为主动参与者,从而在一定程度上掌握了本土化人工智能技术发展的主导权。另有专家指出,Latam-GPT对计算基础设施的需求将产生积极的连锁反应,训练Latam-GPT所需的强大算力,或将反向推动区域内超算中心和数据中心的建设与升级。

不过,也有业界专家提醒,尽管拉美人工智能产业前景广阔,但其整体发展仍然面临多重挑战。拉美人工智能产业尚处于起步阶段,与发达国家存在明显差距。这些差距主要体现在数字基础设施建设滞后、数字鸿沟现象突出、人工智能监管缺失以及应用程度不高等方面。同时,区域内发展亦不均衡,智利、巴西和乌拉圭在人工智能应用方面发展较快,其他国家则相对滞后。此外,投资不足也是制约该地区人工智能产业发展的关键因素。据美洲开发银行(IDB)数据,拉丁美洲在人工智能研发上的投入不到其GDP的0.5%,远低于发达经济体2%至3%的平均水平。

不过,这些挑战难掩拉美人工智能产业蕴含的巨大潜力,尤其是以Latam-GPT为代表的泛区域协作模式,能够在很大程度上补齐单一国家的短板。正如拉美开发银行(CAF)执行总裁塞尔希奥·迪亚斯-格拉纳多斯所言:“这一源于我们地区、为我们地区开发的语言模型,是数字化融合的里程碑,将使我们成为人工智能革命的关键参与者。Latam-GPT将成为各国开发创新解决方案的重要工具,反映我们的文化、语言和历史现实,缩小技术鸿沟,促进整个地区更公平、可持续地发展。”


评论列表 0

暂无评论