行业动态 | 蓝海沙龙:第272期:“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开

2024-04-26

4月3日,由中国互联网协会主办,中国互联网协会人工智能工作委员会协办的第272期蓝海沙龙——“我国大模型中文语料库的发展现状与高质量发展路径”研讨会在京召开。北京师范大学新闻传播学院教授、媒体融合与数字出版研究中心主任秦艳华,北京师范大学互联网发展研究院院长助理吴沈括,北京外国语大学信息科学技术学院副教授徐月梅,中国信息通信研究院人工智能研究中心研究员燕江依,首都版权协会副秘书长、动漫与游戏工作委员会秘书长杨志勇,中电信人工智能科技有限公司AI研发中心资深算法工程师赵宇,中国电信集团数据发展中心生态合作总监李鹏飞,中国联通研究院研究员赵灿,古联(北京)数字传媒科技有限公司总经理洪涛,阿里研究院高级行业研究专家王峥,抖音集团数据及隐私法务总监高震等参加会议并发言。会议由中国互联网协会副秘书长裴玮和北京智源人工智能研究院数据研究组负责人张正主持。


3.png


裴玮表示,2022年全球大模型迎来了爆发增长,总体看我国在大模型领域取得了一定的成就,但仍面临着一些挑战,其中最显著的问题之一就是高质量中文语料资源的短缺。以ChatGPT为例,训练数据中文资料比重不足千分之一。高质量中文语料库的不足,导致国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集或是爬取网络数据。鉴于此,探索我国大模型中文语料库的高质量发展路径,对于大模型行业的未来发展具有重要意义和价值。本次研讨会主要就我国大模型中文语料库的发展现状、面临的形式、任务及其高质量发展路径等进行探讨。


4.png


张正表示,在过去几年时间内,模型的参数规模增长给性能带来了一定提升,但训练数据的质量和组织形式对模型性能的提升带来了更大的帮助。数据工作已经成为大模型行业中最受关注的一个任务,在模型规模不变的前提下,数据的变化能够让模型效果得到非常大的提升。模型参数量越大,数量越多,能力越强。一些科学家提出,大模型的本质是对数据做无损压缩,目前各家大模型公司的一个核心任务就是,如何对数据做有效清洗,以及如何更进一步人工合成一些高价值数据,从数据层面提升模型的性能。


王峥表示,大模型训练所需要的语料具有“广”“齐”“专”的特点,训练过程并不依赖个人信息。模型语料需要政府和社会力量更好地协同。在政府侧进一步加强应用于训练的公共数据开放,特别是具有科研属性的公共数据,同时鼓励社会力量参训练公共数据集的开发建设,通过多方参与机制提高训练数据质量和安全性。对于受财政支持的科研和文化单位所有的知识产权类数据,鼓励通过开放、共享等方式向社会公开,基于非营利性成本补偿原则明确合理收费标准。低质量的语料可以用数据治理的标准来去劣,而高质量语料很难有统一的客观标准去衡量,应该交给市场机制去尝试和探索,不要预设前置标准。

高震表示,语料数据的权利清洁性是语料库建设、流通和使用的重要合规前提,个人信息、知识产权等法律规则的因应完善,安全合规技术的配套发展,以及协会引导下的行业自律和标准化建设三管齐下,预期能够更好地解决相关难题。

洪涛表示,关于古籍文献和语料库的基本情况,我国现存古籍大概20万种,50万版本。整个古籍数字化的用字量大,普及难度大,中文古籍语料库内容多,但是高质量古籍数据稀缺。古籍领域大模型垂直应用场景包括古文应用场景和传统文化的场景。古文应用场景更多地用于古籍整理和学术研究,传统文化的场景应用于文化普及。要想对这两个场景更好的服务,要综合训练古籍和现代文献才能实现传统文化内容创新性应用。

赵灿表示,我国大模型及中文语料库建设上虽有成果但面临总量不足、分布不均、垂直覆盖有限、质量参差不齐等挑战,尤其是优质、专业、多元的中文数据供给存在明显短板。建议在国家相关政策引导下,建设数据流动和交易特区,推动跨行业数据资产入表,强化跨域数据服务的深度融合,同时不断完善数据撮合交易机制与基础设施建设,示范引领数据资产产业发展,为构建高质量的大模型中文语料库提供有力支撑。

李鹏飞表示,随着人工智能大模型在各领域各场景加速落地,大模型训练数据语料的价值日益凸显,正成为影响大模型应用效果的关键因素。当前,大模型训练语料在数据获取、数据质量、数据处理、数据隐私和安全等方面还有诸多问题有待解决。需要行业伙伴共同探索数据合作机制与商业模式,推动数据资源在合规前提下的开放共享,构建大模型语料质量评价体系,打造安全可信的数据处理基础设施,共同推动人工智能行业高质量发展。

赵宇表示,大模型语料库的建设离不开高质量的数据解析和清洗,需要大量的人力和算力投入。如何更好地评估数据价值和数据成本,是建设数据共享生态的关键。因此,建议发挥国家宏观调配优势,从国家层面建立统一的数据机关、数据平台,完善法律法规,设置激励政策,统一数据质量标准,从而促进数据市场繁荣。

杨志勇表示,随着人工智能时代的来临,建设好中文语料库尤为重要,应突出“两量”和“一护”。“两量”一是可信的中文文本数量,二是文本内容的质量;“一护”是版权护航,才能行稳致远。

燕江依表示,在大模型时代,海量、高质量、多样化的训练数据集,成为拉开能力差距的关键要素。通过添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等手段,形成优质的标准化数据集和完备的数据全生命周期管理体系。人工智能高质量数据集应满足为可靠性、准确性、完整性、多样性、标注精确性、安全性、均衡性、及时性等八大特征。建议联动各方生态力量,完善人工智能数据生态服务,推动人工智能高质量数据集建设发展。

徐月梅表示,大语言模型的多语言能力参差不齐,迫切需要提升大语言模型的中文语言能力。训练语料的清洗程度、多样性、规模大小对模型的性能有重要影响。建设高质量中文训练语料是关键,如何评价语料的高质量,值得探究。

吴沈括表示,作为全球业内共识,语料数据的质量,决定了人工智能算法的水平以及大模型的水准。在当下国际数据治理时代背景下,各个国家和地区都十分重视语料生态的培育建设,包括通过制定出台相关的政策法规作出系统的正向促动。就现实而言,中文语料的建设具有显著的现实意义和紧迫性,其过程需要注重考虑数据质量、权益保护以及行业生态等多重价值。一方面,要提高数据等要素资源的供给水平,包括深度挖掘公共数据的价值潜力。另一方面,要持续提高语料数据的质量要求,包括必要的基础设施支撑和技术标准指引。同时,也要培育壮大行业生态水准,通过推动千行百业的融合与交互,凭借全面、有效的激励机制,提升中文语料建设工作的可持续发展能力。

秦艳华表示,高质量中文语料库建设势在必行,希望由相关部门或协会或公益组织筹集人力、物力、财力,集中搭建全国最具影响力的中文语料库平台,构建通用大语言模型,并开源,免费供大家使用。


1.jpg


通过各界专家的研讨发现,在大模型时代,数据成为新一轮人工智能竞争的壁垒与制高点,我国大模型及中文语料库建设上虽有成果,但仍面临总量不足、分布不均、垂直覆盖有限、质量参差不齐等挑战。建议从国家层面建立统一的数据机关、数据平台,完善法律法规,设置激励政策,鼓励社会力量参与训练公共数据集的开发。行业协会主动引导行业自律,开展相关标准化建设,提高行业生态水准,共同推动高质量中文语料库的建设。


来源:https://www.isc.org.cn/


阅读3
分享