120G！网安协人工智能安全治理专委会发布首批中文语料库

时间:2023-12-22 浏览次数:663

　　12月20日下午，中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会，面向社会发布用于大模型的首批中文基础语料库。

　　根据中国网络空间安全协会所发布信息，该中文基础语料库，是在办相关业务部门指导下，网安协会人工智能安全治理专委会会同国家权威机构，发挥企业、高校和科研单位协同优势，通过“共建－共享”机制，汇聚一批高质量可信数据，经过去重、过滤等技术手段形成。

　　南都记者根据指引登录相关网站，通过简单的注册、认证等程序，即可进入中文基础语料库。页面共显示了14条文件，平均大小为4.15GB。

　　网安协会人工智能安全治理专委会负责人表示，语料库建设是一项长期性、专业性的工作，需要遵循相应法规、标准和规范，需要合力共建、突破创新，推动形成科学有效的语料库汇聚、处理、使用机制，为国家人工智能技术创新和产业发展赋能。

　　据悉，今年10月，中国网络空间安全协会人工智能安全治理专业委员会成立大会在北京召开，相关单位代表在会上表示，将积极参与专委会工作，在高质量中文语料库开发、模型安全评测、垂直领域大模型安全应用等人工智能安全治理工作中扎实攻关、开放交流、深度合作。

　　比如，8月14日，上海人工智能实验室宣布，联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷” 1.0多模态预训练语料。“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分，开源的数据总量超过2TB。

　　在今年7月举行的2023全球数字经济大会上，首批“北京市人工智能大模型高质量数据集”发布。据了解，共有10家单位的18个高质量训练数据集入选，包括人民日报语料数据集、国家法律法规语料数据集，两会参政议政建言数据集、“科情头条”全球科技动态数据集，中国科学引文数据库数据集、科技文献挖掘语义标注数据集等，涵盖经济、政治、文化、社会、生态等不同领域，总规模超过500T。

　　8月28日，第二批北京市人工智能大模型高质量数据集发布，现场发布的16家单位41个数据集，涉及医学、生物、农业、金融、政务、互联网、智慧城市、自动驾驶、科技服务、商业分析、产业研究、市场营销等多个领域，数据总量规模约112TB（数据储存单位），为通用大模型和行业大模型训练及应用落地提供坚实有力的保障。

　　11月29日，北京智源人工智能研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库（CCI v1.0.0）。该中文互联网语料库数据规模达104GB，语料库时间跨度在2001年1月至2023年11月。语料库数据主要来源于地市级以上政府门户网站、重点新闻网站、中央和地方报刊杂志、出版社等。

上一篇：ST天成(600112)_股票价格_行情_走势图—东方财富网下一篇：福特领界S究竟“S”在哪里？