人民日报北京10月11日电(记者赵竹青)近日,人民日报依托通信内容识别国家重点研究院打造的“主流价值语料库”入选国家数据局高质量数据集典型样本。 10月10日,国家数据管理局官方微信公众号专门宣传了这一事件。语料库就像人工智能的“教材”,对其政治、价值观和伦理边界产生深远影响。人民网核心价值语料库主要围绕习近平新时代中国特色社会主义思想和中国式现代化思想相关的经济、政治、文化等十几个领域。它是以优质新闻信息、理论评论、政策法规和科普知识为基础,经过党报、党网的长期建设而形成的。。资源经过科学采样、采集、清洗标注、定制、风险管理,细化为基础语料库、图形语料库、关键领域语料库、问答语料库、事实语料库、风控语料库六种语料类型。相关成果已被国内多家大型模型厂商应用和验证。截至目前,核心价值语料总规模超过300TB,其中基础语料超300亿字,语料超30万问答对。这是中国最大、最权威的核心证券语料库。人民日报核心价值语料库建设具有三大创新亮点。一是建设范式的创新,高质量语料库的建设。针对大规模模型面临的瓶颈问题,人民网大家奋力出题、人工答疑、三改三改。 “傻努力”与“努力”的有机结合“智慧努力”结合大规模模型、自然语言处理等采集、清洗、标注、风险管理等前沿技术,助力高质量语料库的高效构建。二是高质量语料库技术体系的创新。依托国家通信内容识别重点研究院的技术、算力和数据资源,对大规模模型和自动分类、精细标注、系统化进行研究。 基于独特模型的语料数据技术,构建通用价值语料处理的全栈语料处理工具链和可控共享服务平台。三是优质语料智能生成创新。凝结新闻、政治、作品、流行语等规则,打造适合多领域的专业语料库和语料生成模型,结合人类经验,对输出内容进行多方面的修正和改进。 2025年1月,人民网主流价值语料库在中国网络空间安全协会打造的中国互联网语料库资源平台上发布。目前,人民日报正在与各地地方媒体开展共建共享合作,积极参与北京、上海等地语料库联盟建设,持续推动价值核心语料库在更广泛领域的综合应用和共同发展。