建设文化遗产中文语料库的挑战与对策
DOI:
CSTR:
作者:
作者单位:

中国人民大学

作者简介:

通讯作者:

中图分类号:

基金项目:

本文系2024年度国家社科基金文化遗产保护传承研究专项“文化遗产治理体系和治理能力现代化研究”(项目编号:24VWB007)阶段性研究成果。


Challenges and Countermeasures in the Construction of Chinese Cultural Heritage Corpus
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    【目的】文化遗产中文语料库作为文化大模型的关键组成部分,对于落实国家文化数字化战略、夯实文化大模型新基建、推动文化数据要素的市场化建设意义重大。【方法】运用文献研究法和归纳法,从理论层面探究文化遗产中文语料库的定义与类别,识别语料库建设面临的挑战,并提出相应的建设对策。【结果】当前,该领域面临高质量语料存量短缺、语料质量良莠不齐、语料标注标准不统一、语料数据权属不清晰等诸多挑战。【结论】建议将语料库建设纳入国家文化遗产治理体系,构建专门的国家级文化遗产语料库,建立多维度、高精度的语料质量评估体系,形成语义驱动、协同演化的语料标注机制,制定语料的数据共享与版权管理机制,以强化文化遗产中文语料对文化大模型的支撑力。

    Abstract:

    [Purpose] The Chinese corpus of cultural heritage is an important part of the cultural large language model. It is of great value for implementing the national cultural digitalization strategy, consolidating the new infrastructure of the cultural large language model, and promoting the marketization of cultural data elements. [Method] This paper adopted literature research and induction methods to examine the definition and category of the Chinese cultural heritage corpus from a theoretical level, identified the challenges faced by corpus construction, and proposed construction strategies. [Result] At present, this field faces multiple challenges such as insufficient high-quality corpus stock, uneven corpus quality, inconsistent corpus annotation standards, and unclear ownership of corpus data. [Conclusion] It is recommended to incorporate corpus construction into the national cultural heritage governance system, build a special national cultural heritage corpus, establish a multi-dimensional, high-precision corpus quality assessment system, form a semantically driven, co-evolutionary corpus annotation mechanism, and formulate a corpus data sharing and copyright management mechanism to strengthen the support of the Chinese corpus of cultural heritage for the cultural large language model.

    参考文献
    相似文献
    引证文献
引用本文

徐拥军,陈晓婷,闫静.建设文化遗产中文语料库的挑战与对策[J].创意设计源,2025,(4):1-8

复制
相关视频

分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2025-10-16
  • 出版日期:
文章二维码