chinese-poetry: 最全中文诗歌古典文集数据库

简介

Chinese-poetry 可能是全网最全中文是个古典文集数据库了,目前托管在 GitHub 上,数据是 json 格式,方便进行版本管理。该项目截止目前为止收集了互联网上 5.5 万首唐诗、26 万首宋诗和2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人。该仓库贡献最多的是来自 Teambition 的 JackeyGao 和另一位 Python、Java 开发者 animalize。

数据集

该仓库收集的数据集合罗列如下:

  • 全唐诗 json
  • 全宋诗 json
  • 全宋词 ci
  • 五代·花间集 wudai
  • 五代·南唐二主词 wudai
  • 论语 lunyu
  • 诗经 shijing
  • 幽梦影 youmengying
  • 四书五经 sishuwujing
  • 蒙學 mengxue

计划要收集的是:

  • 清代诗词
  • 元曲

数据分析

目前作者对数据集做了一些数据分析,挖掘出了一些有趣的统计数据。

  • 两宋喜欢的词牌名是浣溪沙
  • 宋词作者作品榜,作品流传下来最多的是辛弃疾
  • 宋词高频词:宋词中大家最喜欢用的词是东风
  • 唐诗作者作品榜:唐诗作品流传下来最多的是白居易。
  • 宋诗作者作品榜:宋诗作品流传下来最多的是陆游。
  • 宋诗高频词:宋朝诗歌中最常见的词语是"人间"
  • 唐诗高频词:唐诗中最常见的词语是"何处","人间"也不少。

应用

作者已经在 README 中例举了几个利用该数据库自动生成古诗词的机器学习项目和几个古诗词鉴赏的项目。

因为该仓库是 MIT 许可,有想法的小伙伴可以利用这个数据库作出不少好玩的应用。

项目地址

chinese-poetry/chinese-poetry​github.com

 

来源:https://zhuanlan.zhihu.com/p/73470627?from_voters_page=true