夜航星中国法学公开文本清洗语料｜Night Cruise Chinese Legal Corpus

大家在进行法律文本实验、数据清洗、训练集制造、RAG 原型验证时可能会需要的一份小型中文法律语料发行候选包。

重要声明

本仓库是一个发行候选版 / release candidate，不是对所有原始上传内容的“无条件开源再发布”。

本次上传材料中，除了法律、法规、司法解释等官方规范性文本外，还出现了现代教材、法学/哲学著作、课程类资料、博客/文章、来源不明 PDF 等内容。为了避免把版权状态不明确的内容直接发布到 GitHub，本仓库只保留了一个较保守的：

data/official_statutes_candidate/legal_statutes_official_candidate.jsonl

其余来源只进入统计表和来源审查清单，不随本发行包发布正文。

数据定位

本发行包适合用于：

中文法律文本清洗流程测试
法规文本检索 / RAG 原型验证
中文法律语料格式示例
小规模 tokenizer / chunking / dedup 测试
法律领域数据集制造流程演示

不建议直接用于：

法律意见生成
替代正式法律检索系统
未经审查的模型商用训练
任何会影响真实权利义务判断的自动化法律决策

当前公开候选子集统计

项目	数值
JSONL 行数 / chunks	3,155
唯一文本块	3,155
总字符数	463,235
中文汉字数	407,267
Token 当量估算	31.6万 - 49.3万
推荐中位估算	约 40.1万 Token

原始上传材料参考统计

数据口径	chunks	字符数	Token 当量估算	中位估算
官方法规候选公开子集	3,155	463,235	31.6万 - 49.3万	40.1万
法律 v2 全量参考包	4,643	1,875,729	121.1万 - 193.7万	154.9万
pack5_C 全量参考包	25,826	38,384,440	2452.9万 - 3938.9万	3142.6万
两个上传包简单相加	30,469	40,260,169	2574.1万 - 4132.6万	3297.5万

注意：pack5_C 不是纯法律语料，含哲学、马工程、文学艺术等社科文本，本发行包未包含其正文。

数据格式

每行一个 JSON 对象：

{"text":"文本内容","meta":{"source":"来源名","chunk_id":"...","chunk_sha256":"..."}}

目录结构

data/
  official_statutes_candidate/
    legal_statutes_official_candidate.jsonl
docs/
  dataset_stats.json
  source_review_manifest_legal_v2.csv
  source_manifest_pack5_C_reference.csv
  TOKEN_REPORT.md
  SOURCE_REVIEW.md
scripts/
  estimate_token_equivalent.py
  validate_jsonl.py

使用示例

import json

with open("data/official_statutes_candidate/legal_statutes_official_candidate.jsonl", "r", encoding="utf-8") as f:
    for line in f:
        obj = json.loads(line)
        text = obj["text"]
        meta = obj["meta"]

版本

当前版本：v0.1.0

这是一个保守发行候选版。后续如果能补齐每一条来源 URL、官方版本号、版权或授权信息，可以再扩展为更完整的数据发布版。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
docs		docs
scripts		scripts
CHANGELOG.md		CHANGELOG.md
DATA_CARD.md		DATA_CARD.md
GITHUB_TOPICS.txt		GITHUB_TOPICS.txt
LICENSE		LICENSE
LICENSE-CODE-MIT		LICENSE-CODE-MIT
MANIFEST.md		MANIFEST.md
README.md		README.md
VERSION		VERSION

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

夜航星中国法学公开文本清洗语料｜Night Cruise Chinese Legal Corpus

重要声明

数据定位

当前公开候选子集统计

原始上传材料参考统计

数据格式

目录结构

使用示例

推荐 GitHub Topics

版本

About

Licenses found

Uh oh!

Releases 1

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

夜航星中国法学公开文本清洗语料｜Night Cruise Chinese Legal Corpus

重要声明

数据定位

当前公开候选子集统计

原始上传材料参考统计

数据格式

目录结构

使用示例

推荐 GitHub Topics

版本

About

Topics

Resources

License

Licenses found

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages