大家在进行法律文本实验、数据清洗、训练集制造、RAG 原型验证时可能会需要的一份小型中文法律语料发行候选包。
本仓库是一个发行候选版 / release candidate,不是对所有原始上传内容的“无条件开源再发布”。
本次上传材料中,除了法律、法规、司法解释等官方规范性文本外,还出现了现代教材、法学/哲学著作、课程类资料、博客/文章、来源不明 PDF 等内容。为了避免把版权状态不明确的内容直接发布到 GitHub,本仓库只保留了一个较保守的:
data/official_statutes_candidate/legal_statutes_official_candidate.jsonl
其余来源只进入统计表和来源审查清单,不随本发行包发布正文。
本发行包适合用于:
- 中文法律文本清洗流程测试
- 法规文本检索 / RAG 原型验证
- 中文法律语料格式示例
- 小规模 tokenizer / chunking / dedup 测试
- 法律领域数据集制造流程演示
不建议直接用于:
- 法律意见生成
- 替代正式法律检索系统
- 未经审查的模型商用训练
- 任何会影响真实权利义务判断的自动化法律决策
| 项目 | 数值 |
|---|---|
| JSONL 行数 / chunks | 3,155 |
| 唯一文本块 | 3,155 |
| 总字符数 | 463,235 |
| 中文汉字数 | 407,267 |
| Token 当量估算 | 31.6万 - 49.3万 |
| 推荐中位估算 | 约 40.1万 Token |
| 数据口径 | chunks | 字符数 | Token 当量估算 | 中位估算 |
|---|---|---|---|---|
| 官方法规候选公开子集 | 3,155 | 463,235 | 31.6万 - 49.3万 | 40.1万 |
| 法律 v2 全量参考包 | 4,643 | 1,875,729 | 121.1万 - 193.7万 | 154.9万 |
| pack5_C 全量参考包 | 25,826 | 38,384,440 | 2452.9万 - 3938.9万 | 3142.6万 |
| 两个上传包简单相加 | 30,469 | 40,260,169 | 2574.1万 - 4132.6万 | 3297.5万 |
注意:pack5_C 不是纯法律语料,含哲学、马工程、文学艺术等社科文本,本发行包未包含其正文。
每行一个 JSON 对象:
{"text":"文本内容","meta":{"source":"来源名","chunk_id":"...","chunk_sha256":"..."}}data/
official_statutes_candidate/
legal_statutes_official_candidate.jsonl
docs/
dataset_stats.json
source_review_manifest_legal_v2.csv
source_manifest_pack5_C_reference.csv
TOKEN_REPORT.md
SOURCE_REVIEW.md
scripts/
estimate_token_equivalent.py
validate_jsonl.py
import json
with open("data/official_statutes_candidate/legal_statutes_official_candidate.jsonl", "r", encoding="utf-8") as f:
for line in f:
obj = json.loads(line)
text = obj["text"]
meta = obj["meta"]chinese-law
legal-corpus
legal-dataset
chinese-legal-nlp
law-dataset
rag
dataset-cleaning
jsonl
open-data
statutes
china-law
legal-text
nlp-dataset
training-data
text-corpus
data-cleaning
legal-ai
law-rag
corpus-cleaning
night-cruise
当前版本:v0.1.0
这是一个保守发行候选版。后续如果能补齐每一条来源 URL、官方版本号、版权或授权信息,可以再扩展为更完整的数据发布版。