Skip to content

zararogers338-hash/Night-Cruise-Chinese-Legal-Corpus-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

夜航星中国法学公开文本清洗语料|Night Cruise Chinese Legal Corpus

大家在进行法律文本实验、数据清洗、训练集制造、RAG 原型验证时可能会需要的一份小型中文法律语料发行候选包。

重要声明

本仓库是一个发行候选版 / release candidate,不是对所有原始上传内容的“无条件开源再发布”。

本次上传材料中,除了法律、法规、司法解释等官方规范性文本外,还出现了现代教材、法学/哲学著作、课程类资料、博客/文章、来源不明 PDF 等内容。为了避免把版权状态不明确的内容直接发布到 GitHub,本仓库只保留了一个较保守的:

  • data/official_statutes_candidate/legal_statutes_official_candidate.jsonl

其余来源只进入统计表和来源审查清单,不随本发行包发布正文。

数据定位

本发行包适合用于:

  • 中文法律文本清洗流程测试
  • 法规文本检索 / RAG 原型验证
  • 中文法律语料格式示例
  • 小规模 tokenizer / chunking / dedup 测试
  • 法律领域数据集制造流程演示

不建议直接用于:

  • 法律意见生成
  • 替代正式法律检索系统
  • 未经审查的模型商用训练
  • 任何会影响真实权利义务判断的自动化法律决策

当前公开候选子集统计

项目 数值
JSONL 行数 / chunks 3,155
唯一文本块 3,155
总字符数 463,235
中文汉字数 407,267
Token 当量估算 31.6万 - 49.3万
推荐中位估算 约 40.1万 Token

原始上传材料参考统计

数据口径 chunks 字符数 Token 当量估算 中位估算
官方法规候选公开子集 3,155 463,235 31.6万 - 49.3万 40.1万
法律 v2 全量参考包 4,643 1,875,729 121.1万 - 193.7万 154.9万
pack5_C 全量参考包 25,826 38,384,440 2452.9万 - 3938.9万 3142.6万
两个上传包简单相加 30,469 40,260,169 2574.1万 - 4132.6万 3297.5万

注意:pack5_C 不是纯法律语料,含哲学、马工程、文学艺术等社科文本,本发行包未包含其正文。

数据格式

每行一个 JSON 对象:

{"text":"文本内容","meta":{"source":"来源名","chunk_id":"...","chunk_sha256":"..."}}

目录结构

data/
  official_statutes_candidate/
    legal_statutes_official_candidate.jsonl
docs/
  dataset_stats.json
  source_review_manifest_legal_v2.csv
  source_manifest_pack5_C_reference.csv
  TOKEN_REPORT.md
  SOURCE_REVIEW.md
scripts/
  estimate_token_equivalent.py
  validate_jsonl.py

使用示例

import json

with open("data/official_statutes_candidate/legal_statutes_official_candidate.jsonl", "r", encoding="utf-8") as f:
    for line in f:
        obj = json.loads(line)
        text = obj["text"]
        meta = obj["meta"]

推荐 GitHub Topics

chinese-law
legal-corpus
legal-dataset
chinese-legal-nlp
law-dataset
rag
dataset-cleaning
jsonl
open-data
statutes
china-law
legal-text
nlp-dataset
training-data
text-corpus
data-cleaning
legal-ai
law-rag
corpus-cleaning
night-cruise

版本

当前版本:v0.1.0

这是一个保守发行候选版。后续如果能补齐每一条来源 URL、官方版本号、版权或授权信息,可以再扩展为更完整的数据发布版。

About

A conservative release candidate of cleaned Chinese legal texts for legal NLP, RAG prototypes, corpus cleaning, and training-data preparation.

Topics

Resources

License

Unknown, Unknown licenses found

Licenses found

Unknown
LICENSE
Unknown
LICENSE-CODE-MIT

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages