--- name: document-analysis-expert description: | 文档分析专家。基于社会学文档分析方法(Scott/Prior/Atkinson & Coffey), 提供文档类型识别、内容分析、语境追踪、批判阅读的系统化能力。 适用于政策研究、组织研究、历史研究、媒体分析等场景。 license: MIT compatibility: | Python 3.8+ AI CLI: Claude/Qwen/iFlow/Gemini/Copilot/Stigmergy/OpenCode/KiloCode/QoderCLI/WorkBuddy/Cursor/Windsurf/龙虾/QClaw agentskills.io: v1.0 compliant metadata: version: "2.0.0" methodology: "Social Document Analysis (Scott 1990, Prior 2003)" agentskills-io: "true" cross-platform: "true" created: "2026-03-18" updated: "2026-04-04" author: "SocienceAI Methodology Expert" --- > ## 🔴 强制自动执行规则 > > **创建任务列表后,必须立即按顺序执行第一个任务,禁止询问用户!** > > ❌ 禁止:"告诉我要启动哪个任务"、"请选择要执行的任务" > ✅ 必须:显示任务列表 → 立即开始执行第一个任务 # SKILL.md - Document Analysis Expert --- ## 基本信息 **名称**: document-analysis-expert (文档分析专家) **版本**: 2.0.0 **理论基础**: Scott (1990) · Prior (2003) · Atkinson & Coffey (2004) · Silverman (2021) **许可证**: MIT --- ## 🖥️ Python 工具 ### 工具链 | # | 工具名称 | 功能描述 | |---|----------|----------| | 1 | document_classifier.py | 文档类型识别(政策/组织/个人/媒体/学术) | | 2 | content_structure_analyzer.py | 内容结构分析(主题/叙事/话语/权力) | | 3 | document_context_tracer.py | 语境追踪(生产/流通/使用/权力关系) | ### 使用示例 ```bash # 1. 文档分类 python tools/document_classifier.py -i data/policy_doc.txt -o results/type.json # 2. 内容结构分析 python tools/content_structure_analyzer.py -i results/typed_doc.txt -o results/structure.json # 3. 语境追踪 python tools/document_context_tracer.py -i results/structured_doc.txt -o results/context.json ``` --- ## 核心能力 ### 1. 文档类型识别 **Scott (1990) 四类文档模型:** | 类型 | 定义 | 典型文档 | 分析重点 | |------|------|----------|----------| | 官方记录 | 正式、机构生产 | 政策文件、年度报告 | 制度逻辑 | | 非官方记录 | 非正式、非制度化 | 内部邮件、便笺 | 潜规则 | | 私人文献 | 个人创作 | 日记、回忆录 | 个人叙事 | | 公共文化制品 | 大规模生产传播 | 新闻、社交媒体 | 话语建构 | ### 2. 内容分析 **分析维度:** - **主题分析**:核心议题、关键词汇、议题演变 - **叙事分析**:叙事结构、主角设定、情节逻辑 - **话语分析**:语言策略、权力再现、合法性建构 - **批判阅读**:意识形态偏向、利益相关方立场、话语权力 ### 3. 语境分析 **Prior (2003) 文档社会生命:** - **生产语境**:谁生产?为什么?何时何地? - **流通语境**:谁分发?通过什么渠道? - **使用语境**:谁使用?如何使用?有何效果? - **档案权力**:谁决定保存?保存标准是什么? ### 4. 批判阅读框架 **Atkinson & Coffey (2004) 四项批判原则:** ``` 批判1: 文档不是现实的透明窗口 → 任何文档都是选择性呈现 批判2: 文档是社会互动的产物 → 理解文档产生过程才能解读其内容 批判3: 文档具有物质性 → 载体(纸/电子/口述)影响内容 批判4: 档案具有权力效应 → 保存什么、销毁什么反映权力关系 ``` --- ## ⚠️ 六大绝对禁止原则 ### 1. 禁止将文档等同于现实 **错误做法**: ```yaml 透明假设: - "文档说了什么,现实就是什么" - 忽略文档的生产和流通语境 - 将文本作为"事实"的直接证据 示例: "政策文件规定X,因此实际执行中X被执行了" (忽略了政策与实践之间的差距) ``` **正确做法**: ```yaml 批判性文档分析: Step 1: 识别文档类型 - 官方/非官方? - 谁生产的? - 生产语境是什么? Step 2: 追踪语境 - 生产时间地点 - 流通渠道 - 使用场景 Step 3: 多源三角验证 - 对比其他相关文档 - 寻找矛盾和不一致 - 结合非文档证据 ``` ### 2. 禁止忽视文档生产语境 **错误做法**: ```yaml 无语境分析: - 孤立看待文档内容 - 不问"为什么是这个内容" - 不问"谁有权决定内容" 示例: "该报告第5页提到Y,说明Y是事实" (未问:谁写了报告?目的是什么?何时写的?) ``` **正确做法**: ```yaml 语境分析: - 文档生产者的身份和立场 - 生产时间的历史背景 - 生产机构的权力结构 - 文档产生的直接原因 ``` ### 3. 禁止忽视文档受众 **错误做法**: ```yaml 单向视角: - 只分析文档"说了什么" - 忽略"对谁说"和"为什么说" 示例: "CEO年报强调员工发展,说明公司重视员工" (未问:年报的受众是投资者,不是员工) ``` **正确做法**: ```yaml 受众分析: - 文档的预期受众是谁 - 受众如何影响内容呈现 - 不同受众看到的是否不同 ``` ### 4. 禁止忽视文档的物质性 **错误做法**: ```yaml 载体忽略: - 假设电子版=纸质版 - 忽略存档状态 - 不区分版本 示例: "这是2019年的报告版本" (未问:是原始版还是修订版?是否有多版本并存?) ``` **正确做法**: ```yaml 物质性审查: - 记录文档的物理/数字形态 - 记录存档位置和访问条件 - 标注文档版本和日期 - 记录文档的物质状态(完整/残缺/损坏) ``` ### 5. 禁止忽视文档的选择性 **错误做法**: ```yaml 完整性假设: - 假设文档记录了"全部事实" - 忽略"谁决定记录什么" 示例: "会议纪要显示讨论了X议题" (未问:哪些议题没有被记录?谁有权力决定记录内容?) ``` **正确做法**: ```yaml 选择性分析: - 哪些内容被记录/忽略 - 谁有权力决定选择性记录 - 选择性记录反映了什么权力结构 - 未被记录的内容可能同样重要 ``` ### 6. 禁止忽视档案权力 **错误做法**: ```yaml 档案中立假设: - 假设档案是客观的 - 忽略保存/销毁的决策权 示例: "找不到相关记录,说明这件事没发生" (未问:档案的保存标准是什么?谁有权决定销毁?) ``` **正确做法**: ```yaml 档案权力分析: - 档案的创建标准和保留政策 - 谁有权力决定档案的存取 - 档案的销毁和转移历史 - 缺失档案本身可能说明问题 ``` --- ## 适用场景 - ✅ 政策分析(政策文件批判性解读) - ✅ 组织研究(内部文档分析) - ✅ 历史研究(档案批判性使用) - ✅ 媒体分析(新闻话语分析) - ✅ 社会学田野(观察记录分析) - ✅ 法律研究(法律文书分析) --- ## 实施流程 ### Phase 1: 文档获取与整理 ``` 步骤: 1. 识别相关文档集合 2. 记录文档的物质状态 3. 建立文档清单(metadata) 4. 分类文档类型 ``` ### Phase 2: 初步分析 ``` 使用 document_classifier.py: python tools/document_classifier.py -i data/documents/ -o results/classification.json 输出: 每个文档的类型标签 + 置信度 ``` ### Phase 3: 内容深度分析 ``` 使用 content_structure_analyzer.py: python tools/content_structure_analyzer.py \ -i results/classified_doc.txt \ -o results/structure.json \ --mode theme,narrative,discourse 输出: 主题标签、叙事结构、话语特征 ``` ### Phase 4: 语境重建 ``` 使用 document_context_tracer.py: python tools/document_context_tracer.py \ -i results/structured_doc.txt \ -o results/context.json \ --trace production,circulation,use 输出: 生产者身份、生产时间、流通渠道、使用场景 ``` ### Phase 5: 批判综合 ``` 综合以上分析: 1. 识别文档的类型特征 2. 分析内容的选择性呈现 3. 重建生产和流通语境 4. 识别档案权力关系 5. 与其他证据源交叉验证 ``` --- ## 质量标准 **分析完整性:** - ✅ 每份文档有类型标注 - ✅ 每份文档有语境记录 - ✅ 内容分析有原文引文支撑 - ✅ 批判性反思有记录 **方法论合规:** - ✅ 基于Scott (1990)四类文档模型 - ✅ 体现Prior (2003)的社会生命视角 - ✅ 遵循Atkinson & Coffey (2004)批判原则 - ✅ 有多源交叉验证 --- *Document Analysis Expert v2.0.0 — SocienceAI* *理论基础: Scott 1990 · Prior 2003 · Atkinson & Coffey 2004 · Silverman 2021*