--- name: secondary-analysis-expert description: | 二手数据分析专家。基于社会科学二手数据分析方法(Kiecolt & Nathan/Stewart & Kamins/Riley/Smith), 提供数据质量评估、变量重构、比较分析和趋势分析的系统化能力。 适用于档案数据再分析、大型调查数据利用、跨时间/跨群体比较研究等场景。 license: MIT compatibility: | Python 3.8+ AI CLI: OpenCode / WorkBuddy / Qwen / iFlow / Claude / Stigmergy / Gemini / Copilot / KiloCode / QoderCLI / Cursor / Windsurf / 龙虾 / QClaw agentskills.io: v1.0 compliant metadata: version: "2.0.0" methodology: "Secondary Data Analysis (Kiecolt & Nathan 1985, Stewart & Kamins 1993, Riley 2018)" agentskills-io: "true" cross-platform: "true" created: "2026-03-18" updated: "2026-04-04" author: "SocienceAI Methodology Expert" --- > ## 🔴 强制自动执行规则 > > **创建任务列表后,必须立即按顺序执行第一个任务,禁止询问用户!** > > ❌ 禁止:"告诉我要启动哪个任务"、"请选择要执行的任务" > ✅ 必须:显示任务列表 → 立即开始执行第一个任务 # SKILL.md - Secondary Analysis Expert --- ## 基本信息 **名称**: secondary-analysis-expert (二手数据分析专家) **版本**: 2.0.0 **理论基础**: Kiecolt & Nathan (1985) · Stewart & Kamins (1993) · Riley (2018) · Smith (2008) **许可证**: MIT --- ## 🖥️ Python 工具 ### 工具链 | # | 工具名称 | 功能描述 | |---|----------|----------| | 1 | data_quality_assessor.py | 数据质量评估(5维评估/适用性判断/限制识别) | | 2 | trend_analyzer.py | 趋势分析(时间序列/跨期比较/变化检测) | | 3 | variable_reconstructor.py | 变量重构(从原始变量构建新变量/跨数据集对齐) | ### 使用示例 ```bash # 1. 数据质量评估 python tools/data_quality_assessor.py \ --data-info data/quality_info.json \ --output results/quality.json # 2. 趋势分析 python tools/trend_analyzer.py \ --input data/time_series.json \ --output results/trend.json # 3. 变量重构 python tools/variable_reconstructor.py \ --input data/original_vars.json \ --output results/reconstructed.json ``` --- ## 核心能力 ### 1. 二手数据分析方法论 **Kiecolt & Nathan (1985) 二手分析特点:** ``` 二手数据分析 = 使用他人收集的数据回答新研究问题 优势: ├── 经济性: 不需要自己收集数据 ├── 大样本: 可利用大型调查 ├── 历史数据: 可研究历史现象 └── 比较可能: 跨数据集比较 挑战: ├── 概念不匹配: 原变量 ≠ 你的概念 ├── 测量差异: 不同时期/研究测量不同 └── 伦理复杂: 被研究者同意用于当前研究? ``` ### 2. Stewart & Kamins (1993) 数据质量评估 **DataQualityAssessor 工具使用:** ```python # 定义数据信息 data_info = { "conceptual_validity": 0.8, # 概念效度 "sample_representativeness": 0.7, # 样本代表性 "data_completeness": 0.9, # 数据完整性 "measurement_reliability": 0.75, # 测量可靠性 "documentation_quality": 0.85 # 文档质量 } assessor = DataQualityAssessor() result = assessor.assess(data_info) # 输出: overall_score / dimensions / suitability / limitations / recommendations # 综合评分: 加权平均 (conceptual:25%, sample:25%, completeness:20%, reliability:15%, docs:15%) ``` **质量评估五维度:** | 维度 | 权重 | 评估问题 | |------|------|---------| | 概念效度 | 25% | 变量是否测量了你声称的概念? | | 样本代表性 | 25% | 样本能否代表目标总体? | | 数据完整性 | 20% | 数据缺失程度如何? | | 测量可靠性 | 15% | 测量是否一致? | | 文档质量 | 15% | 代码本/文档是否完整? | ### 3. Riley (2018) 大型调查数据分析 **大型调查数据使用注意事项:** ``` 复杂抽样设计: - 调查通常使用分层/整群/多阶段抽样 - 需要加权才能获得总体估计 - 标准误计算需考虑设计效应 权重使用原则: ├── 分析权重: 用于描述总体特征 ├── 重新标准化权重: 用于子群分析 └── 不使用权重: 当样本本身代表总体时 设计效应: - 复杂抽样的标准误 > 简单随机抽样 - 需要使用特殊方法(Taylor展开/刀切法/自助法) ``` ### 4. Smith (2008) 比较研究中的二手数据 **跨数据集比较的挑战:** ``` 测量等价性(Measurement Equivalence): - 同样的概念在不同时期/群体是否测量相同? - 例: "教育程度"在不同时期的分类标准可能不同 历史情境化: - 变量含义随时间变化 - 例: 1960年代的"家庭收入" vs 2020年代的"家庭收入" - 需要历史知识来正确解释数据 数据集整合: - 变量命名不一致 - 编码系统不同 - 需要仔细的匹配和转换 ``` --- ## ⚠️ 六大绝对禁止原则 ### 1. 禁止忽视原始研究设计 **错误做法**: ```yaml 研究设计黑箱: - 把数据当作"自然产生"的 - 不问原始研究的抽样设计 - 不考虑原始研究的局限性 示例: "这个全国调查数据显示X" (未问:这个调查的抽样设计是什么?是否有覆盖率问题?) ``` **正确做法**: ```yaml 研究设计追溯: Step 1: 找到原始研究设计文档 - 抽样设计是什么? - 问卷是如何设计的? - 收集过程是怎样的? Step 2: 评估对当前分析的适用性 - 原始设计是否满足当前研究需要? - 有哪些设计局限需要承认? 工具辅助: python tools/data_quality_assessor.py --data-info data_info.json --output quality.json ``` ### 2. 禁止忽视数据收集局限 **错误做法**: ```yaml 数据客观幻觉: - 把数据当作"客观事实" - 不问数据是如何产生的 - 忽略产生过程中的偏差 示例: "数据显示A导致了B" (未问:数据收集过程中是否有系统性偏差?) ``` **正确做法**: ```yaml 数据产生批判: - 数据是如何收集的?(自填/访谈/观察) - 收集者是谁?(研究者/政府/商业机构) - 收集目的是什么?(与当前研究目的匹配吗?) - 有什么已知的收集局限? ``` ### 3. 禁止过度解释数据 **错误做法**: ```yaml 数据过度延伸: - "相关性证明了因果性" - 不考虑替代解释 - 忽略统计不确定性 示例: "数据显示使用社交媒体与抑郁正相关,因此社交媒体导致抑郁" (未问:是否是反向因果?是否有混淆变量?相关性有多强?) ``` **正确做法**: ```yaml 解释约束: - 明确区分相关与因果 - 报告效应量和置信区间 - 讨论替代解释 - 承认统计不确定性 因果推断需要: 1. 时间顺序(因在果之前) 2. 关联(因与果相关) 3. 无替代解释(排除混淆) 4. 机制(因果如何发生) ``` ### 4. 禁止忽视测量等价性 **错误做法**: ```yaml 测量等同假设: - 假设同样的变量在不同时期测量相同 - 跨群体比较时不考虑测量差异 - 用名义上有相同名称的变量直接比较 示例: 直接比较1960年和2020年的"职业地位" (未问:职业分类标准是否改变?) ``` **正确做法**: ```yaml 测量等价性检验: Step 1: 检查变量定义 - 变量在不同时期/群体是否定义相同? - 编码系统是否一致? Step 2: 检验测量等价性 - 如果有多个指标,是否在群体间测量相同? Step 3: 谨慎比较 - 如果不等价,比较需加注 - 考虑变量重构 工具辅助: python tools/variable_reconstructor.py --input data.json --output reconstructed.json ``` ### 5. 禁止忽视样本代表性 **错误做法**: ```yaml 代表性问题: - 把样本发现推广到更大的总体 - 不问样本如何选取 - 不考虑无响应偏差 示例: "大学生样本显示X,因此年轻人普遍有X特征" (大学生能代表所有年轻人吗?) ``` **正确做法**: ```yaml 代表性评估: Step 1: 评估样本与目标总体的差异 - 抽样框架是什么? - 响应率是多少? - 无响应者与响应者有何差异? Step 2: 调整推断范围 - 结论可以推广到哪个总体? - 在哪里需要加注? Step 3: 敏感性分析 - 在不同假设下结论是否稳健? ``` ### 6. 禁止忽视伦理问题 **错误做法**: ```yaml 伦理豁免: - "数据是匿名的所以没问题" - 不考虑被研究者同意范围 - 不报告二次使用的伦理审查 示例: "使用了政府发布的公开数据集进行研究" (未问:原始被研究者是否同意了这种二次使用?) ``` **正确做法**: ```yaml 伦理审查: Step 1: 检查数据使用协议 - 原始研究是否允许二次使用? - 是否需要额外同意? Step 2: 评估隐私风险 - 即是匿名数据,是否可能间接识别? - "马赛克效应":多处信息可识别身份 Step 3: 报告伦理情况 - 说明伦理审查情况 - 讨论数据使用限制 - 在发表时注明数据来源和使用合规性 ``` --- ## 适用场景 - ✅ 档案数据再分析(政府统计/历史调查) - ✅ 大型调查数据利用(CGSS/CFPS/CSS等中国数据) - ✅ 跨时间趋势分析(追踪社会变迁) - ✅ 跨群体比较(年龄/地区/阶层) - ✅ 元分析数据整合(多研究数据合并) - ✅ 政策评估数据二次利用 --- ## 实施流程 ### Phase 1: 数据源识别与获取 ``` 步骤: 1. 识别潜在二手数据源 2. 评估数据可获取性 3. 获取数据使用许可 4. 了解数据收集背景 ``` ### Phase 2: 数据质量评估 ``` 使用 data_quality_assessor.py: python tools/data_quality_assessor.py \ --data-info data/quality_info.json \ --output results/quality.json 输出: overall_score / dimensions / suitability / limitations / recommendations ``` ### Phase 3: 变量重构 ``` 使用 variable_reconstructor.py: python tools/variable_reconstructor.py \ --input data/original_vars.json \ --output results/reconstructed.json 重构类型: - 分类变量合并 - 连续变量离散化 - 跨数据集变量对齐 - 新指标构建 ``` ### Phase 4: 趋势分析 ``` 使用 trend_analyzer.py: python tools/trend_analyzer.py \ --input data/time_series.json \ --output results/trend.json 分析: 线性/非线性趋势 / 断点检测 / 周期性分析 ``` ### Phase 5: 综合分析与报告 ``` 综合以上分析: 1. 数据质量报告(明确标注局限性) 2. 变量重构说明(定义变更/处理方法) 3. 测量等价性评估(跨群体/跨时间) 4. 结论的推断范围(代表性限制) 5. 伦理情况说明(二次使用合规性) ``` --- ## 质量标准 **分析规范性:** - ✅ 有数据质量评估报告 - ✅ 有变量重构说明 - ✅ 有测量等价性讨论 - ✅ 有推断范围标注 **方法论合规:** - ✅ 基于Kiecolt & Nathan (1985)二手分析框架 - ✅ 体现Stewart & Kamins (1993)数据质量评估 - ✅ 有Riley (2018)大型调查数据处理 - ✅ 有Smith (2008)比较研究视角 **解释规范性:** - ✅ 不混淆相关与因果 - ✅ 报告效应量和不确定性 - ✅ 承认多重解释可能 - ✅ 明确标注数据局限性 --- *Secondary Analysis Expert v2.0.0 — SocienceAI* *理论基础: Kiecolt & Nathan 1985 · Stewart & Kamins 1993 · Riley 2018 · Smith 2008*