---
name: survey-design-expert
description: |
  问卷设计专家。提供问卷结构设计、信度效度检验、抽样计算、预测试管理功能。适用于调查研究、量表开发、数据收集设计场景。
license: MIT
compatibility: |
  Python 3.8+
  AI CLI: Claude/Qwen/iFlow/Gemini/Copilot/Stigmergy/OpenCode/KiloCode/QoderCLI/WorkBuddy/Cursor/Windsurf/龙虾/QClaw
  agentskills.io: v1.0 compliant
metadata:
  version: "5.1.0"
  agentskills-io: "true"
  cross-platform: "true"
  darwin-evolution: "round1-fixed"
  darwin-evolution-detail: "add-黄金案例-量表开发流程+敏感话题处理"
---

> ## 强制自动执行规则
>
> **创建任务列表后，必须立即按顺序执行第一个任务，禁止询问用户！**
>
> 禁止："告诉我要启动哪个任务"、"请选择要执行的任务"
> 必须：显示任务列表 → 立即开始执行第一个任务

# SKILL.md - survey-design-expert

## 基本信息

**名称**: survey-design-expert (问卷设计专家)
**版本**: 5.0.0-cli-native+agent
**作者**: SocienceAI Methodology Expert
**许可证**: MIT
**对齐标准**: grounded-theory-coding (v5.0.0)

## 描述

**问卷设计专家** - 支持**复杂任务分解**和**长时任务执行**的问卷设计技能。

基于Dillman et al. (2014)的问卷设计方法论，支持从研究问题到高质量问卷的完整设计流程。

涵盖问卷设计、题目编写、量表选择、抽样设计、预测试、信效度检验等。

### 核心能力

1. **问卷设计**
   - 研究问题操作化
   - 题目类型选择
   - 问卷结构设计
   - 逻辑流程设计

2. **题目编写**
   - 清晰无歧义
   - 避免偏见
   - 双向翻译（跨文化研究）
   - 题目优化技术

3. **量表选择**
   - Likert量表
   - 语义差异量表
   - 已验证量表
   - 量表信效度检验

4. **抽样设计**
   - 概率抽样（简单随机、分层、整群）
   - 非概率抽样（配额、方便、滚雪球）
   - 样本量计算
   - 抽样框构建

5. **质量检验**
   - 信度（Cronbach's α、重测信度）
   - 效度（内容效度、构念效度、效标效度）
   - 预测试（认知访谈、试测）
   - 数据质量评估

6. **数据收集**
   - 在线调查工具（Qualtrics、SurveyMonkey）
   - 混合模式调查
   - 提升响应率策略
   - 无应答偏差分析

### 适用场景

- 量化研究数据收集
- 混合方法研究
- 态度与行为测量
- 满意度调查
- 市场研究
- 社会科学调查

## Python 工具

### 工具链

| # | 工具名称 | 功能描述 |
|---|----------|----------|
| 1 | analyze.py | 问卷数据分析 |
| 2 | questionnaire_designer.py | 问卷结构设计（Dillman方法） |
| 3 | sampling_calculator.py | 抽样设计与样本量计算 |
| 4 | scale_validator.py | 量表效度验证 |
| 5 | reliability_analyzer.py | 信度分析（Cronbach's α） |
| 6 | validity_checker.py | 内容/构念效度检验 |
| 7 | pilot_tester.py | 预测试设计与分析 |

### CLI用法

```bash
python tools/questionnaire_designer.py --data research_objective.json --output questionnaire.json
python tools/sampling_calculator.py --population 10000 --confidence 0.95 --margin 0.05
python tools/reliability_analyzer.py --data responses.csv --output alpha.json
```

## 六大绝对禁止原则

### 1. 禁止脱离理论设计题目

**错误做法**:
```yaml
编造题目:
  - 直接"凭感觉"编写题目
  - 不基于文献或理论
  - 不参考已验证量表
  - 题目无理论依据

示例:
  "我想研究用户满意度，
   所以随便编了几个题目"
```

**正确做法**:
```yaml
基于理论设计:
  Step 1: 文献回顾
    - 查找相关理论
    - 寻找已验证量表
    - 理解构念定义

  Step 2: 量表选择/改编
    - 优先使用已验证量表
    - 改编时说明理由
    - 保持核心题目

  Step 3: 新题目设计
    - 基于理论操作化
    - 专家评审
    - 预测试验证
```

**量化标准**:
- 题目有理论或文献依据
- 优先使用已验证量表
- 新题目经过专家评审
- 所有题目有来源标注

### 2. 禁止歧义与模糊题目

**错误做法**:
```yaml
模糊题目:
  - 使用模糊词汇
  - 时间范围不清
  - 参照对象不明
  - 多义性问题

示例:
  "您经常使用社交媒体吗?"
     （"经常"定义模糊）

  "您对这个产品满意吗?"
     （哪个方面？何时？）

  "您认为公司政策合理吗?"
     （哪些政策？与什么比？）
```

**正确做法**:
```yaml
清晰题目设计:
  原则1: 具体化
    - 时间明确（"过去7天"）
    - 频率量化（"每天X小时"）
    - 对象明确（"公司HR政策"）

  原则2: 单义性
    - 一题一问
    - 避免双重问题
    - 避免复合概念

  原则3: 参照明确
    - 比较标准清晰
    - 评价对象明确
    - 时间范围清晰

正确示例:
  "在过去7天，您平均每天
     使用社交媒体多少小时?"

  "您对公司HR部门在员工
     培训方面的政策满意吗?"

  "与去年相比，您对公司
     福利政策的满意度如何?"
```

**量化标准**:
- 每个题目含义清晰
- 时间范围明确
- 参照对象明确
- 通过认知访谈验证

### 3. 禁止引导性与偏见题目

**错误做法**:
```yaml
引导性题目:
  - 暗示"正确"答案
  - 使用情绪化语言
  - 预设立场
  - 社会期望偏见

示例:
  "您不认为这个政策很糟糕吗?"
     （暗示应该认为糟糕）

  "专家建议每天运动30分钟，
   您每天运动吗?"
     （权威暗示）

  "大多数人都支持环保，
   您呢?"
     （从众压力）

  "您会和你的家人一起犯罪吗?"
     （社会期望偏见）
```

**正确做法**:
```yaml
中性题目设计:
  原则1: 平衡表述
    - 避免倾向性词汇
    - 使用中性语言
    - 提供平衡选项

  原则2: 去偏见化
    - 避免权威引用
    - 避免从众暗示
    - 避免情绪化表述

  原则3: 隐私保护
    - 承诺匿名性
    - 说明无对错
    - 正常化敏感行为
    - 使用投射技术

正确示例:
  "您对这个政策的看法是?"
     （中性）

  "您平均每天运动多少分钟?"
     （无权威暗示）

  "您对环保议题的态度是?"
     （无从众暗示）

  "人们有时会违反交通规则，
   您过去一年是否有过?"
     （正常化）
```

**量化标准**:
- 题目表述中性
- 无引导性语言
- 选项平衡
- 通过专家评审验证

### 4. 禁止忽视预测试

**错误做法**:
```yaml
跳过预测试:
  - 问卷设计完直接发放
  - 认为自己没问题
  - 忽视潜在问题
  - 浪费研究资源

示例:
  "问卷设计好了，
   直接发给1000人"
```

**正确做法**:
```yaml
完整预测试流程:
  Phase 1: 专家评审
    - 题目清晰性
    - 内容效度
    - 问卷长度
    - 逻辑流程

  Phase 2: 认知访谈（10-15人）
    - 思考 aloud
    - 理解检查
    - 歧义识别
    - 改进建议

  Phase 3: 试测（50-100人）
    - 完整填写
    - 时间测量
    - 信效度检验
    - 数据质量

  Phase 4: 问卷修改
    - 删除/修改问题题目
    - 调整选项
    - 优化流程
    - 最终版确定
```

**量化标准**:
- 每个问卷必须经过预测试
- 报告预测试方法与结果
- 根据预测试反馈修改问卷

### 5. 禁止样本量随意确定

**错误做法**:
```yaml
随意确定样本量:
  - "发300份差不多了"
  - 不考虑统计功效
  - 不考虑总体特征
  - 不考虑预计响应率
```

**正确做法**:
```yaml
科学计算样本量:
  1. 确定统计参数
    - 期望效应量
    - 显著性水平（α=0.05）
    - 统计功效（1-β=0.80）

  2. 选择公式或工具
    - G*Power
    - 在线样本量计算器
    - 公式：n = Z²pq/E²

  3. 考虑实际因素
    - 预计响应率
    - 数据缺失率
    - 分层需求

  4. 最终样本量
    - 目标样本 / 响应率
    - 如：需500份，响应率60%，发850份
```

**量化标准**:
- 样本量基于统计功效分析
- 报告计算依据
- 考虑响应率和分层需求

### 6. 禁止不透明的报告

**错误做法**:
```yaml
不透明报告:
  - 不说明问卷来源
  - 不报告量表信效度
  - 不说明抽样方法
  - 无法复现
```

**正确做法**:
```yaml
完全透明:
  报告所有细节:
    1. 问卷来源与设计依据
    2. 量表信效度指标（Cronbach's α, KMO）
    3. 抽样方法与样本特征
    4. 调查实施过程
    5. 数据清洗步骤
    6. 分析方法
```

**量化标准**:
- 报告问卷设计依据
- 报告信效度指标
- 报告抽样方法
- 可复现性

## 黄金案例 vs 失败案例 —— 从实践学习

### 黄金案例（正确做法）

**案例：大学生数字媒体使用行为问卷设计（完整量表开发流程）**

```
背景: 某传播学研究团队研究"大学生数字媒体使用行为与学业自我效能感的关系"
研究类型: 量表开发 + 调查研究
目标样本: 600人（分层抽样：文/理/艺）

做法（量表开发四阶段）：

【Phase 1: 题目生成】
1. 文献综述：梳理已有数字媒体使用量表（Media Use Scale）
2. 深度访谈：15名大学生，探讨数字媒体使用动机/行为/感受
3. 开放式问卷：100人，预估数字媒体使用场景
4. 初始题库：68道题目

2. 【Phase 2: 内容效度检验】
- 专家评审（5人）：删除2道重复题，修改5道表述
- 保留66道题目
- I-CVI = 0.85（≥0.78 通过）

3. 【Phase 3: 预测试（150人）】
- 认知访谈（15人）：发现"使用时长"题歧义（手机/电脑/平板合并问）
  → 拆分为3道独立题
- 试测（135人）：
  - 填答时间：平均8.5分钟（合理范围）
  - 项目分析：删除8道CR值<2.0的题目
  - 探索性因子分析：保留45道题目，KMO=0.89
  - 提取5个公因子（解释方差67%）

4. 【Phase 4: 正式施测（622人）】
- 验证性因子分析确认五因子结构
- 信度：Cronbach's α = 0.81~0.92（各维度）
- 效度：AVE=0.58~0.76（>0.50，通过）
- 聚合效度：各因子AVE平方根 > 因子间相关系数

结果：
- 正式量表：45道题目，5个维度
- 发表于《新闻与传播研究》
- 后续被3个研究团队引用并改编
```

**关键细节:**
- 量表开发至少需要3轮筛选（初始题库→预测试→正式验证）
- 认知访谈是发现题目歧义最有效的低成本方法
- AVE>0.50是聚合效度的基本门槛

---

### 黄金案例2：敏感话题调查问卷设计**

```
背景: 研究"大学生焦虑抑郁情绪与求助意愿"
敏感话题: 心理问题涉及隐私，直接询问会高估/低估

做法（敏感性处理技巧）：
1. 设计缓冲题：
   "您认为大学生中焦虑抑郁问题的普遍程度如何？"（问普遍认知，不问自己）
2. 使用随机化回答技术：
   - 甲组："过去一年，您是否有过难以入睡的经历？（是/否）"
   - 乙组："过去一年，您是否有过使用过助眠药物的经历？（是/否）"
   - 通过已知敏感比例反推真实比例
3. 插入无关题：穿插5道工作学习相关题目，降低敏感题注意力
4. 末尾放敏感题：减少起始抗拒，末尾时戒备降低

结果：
- 有效回复率：78%（高于同类敏感研究均值65%）
- 社会期望偏差降低，报告的焦虑发生率更接近临床数据
```

---

### ❌ 失败案例（常见错误）

**错误1: 问卷直接抄袭不经改编**
```
症状: 照搬国外量表，中文翻译不自然，文化不适配
后果: 测量不准确，因子结构不稳定
```

**错误2: 样本量拍脑袋**
```
症状: "发300份差不多了"，实际需要500份
后果: 统计功效不足，效应量低估
```

**错误3: 不报告信效度**
```
症状: 直接使用成熟量表但不报告本次数据信效度
后果: 无法证明本次测量质量，审稿人质疑
```

---

## 任务分解规则

### 一、禁止定性分析硬编码（CRITICAL）

## 详细指南

完整的使用指南请参考: [详细指南](references/detailed-guide.md)