Team Project
QSSBA,Spring 2025
Introduction
This project is a crucial component of the course assessment. It evaluates what you learn from the course, thus the ability to collect, clean, and analyze economic and social big data using the research methods and AI tools.
Students will work and be evaluated in teams. Ideally, each team will consist of 2-3 students, with no more than 3 members. ( If you need help finding a partner, please contact the teaching assistant or instructor).
Each team will deliver two presentations—one for the mid-semester proposal and one for preliminary results—and submit a final report. The final report must include all supporting data and code.
Deadlines for Research Proposals and Reports
Milestone | Evaluation | Due to |
---|---|---|
Finish team building | 10% | TBD |
Mid-term Proposal Presentation | 30% | TBD |
Final Preliminary Presentation | 30% | TBD |
Final Research Report/Manuscript | 20% | TBD |
Basic Requirements for Mid-term Research Proposal:
- Language: Presentations may be given in either English or Chinese. Students presenting in their second language may earn 5-10 bonus points based on performance.
- Content: Must include research motivation, literature review, research methods, key issues to address, data sources and types, basic data description, and expected results.
- Length: Minimum 10 slides, including relevant charts and figures.
Basic Requirements for Final Preliminary Presentation:
- Language: Presentations may be given in either English or Chinese. Students presenting in their second language may earn 5-10 bonus points based on performance.
- Content: Must include literature review, potential contributions, research methods, data sources and types, basic data description, empirical analysis results, conclusions, and policy implications.
- Length: Minimum 15 slides, including relevant charts and figures.
Basic Requirements for Final Research Report:
- Language: Reports may be written in either English or Chinese. Students writing in their second language may earn 5-10 bonus points based on quality.
- Content: Must include literature review, potential contributions, research methods, data sources and types, basic data description, empirical analysis results, conclusions, and policy implications.
- Length and Word Count: Minimum 6,000 words and 10 pages (A4 size), including relevant charts and figures.
附件A: 研究计划内容指南
一篇好的经验研究项目计划书的大致内容应该有如下部分:
- 研究动机
- 拟发现或提出的提出的问题。
- 从研究问题的理论、经验和政策三方面来说为什么本研究有意义?
- 文献回顾
- 对之前的文献进行简要的综述,主要结论是什么?
- 这些研究可能存在哪些缺陷?
- 本文的研究以哪些重要文献作为研究基础,并有可能在哪些方面对上述文献进行扩展或改进?
- 研究方法和拟解决的关键性问题
- 你的项目中最关心的变量是什么?自变量和因变量是什么? 在项目要克服的主要的识别的困难是什么?(即是否样本不随机,存在自选择或者互为因果等关系?)
- 所以,为了克服上述困难,你打算所采用的主要经验研究方法是什么?(比如我们上课介绍的多元回归、分解、工具变量、双重差分法和断点回归等等)。为什么这种方法能够解决你研究中的识别困难?
数据来源和数据类型 数据从何而来,以什么为单位?为什么你所使用的数据适合做本项目的研究,该数据有哪些优势和劣势?
1)从数据类型上看,属于我们上课所说的哪种类型?
- cross-sectional
- panel
- time series
2)数据是否要进行一些处理,比如去掉一些缺失值和异常值等或者去掉一些不符合条件的样本。比如研究工资问题,通常将不在工作状态的样本去掉。
3)研究问题中自变量和因变量分别对应数据库中哪个或哪些变量?
数据的基本描述
- 数据信息的基本描述:我们最关心的因变量、自变量和其他控制变量的基本统计性描述信息(均值、方差、最大值最小值等等)。
- 如果有可能的话可以做比较两组均值的差异分析(类似我们上课做的),再用散点图看一看因变量和自变量之间的关系。
预期的结果
- 本研究项目期望得到的结果是什么?
- 结果对研究和政策有哪些直接的贡献?
- 研究结果的潜在的局限性有哪些?如何能够克服?
潜在研究题目(集中在经济学)
人口与劳动经济学
健康和营养方面:比如肥胖、吸烟和喝酒对工资、家庭消费和福利的影响
教育和培训:在职培训对城市居民和农民工就业及工资的影响。
失业就业研究:“四万亿”投资与就业、“一带一路”策略与就业、工作流动性研究
劳动力市场市场化程度研究
农民工工资上涨的原因?劳动力短缺还是制度原因(最低工资制度还是劳动合同法)
人口问题:计划生育、二胎的影响
新《劳动合同法》、机器人更新换代、产业升级、新冠肺炎疫情的相关影响?
教育经济学
城乡中学教育质量的差异?
“补课”是否有用?
“快慢班”对学生成绩的影响?
家长投入(时间、金钱等方面)对学生学习成绩的影响?
“重点学校”对学生成绩的影响?
“教培”行业被整顿对学生成绩的影响
收入分配
- 收入分配:工资不平等和收入不平等和代际传递
迁移
-迁移决策的决定:教育、土地、家庭结构及社会网络如何决定移民的决策?
- 对迁移地的影响:比如农民工迁移对当地就业和工资的影响
- 对迁出地的影响:比如农民工迁移对农村收入分配和贫困的影响
- 其他衍生问题:子女教育、婚姻质量、青年农民工等等
政治经济学:
- 反腐运动对家庭消费、奢侈品消费、餐饮消费的影响?
- 被双规的官员的特征(是否有某些决定性的因素决定了容易腐败?比如是否是副职,是否在某些特定部门(财税、建设、交通、还是。。。)是否有年龄效应(59岁),(找到一个影响最大的来研究)腐败的程度是否有差别?
- 中国政府官员的晋升决定因素
环境与健康
- 空气、水污染的原因:与交通、工业之间的关系
- 空气、水污染的治理与经济发展
- 空气、水污染对居民健康、劳动生产率、消费、幸福感等方面的影响
其实还有很多很多的问题都可以做,上面只是我暂时想到的一些题目,特点是一般都有相应的数据支持,有一定的文献积累。也特别欢迎你们想一些自己感兴趣的题目,我相信:“兴趣永远是最好的老师”。希望大家都能认真准备,最后能给我一些惊喜!
附件B:重要微观数据库简要汇总
1. 住户调查
中国家庭收入调查:China Household Income Project Survey(CHIPs)
- 负责机构:北京师范大学中国收入分配研究院
- 数据结构:多年截面数据
- 年份:1988、1995、1999、2002、2007、2008、2013
- 覆盖范围:城市、农村和城乡移民家庭(2002年开始)
- 主要变量:1)个人:基本状况、工作信息和收入等;2)家庭:收入、消费、资产和居住情况等。3)社区(村庄)层面信息。
中国家庭追踪调查: China Family Panel Survey(CFPS)
- 负责机构:北京大学中国社科调查中心
- 数据结构:多年面板数据
- 年份:2010、2012、2014和2016
- 覆盖范围:城市和农村
- 主要变量:1)个人:基本状况、工作、收入、健康等信息;2)家庭:收入、消费、资产和居住情况等;3)社区信息
中国健康养老追踪调查:China Health and Retirement Longitudinal Study
- 负责机构:北京大学中国经济研究中心
- 数据结构:多年面板数据
- 年份:2011、2013、2014和2015
- 覆盖范围:城市和农村有45岁以上老人的家庭
- 主要变量:非常详细的个人和家庭的信息包括很详细的个人健康信息
中国-印尼城乡移民调查:Rural to Urban Migration in China(RUMiC)
- 负责机构:澳大利亚国立大学、IZA和北京师范大学(现已经更换为暨南大学)
- 数据结构:多年面板数据
- 年份:2008-2017(目前可获取的只有2008-2009)
- 覆盖范围:城市、农村和城乡移民
- 主要变量:1)个人:基本状况、工作信息和收入等;2)家庭:收入、消费、资产和居住情况等
中国社会综合调查: China General Social Survey(CGSS)
- 负责机构:中国人民大学中国调查与数据中心
- 数据结构:多年截面数据
- 年份:2003、2005、2006、2008、2010、2011、2012、2013
- 覆盖范围:城市和农村
- 主要变量:1)个人:基本状况、工作和收入等信息之外,主要收集了价值观(包涵对很多社会问题的态度和观点等)2)家庭结构和状况等信息,3)社区信息
中国劳动力动态调查(CLDS)
中国健康与营养调查(CHNS)
中国家庭金融调查(CHFS)
中国基础教育追踪调查(CEPS)
甘肃基础教育调查
中国城镇住户调查(UHS)
农业部固定观察点农户调查
流动人口动态监测数据
贫困人口动态监测数据
2. 企业调查
中国工业企业数据库
中国海关进出口数据
上市公司数据(万德/国泰君安数据库)
3. 各级各类统计年鉴
县级统计年鉴
城市统计年鉴
各省统计年鉴
4. 其他网络大数据
环境数据(环保部:空气、水和土壤)
各级各类官员数据(省、市和县)
豆瓣、猫眼和易恩网电影数据
体育网站的体育赛事数据
房地产数据(链家)
国土利用数据(国土部遥感数据)
灯光数据(NASA)
京东、天猫、亚马逊和淘宝
携程等机票、宾馆价格数据