

大数据时代的到来为CPI的预测带来了前所未有机遇和挑战,充分利用高维数据信息, 发展可解释的机器学习预测模型,对于理论发展和现实实践均具有重要意义。为此,本研究构建了包含9个类别239个变量的中国月度宏观经济数据库,并对比了包含传统时间序列模型、正则化回归、因子模型和集成算法等在内的13个模型在大型数据集下对CPI的预测能力。进一步地,基于控制变量的思想构建了机器学习衍生算法,对相关的结果进行解释和机制分析。结果表明,随机森林和XGBoost具有良好的预测效果,尤其是在中长期预测中表现出了较大优势。通过进一步的分析发现它们的优势在于非线性的模型设定和非稀疏的变量处理,前者使得模型中的变量关系更加符合实际,而后者能够充分地利用大数据信息。同时,这两个模型也筛选出了自回归项、价格、就业等在CPI预测中更加合理且重要的变量类别。


范馨月,数量经济学博士,上海市晨光学者。现任上海财经大学经济学院讲师,研究方向为宏观计量经济学,文本分析,宏观经济监测预测,大数据建模方法及应用。近年来在International Journal of Forecasting、Journal of Forecasting、《经济研究》《世界经济》《管理科学学报》等重要刊物上发表多篇论文;主持上海市晨光计划项目,上海市人工智能促进科研范式改革、赋能学科跃升计划项目,教育部数理经济学实验室开放项目,作为核心成员参与教育部人文社会科学重点研究基地重大项目、国家社会科学基金重大项目、国家自然科学基金面上项目、全国统计科学研究重点项目等重要课题。
供稿、供图 | 范馨月
编辑 | 杜雨晴
审核 | 燕红忠








