文本分析专题 | 顶刊如何用大型语言模型LLM构建新指标?(附论文与代码库链接)

文本分析专题 | 顶刊如何用大型语言模型LLM构建新指标?(附论文与代码库链接)
我是@coool,一个计算社会科学领域的探索者。在这里,我将分享相关的前沿动态与硬核工具。终日乾乾,乐学不倦,期待与您一同在这个新兴交叉领域持续精进!

导语:大模型重塑文本研究,洞察社会科学新前沿。

要点速读
核心能力:LLMs正从分类预测走向零样本推理、文本嵌入预测和结构化信息提取,为研究开启新维度。
货币政策:利用 RoBERTa 等模型对央行文件进行“鹰鸽”立场分类,为市场情绪分析提供了即用型量化工具。
企业创新:利用 ChatGPT 的文本嵌入将专利文本向量化,以预测其未来的技术与商业价值,开创了衡量无形资产的新方法。
ESG 分析:通过提示工程 (Prompt Engineering),让 LLM 从可持续发展报告中自动提取关键量化与定性指标,实现非结构化数据到结构化数据的转化。
引言:当大语言模型(LLM)遇见社会科学研究
近年来,以GPT为代表的大型语言模型(LLM) 正以前所未有的深度和广度重塑 “文本即数据”(Text-as-Data) 的研究范式。它们超越了传统模型在特定任务上的分类和预测能力,展现出强大的零样本(zero-shot)推理、复杂指令遵循和结构化信息提取能力。这为社会科学研究者打开了全新的大门,使得量化和分析以往难以企及的复杂概念成为可能。

由于顶级期刊的审稿周期通常较长,目前许多最前沿的LLM应用研究正以工作论文(Working Paper)的形式在学术圈内流传。本文精选了近两年内最具代表性的几篇论文,它们提供了详实的方法论和高质量的开源代码,是学习和借鉴的绝佳范本。

1. 货币政策解读:用LLM量化央行的“鹰鸽”立场
在金融领域,精确解读中央银行的政策意图至关重要。这篇发表于顶级NLP会议ACL 2023的论文,是使用大型语言模型解决金融文本分析任务的典范之作。

论文标题: Trillion Dollar Words: A New Financial Dataset, Task & Market Analysis

核心问题: 如何精确、自动地对**美联储(FOMC)的官方沟通文件进行“鹰派”(Hawkish)或“鸽派”(Dovish)**的立场分类?

LLM应用:

该研究系统性地测试了多种预训练语言模型,最终发现 RoBERTa-large(一种基于BERT架构的大型模型)在“鹰鸽”分类任务上表现最佳。
他们将微调后的最佳模型 FOMC-RoBERTa 公开发布,使其成为一个即插即用的工具。
代码与数据:

论文(ACL Anthology):https://aclanthology.org/2023.acl-long.368/
论文(PDF):https://aclanthology.org/2023.acl-long.368.pdf
arXiv:https://arxiv.org/abs/2305.07972
GitHub:https://github.com/gtfintechlab/fomc-hawkish-dovish
Hugging Face 模型:https://huggingface.co/gtfintechlab/FOMC-RoBERTa
Hugging Face 数据集:https://huggingface.co/datasets/gtfintechlab/fomc_communication
学习价值: 极高。该项目提供了从数据标注、模型训练到市场分析的完整代码和数据集,是学习如何将LLM应用于金融分类任务的黄金标准范例。

2. 企业创新评估:用ChatGPT预测专利的未来价值
衡量创新的“价值”一直是经济学研究的难点。这篇前沿的工作论文展示了如何利用ChatGPT的文本嵌入能力,提前预测专利的商业和技术价值。

论文标题: Predicting Patent Value: An Ex-Ante Analysis Using ChatGPT
(作者公开版本常用标题:Predictive Patentomics: Forecasting Innovation Success and Valuation with ChatGPT)

核心问题: 能否在专利被授予之初,仅通过其申请文本就预测它未来的价值(如被引用次数、市场反应)?

LLM应用:

研究者利用 ChatGPT 的文本嵌入(text embedding)功能,将每一份专利申请的摘要和描述转化为一个高维度的数字向量。
该向量捕捉了专利文本中复杂的语义信息,随后被用作核心特征输入到深度学习/神经网络,来预测专利未来的价值。
代码与数据:

arXiv:https://arxiv.org/abs/2307.01202
ECGI 工作稿 PDF:https://www.ecgi.global/sites/default/files/Paper%3A%20Predictive%20Patentomics%3A%20Forecasting%20Innovation%20Success%20and%20Valuation%20with%20ChatGPT.pdf
学习价值: 高。这篇论文开创性地将生成式LLM的表示学习能力应用于经济学预测任务。它告诉我们,LLM不仅能“读懂”文本,还能将这种理解转化为有预测能力的量化指标,为衡量创新等无形资产提供了强大的新工具。

3. ESG评级分析:用LLM从可持续发展报告中提取结构化数据
ESG(环境、社会和治理)信息的非标准化和文本化给量化研究带来了巨大挑战。这篇研究提出了一种利用LLM自动提取和分析ESG信息的框架。

论文标题: Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models

核心问题: 如何从公司发布的、高度非结构化的ESG报告中,自动、准确地提取关键的量化指标和定性信息?

LLM应用:

研究者设计了一套提示工程(Prompt Engineering) 与 检索增强(RAG) 相结合的方案。
使用 LLM 进行零样本信息提取:通过向模型提出结构化提问(例如,“该公司报告的范围1温室气体排放量是多少?”),让模型直接从报告文本中“阅读”并返回答案。
代码与数据(仅放网址):

期刊版(EPJ Data Science,2024):https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-024-00481-2
预印本(arXiv):https://arxiv.org/abs/2310.05628
期刊增补材料/数据入口:https://springernature.figshare.com/(检索论文题目可见补充文件)
学习价值: 高。该研究展示了LLM在“非结构化转结构化”任务上的强大能力。对于需要从财报、招股书或新闻中提取特定信息的研究而言,这种方法具有很强的可迁移性。

4. 供应链风险管理:用LLM构建企业级供应链风险指标
论文标题:Digital innovation and supply chain risk: A large language model-based analysis(Pacific-Basin Finance Journal, 2025)

核心问题:能否基于企业文本信息,用 LLM 构建企业层面供应链风险暴露指标,并检验数字化创新是否降低该风险及其作用机制?

LLM应用:

基于 LLM 的事件/关系抽取与文本表征,构建公司级的供应链风险度量;结合工具变量与多种稳健性设计进行验证。
结果显示:数字化创新水平高的公司供应链风险显著更低;在地理跨度大、运营复杂、海外业务多、合作关系更短等场景更显著。
论文与资料(仅放网址):

期刊主页(ScienceDirect):https://www.sciencedirect.com/science/article/abs/pii/S0927538X25001362
RePEc 条目(含摘要与DOI):https://ideas.repec.org/a/eee/pacfin/v92y2025ics0927538x25001362.html
机构页面/学者主页收录:https://scholars.cityu.edu.hk/en/publications/digital-innovation-and-supply-chain-risk%28c169b96a-3b41-40d4-a883-811ebfefbcf6%29.html
学习价值:中-高。展示了从企业文本出发、用 LLM 抽取—度量—验证—机制的闭环流程,便于迁移至财报风险、地缘政治暴露等任务。若追求完整开源代码,可先以第1条 FOMC 项目为“端到端模板”,再迁移到供应链文本域。

结论:研究者的机遇与挑战
大型语言模型正在开启经验研究的新篇章。 对于计算社会科学领域的学者而言,当前最大的机遇在于识别尚未被充分挖掘的、信息含量丰富的文本数据源,并创造性地应用LLM来回答领域内的核心问题。

上述论文及其代码库为我们提供了宝贵的起点。它们清晰地展示了从提出一个经济学问题,到获取文本数据,再到应用LLM构建指标并进行实证检验的完整研究路径。掌握这些工具和方法,将是未来进行高质量文本分析研究的关键。

从“关系图谱”到“计算范式”:计算社会科学简史

文本分析专题 | BERT 实操:三问三答(概览 + 极简 Demo)

文本分析专题 | 大型语言模型 LLM:三问三答

三连一下,不失联!

点赞

发表回复

电子邮件地址不会被公开。必填项已用 * 标注