文本分析专题 | 顶刊如何用大型语言模型LLM构建新指标？（附论文与代码库链接）

2025年10月15日 0条评论 15次阅读 0人点赞 kasim

文本分析专题 | 顶刊如何用大型语言模型LLM构建新指标？（附论文与代码库链接）
我是@coool，一个计算社会科学领域的探索者。在这里，我将分享相关的前沿动态与硬核工具。终日乾乾，乐学不倦，期待与您一同在这个新兴交叉领域持续精进!

导语：大模型重塑文本研究，洞察社会科学新前沿。

要点速读
核心能力：LLMs正从分类预测走向零样本推理、文本嵌入预测和结构化信息提取，为研究开启新维度。
货币政策：利用 RoBERTa 等模型对央行文件进行“鹰鸽”立场分类，为市场情绪分析提供了即用型量化工具。
企业创新：利用 ChatGPT 的文本嵌入将专利文本向量化，以预测其未来的技术与商业价值，开创了衡量无形资产的新方法。
ESG 分析：通过提示工程 (Prompt Engineering)，让 LLM 从可持续发展报告中自动提取关键量化与定性指标，实现非结构化数据到结构化数据的转化。
引言：当大语言模型（LLM）遇见社会科学研究
近年来，以GPT为代表的大型语言模型（LLM）正以前所未有的深度和广度重塑 “文本即数据”（Text-as-Data）的研究范式。它们超越了传统模型在特定任务上的分类和预测能力，展现出强大的零样本（zero-shot）推理、复杂指令遵循和结构化信息提取能力。这为社会科学研究者打开了全新的大门，使得量化和分析以往难以企及的复杂概念成为可能。

由于顶级期刊的审稿周期通常较长，目前许多最前沿的LLM应用研究正以工作论文（Working Paper）的形式在学术圈内流传。本文精选了近两年内最具代表性的几篇论文，它们提供了详实的方法论和高质量的开源代码，是学习和借鉴的绝佳范本。

1. 货币政策解读：用LLM量化央行的“鹰鸽”立场
在金融领域，精确解读中央银行的政策意图至关重要。这篇发表于顶级NLP会议ACL 2023的论文，是使用大型语言模型解决金融文本分析任务的典范之作。

论文标题: Trillion Dollar Words: A New Financial Dataset, Task & Market Analysis

核心问题: 如何精确、自动地对**美联储（FOMC）的官方沟通文件进行“鹰派”（Hawkish）或“鸽派”（Dovish）**的立场分类？

LLM应用:

该研究系统性地测试了多种预训练语言模型，最终发现 RoBERTa-large（一种基于BERT架构的大型模型）在“鹰鸽”分类任务上表现最佳。
他们将微调后的最佳模型 FOMC-RoBERTa 公开发布，使其成为一个即插即用的工具。
代码与数据:

论文（ACL Anthology）：https://aclanthology.org/2023.acl-long.368/
论文（PDF）：https://aclanthology.org/2023.acl-long.368.pdf
arXiv：https://arxiv.org/abs/2305.07972
GitHub：https://github.com/gtfintechlab/fomc-hawkish-dovish
Hugging Face 模型：https://huggingface.co/gtfintechlab/FOMC-RoBERTa
Hugging Face 数据集：https://huggingface.co/datasets/gtfintechlab/fomc_communication
学习价值: 极高。该项目提供了从数据标注、模型训练到市场分析的完整代码和数据集，是学习如何将LLM应用于金融分类任务的黄金标准范例。

2. 企业创新评估：用ChatGPT预测专利的未来价值
衡量创新的“价值”一直是经济学研究的难点。这篇前沿的工作论文展示了如何利用ChatGPT的文本嵌入能力，提前预测专利的商业和技术价值。

论文标题: Predicting Patent Value: An Ex-Ante Analysis Using ChatGPT
（作者公开版本常用标题：Predictive Patentomics: Forecasting Innovation Success and Valuation with ChatGPT）

核心问题: 能否在专利被授予之初，仅通过其申请文本就预测它未来的价值（如被引用次数、市场反应）？

LLM应用:

研究者利用 ChatGPT 的文本嵌入（text embedding）功能，将每一份专利申请的摘要和描述转化为一个高维度的数字向量。
该向量捕捉了专利文本中复杂的语义信息，随后被用作核心特征输入到深度学习/神经网络，来预测专利未来的价值。
代码与数据:

arXiv：https://arxiv.org/abs/2307.01202
ECGI 工作稿 PDF：https://www.ecgi.global/sites/default/files/Paper%3A%20Predictive%20Patentomics%3A%20Forecasting%20Innovation%20Success%20and%20Valuation%20with%20ChatGPT.pdf
学习价值: 高。这篇论文开创性地将生成式LLM的表示学习能力应用于经济学预测任务。它告诉我们，LLM不仅能“读懂”文本，还能将这种理解转化为有预测能力的量化指标，为衡量创新等无形资产提供了强大的新工具。

3. ESG评级分析：用LLM从可持续发展报告中提取结构化数据
ESG（环境、社会和治理）信息的非标准化和文本化给量化研究带来了巨大挑战。这篇研究提出了一种利用LLM自动提取和分析ESG信息的框架。

论文标题: Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models

核心问题: 如何从公司发布的、高度非结构化的ESG报告中，自动、准确地提取关键的量化指标和定性信息？

LLM应用:

研究者设计了一套提示工程（Prompt Engineering）与检索增强（RAG）相结合的方案。
使用 LLM 进行零样本信息提取：通过向模型提出结构化提问（例如，“该公司报告的范围1温室气体排放量是多少？”），让模型直接从报告文本中“阅读”并返回答案。
代码与数据（仅放网址）:

期刊版（EPJ Data Science，2024）：https://epjdatascience.springeropen.com/articles/10.1140/epjds/s13688-024-00481-2
预印本（arXiv）：https://arxiv.org/abs/2310.05628
期刊增补材料/数据入口：https://springernature.figshare.com/（检索论文题目可见补充文件）
学习价值: 高。该研究展示了LLM在“非结构化转结构化”任务上的强大能力。对于需要从财报、招股书或新闻中提取特定信息的研究而言，这种方法具有很强的可迁移性。

4. 供应链风险管理：用LLM构建企业级供应链风险指标
论文标题：Digital innovation and supply chain risk: A large language model-based analysis（Pacific-Basin Finance Journal, 2025）

核心问题：能否基于企业文本信息，用 LLM 构建企业层面供应链风险暴露指标，并检验数字化创新是否降低该风险及其作用机制？

LLM应用：

基于 LLM 的事件/关系抽取与文本表征，构建公司级的供应链风险度量；结合工具变量与多种稳健性设计进行验证。
结果显示：数字化创新水平高的公司供应链风险显著更低；在地理跨度大、运营复杂、海外业务多、合作关系更短等场景更显著。
论文与资料（仅放网址）：

期刊主页（ScienceDirect）：https://www.sciencedirect.com/science/article/abs/pii/S0927538X25001362
RePEc 条目（含摘要与DOI）：https://ideas.repec.org/a/eee/pacfin/v92y2025ics0927538x25001362.html
机构页面/学者主页收录：https://scholars.cityu.edu.hk/en/publications/digital-innovation-and-supply-chain-risk%28c169b96a-3b41-40d4-a883-811ebfefbcf6%29.html
学习价值：中-高。展示了从企业文本出发、用 LLM 抽取—度量—验证—机制的闭环流程，便于迁移至财报风险、地缘政治暴露等任务。若追求完整开源代码，可先以第1条 FOMC 项目为“端到端模板”，再迁移到供应链文本域。

结论：研究者的机遇与挑战
大型语言模型正在开启经验研究的新篇章。对于计算社会科学领域的学者而言，当前最大的机遇在于识别尚未被充分挖掘的、信息含量丰富的文本数据源，并创造性地应用LLM来回答领域内的核心问题。

上述论文及其代码库为我们提供了宝贵的起点。它们清晰地展示了从提出一个经济学问题，到获取文本数据，再到应用LLM构建指标并进行实证检验的完整研究路径。掌握这些工具和方法，将是未来进行高质量文本分析研究的关键。

从“关系图谱”到“计算范式”：计算社会科学简史

文本分析专题 | BERT 实操：三问三答（概览 + 极简 Demo）

文本分析专题 | 大型语言模型 LLM：三问三答

三连一下，不失联！

旅蛙小屋

文本分析专题 | 顶刊如何用大型语言模型LLM构建新指标？（附论文与代码库链接）

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复

旅蛙小屋

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

发表回复 取消回复

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复