No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks

免责声明

本资料库及其内容仅用于学术和教育目的。所有资料均不构成金融、法律或投资建议。不对内容的准确性、完整性或实用性提供任何明示或暗示的保证。作者和撰稿人不对任何错误、遗漏或因使用本网站信息而产生的任何后果负责。用户在做出任何财务、法律或投资决定之前，应自行判断并咨询专业人士。使用本资料库所含软件和信息的风险完全由用户自行承担。

使用或访问本资源库中的信息，即表示您同意对作者、撰稿人以及任何附属组织或个人的任何及所有索赔或损害进行赔偿、为其辩护并使其免受损害。

新闻

📢 更新 (Date: 2024/03/12)

🐹 我们很高兴与大家分享我们的论文, "No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks".

概述

ICE-PIXIU 是我们推出的一个综合框架，包含首个跨语言双语金融指令数据集ICE-FIND、大语言模型 ICE-INTENT 和评估基准 ICE-FLARE。ICE-PIXIU 结合了各种中文分类、抽取、推理和预测的金融 NLP 任务，增强了训练和性能，从而弥补了中文金融 NLP 的不足。同时集成了一系列翻译和原始英文数据集，丰富了双语金融建模的广度和深度。它提供了对各种模型变体的不受限制的访问、大量不同的跨语言和多模式指令数据的汇编，以及带有专家注释的评估基准，包括 10 个 NLP 任务和 20 个双语特定任务。我们的全面评估强调了结合这些双语数据集的优势，尤其是在翻译任务和利用原始英语数据方面，从而提高了金融语境中的语言灵活性和分析敏锐性。

主要特征

双语能力: ICE-INTENT 是 ICE-PIXIU 的一个组成部分，具有出色的中英双语能力，这对全球金融数据处理和分析至关重要。
多样化数据: ICE-PIXIU 结合了各种中文分类、提取、推理和预测 NLP 任务，加强了训练和性能，从而弥补了中文金融 NLP 的不足。
专家级提示: ICE-PIXIU 提供了一套多样化、高质量、经专家注释的提示，并采用了类似的微调说明，以增强对金融任务的理解。
多语言: ICE-PIXIU 通过纳入翻译任务和英语数据集来扩展其功能，从而加强其双语训练和应用。
跨语言评估: ICE-PIXIU 引入了 ICE-FLARE，这是一种严格的跨语言评估基准，可确保模型在不同语言环境中表现一致。
开放性: ICE-PIXIU 采用开放式访问方法，向研究社区提供资源，促进金融 NLP 的协同发展。

ICE-FIND: 中英跨语言指令数据

ICE-PIXIU(貔貅）以其独特的数据类型、金融任务以及中英文双语领域的数据源，为不同用户群提供各种金融场景下的服务。

描述 ICE-PIXIU 在不同语言能力、数据类型、金融 NLP 任务、特定金融任务和数据集上的分布旭日图

评测数据
我们所有的评测数据集合可以在这里找到。

数据集（Evaluation Test）

Sentiment Analysis(FinSA)

Semantic Matching(FinSM)

News Classification(FinNS)

Negative Judgment(FinNJ)

ICE-FLARE (zh-NSP)

Answer Selection(FinAS)

ICE-FLARE (zh-FinEvalF)

Relationship Extraction(FinRE)

ICE-FLARE (zh-RE)

Headline Classification(FinHC)

Credit Classification(FinCC)

Hawkish-dovish Classification(FinDC)

ICE-FLARE (en-FOMC)

Event Detection(FinED)

Entity Recognition(FinER)

Question Answering(FinQA)

Stock Prediction(FinSF)

Text Summarization(FinTS)

数据总表：中英文双语多任务金融教学和评估原始数据的详细信息包括语言能力（Lang）、数据类型（D_T）、NLP 任务（NLP_T）、特定任务（S_T）、数据集名称、指令数据大小、评估数据大小、数据源和许可证信息。

Lang	D_T	NLP_T	S_T	Dataset	Raw	Instruction	Evaluation	Data Source	License
ZH	DLC	ZH-CLS	FinSA	FE	18,177	18,177	2,020	social texts	Public
			FinSA	StockB	9,812	9,812	1,962	social texts	Apache-2.0
			FinSM	BQC	120,000	110,000	10,000	bank service logs	Public
			FinSM	AFQMC	38,650	38,650	4,316	online chat service	Apache-2.0
			FinNC	NL	7,955	7,955	884	news articles	Public
			FinNC	NL2	7,955	7,955	884	news articles	Public
			FinNJ	NSP	4,499	4,499	500	social texts	Public
			FinAS	FinevalF	1,115	1,115	222	financial exam	Apache-2.0
			FinRE	RE	14,973	14,973	1,489	news, entity pairs	Public
		ZH-PRE	FinSP	StockA	14,769	14,769	1,477	news, historical prices	Public
	DLE	ZH-EXT	FinQA	QA	22,375	22,375	2,469	QA pairs of news	Public
			FinER	CNER	1,685	1,685	337	financial reports	Public
			FinED	19CCKS	156,834	14,674	2,936	social texts	CC BY-SA 4.0
				20CCKS	372,810	45,796	9,159	news, reports	CC BY-SA 4.0
				21CCKS	8,000	7,000	1,400	news, reports	CC BY-SA 4.0
				22CCKS	109,555	59,143	11,829	news, reports	CC BY-SA 4.0
		ZH-GEN	FinTS	NA	32,400	32,400	3,600	news, announcements	Public
	DTT	ZH-TRA	FinSA	CFPB	4,845	4,838	970	economic news	MIT license
			FinSA	CFiQA-SA	1,173	1,143	233	news headlines, tweets	MIT license
			FinSP	CACL	27,056	2,555	511	tweets, historical prices	MIT license
				CBigdata	7,167	798	159	tweets, historical prices	MIT license
				CCIKM	4,970	431	86	tweets, historical prices	MIT license
			FinHC	CHeadlines	102,708	10,256	2,051	news headlines	MIT license
			FinQA	CEnQA	8,281	668	133	earnings reports	MIT license
			FinQA	CConvFinQA	12,594	1,189	237	earnings reports	MIT license
EN	DTE	EN-CLS	FinSA	FPB	4,845	4,845	970	economic news	CC BY-SA 3.0
			FinSA	FiQA-SA	1,173	1,173	235	news headlines, tweets	Public
			FinHC	Headlines	11,412	102,708	20,547	news headlines	CC BY-SA 3.0
			FinCC	German	1,000	1,000	200	credit records	CC BY-SA 4.0
			FinCC	Australian	690	690	139	credit records	CC BY-SA 4.0
		EN-PRE	FinSP	ACL18	27,053	27,053	3,720	tweets, historical prices	MIT License
				BigData22	7,164	7,164	1,472	tweets, historical prices	Public
				CIKM18	4,967	4,967	1,143	tweets, historical prices	Public
		EN-EXT	FinER	NER	609	609	98	financial agreements	CC BY-SA-3.0
		EN-REA	FinQA	EnQA	8,281	8,281	1,147	earnings reports	MIT License
		EN-REA	FinQA	ConvFinQA	3,458	12,594	1,490	earnings reports	MIT License
	DOF	EN-DOF	FinER	Finer-Ord	1,075	-	1,075	news articles	CC BY-SA 4.0
			FinTS	ECTSUM	495	-	495	earning call transcripts	Public
			FinTS	EDTSUM	2,000	-	2,000	news articles	Public
			FinDC	FOMC	496	-	496	FOMC transcripts	CC BY-SA 4.0

ICE-INTERN: 中英文跨语言金融大模型

在微调过程中，我们采用了QLoRA，这是一种高效的参数调整技术，使用统一的2048标记序列长度。微调过程使用了AdamW优化器，初始学习率为5e-5，权重衰减为1e-5，另外还进行了1%的总步数预热。所有模型在八块A100 40GB GPU上批量为24进行了一轮的微调，使用了一致的超参数设置。

ICE-FLARE: 中英文跨语言金融评估基准

为了与其他通用大模型（包括 Baichuan、ChatGPT、Qwen 等）和金融大模型进行对比分析，我们选择了一系列任务和指标，涵盖了金融自然语言处理和金融预测的各个方面。

任务

Data	Task	Raw	Data Types	Modalities	License	Paper
AFQMC	语义匹配	38,650	提问数据, 对话	文本	Apache-2.0	[1]
corpus	语义匹配	120,000	提问数据, 对话	文本	Public	[2]
stockA	股票分类	14,769	新闻, 历史价格	文本, 时间序列	Public	[3]
Fineval	多项选择	1,115	金融考试	文本	Apache-2.0	[4]
NL	新闻分类	7,955	新闻报道	文本	Public	[5]
NL2	新闻分类	7,955	新闻报道	文本	Public	[5]
NSP	负面新闻判断	4,499	新闻、社交媒体文本	文本	Public	[5]
RE	关系识别	14,973	新闻、实体对	文本	Public	[5]
FE	情感分析	18,177	金融社交媒体文本	文本	Public	[5]
stockB	情感分析	9,812	金融社交媒体文本	文本	Apache-2.0	[6]
QA	金融问答	22,375	财经新闻公告	文本, 表格	Public	[5]
NA	文本摘要	32,400	新闻文章、公告	文本	Public	[5]
19CCKS	事件主体提取	156,834	新闻报道	文本	CC BY-SA 4.0	[7]
20CCKS	事件主体提取	372,810	新闻报道	文本	CC BY-SA 4.0	[8]
21CCKS	事件因果关系抽取	8,000	新闻报道	文本	CC BY-SA 4.0	[9]
22CCKS	事件主体提取	109,555	新闻报道	文本	CC BY-SA 4.0	[10]
CNER	命名实体识别	1,685	新闻报道	文本	Public	[11]
CFPB	情感分析	4,845	新闻	文本	MIT license	[12]
CFIQASA	情感分析	1,173	新闻头条、推文	文本	MIT license	[12]
CHeadlines	新闻标题分类	11,412	新闻头条	文本	MIT license	[12]
CBigData	股票走势预测	7,164	推文、历史价格	文本, 时间序列	MIT license	[12]
CACL	股票走势预测	27,053	推文、历史价格	文本, 时间序列	MIT license	[12]
CCIKM	股票走势预测	4,967	推文、历史价格	文本, 时间序列	MIT license	[12]
CFinQA	金融问答	14,900	收益报告	文本, 表格	MIT license	[12]
CConvFinQA	多轮问答	48,364	收益报告	文本, 表格	MIT license	[12]

Xu L, Hu H, Zhang X, et al. CLUE: A Chinese language understanding evaluation benchmark[J]. arXiv preprint arXiv:2004.05986, 2020.
Jing Chen, Qingcai Chen, Xin Liu, Haijun Yang, Daohe Lu, and Buzhou Tang. 2018. The BQ Corpus: A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 4946–4951, Brussels, Belgium. Association for Computational Linguistics.
Jinan Zou, Haiyao Cao, Lingqiao Liu, Yuhao Lin, Ehsan Abbasnejad, and Javen Qinfeng Shi. 2022. Astock: A New Dataset and Automated Stock Trading based on Stock-specific News Analyzing Model. In Proceedings of the Fourth Workshop on Financial Technology and Natural Language Processing (FinNLP), pages 178–186, Abu Dhabi, United Arab Emirates (Hybrid). Association for Computational Linguistics.
Zhang L, Cai W, Liu Z, et al. FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models[J]. arxiv preprint arxiv:2308.09975, 2023.
Lu D, Liang J, Xu Y, et al. BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark[J]. arxiv preprint arxiv:2302.09432, 2023.
https://huggingface.co/datasets/kuroneko5943/stock11
https://www.biendata.xyz/competition/ccks_2019_4/
https://www.biendata.xyz/competition/ccks_2020_4_1/
https://www.biendata.xyz/competition/ccks_2021_task6_2/
https://www.biendata.xyz/competition/ccks2022_eventext/
Jia C, Shi Y, Yang Q, et al. Entity enhanced BERT pre-training for Chinese NER[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 6384-6396.
Xie Q, Han W, Zhang X, et al. PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance[J]. arXiv preprint arXiv:2306.05443, 2023.

基准评估环境部署

本地安装

git clone https://github.com/chancefocus/PIXIU.git --recursive
cd PIXIU
pip install -r requirements.txt
cd PIXIU/src/financial-evaluation
pip install -e .[multilingual]

Docker 镜像

sudo bash scripts/docker_run.sh

以上命令会启动一个 docker 容器，你可以根据自己的环境修改 docker_run.sh。我们通过运行 sudo docker pull tothemoon/pixiu:latest 来提供预编译镜像。

docker run --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \
    --network host \
    --env https_proxy=$https_proxy \
    --env http_proxy=$http_proxy \
    --env all_proxy=$all_proxy \
    --env HF_HOME=$hf_home \
    -it [--rm] \
    --name pixiu \
    -v $pixiu_path:$pixiu_path \
    -v $hf_home:$hf_home \
    -v $ssh_pub_key:/root/.ssh/authorized_keys \
    -w $workdir \
    $docker_user/pixiu:$tag \
    [--sshd_port 2201 --cmd "echo 'Hello, world!' && /bin/bash"]

参数说明:

[] 表示可忽略的参数
HF_HOME: huggingface 缓存目录
sshd_port: 容器的 sshd 端口，可以运行 ssh -i private_key -p $sshd_port root@$ip 来连接容器，默认为 22001
--rm: 退出容器时移除容器（即 CTRL + D）

自动化任务评估

在评估前, 请下载 punto de control BART 到 src/metrics/BARTScore/bart_score.pth.

如需进行自动评估，请按照以下说明操作：

Transformador Huggingface

要评估 HuggingFace Hub 上托管的模型（例如，ICE-INTERN-Full-7B），请使用此命令：

python eval.py \
    --model "hf-causal-llama" \
    --model_args "use_accelerate=True,pretrained=chancefocus/finma-7b-full,tokenizer=chancefocus/finma-7b-full,use_fast=False" \
    --tasks "flare_ner,flare_sm_acl,flare_fpb"

更多详情，请参阅 lm_eval 文档。

商用接口

请注意，对于 NER 等任务，自动评估是基于特定模式进行的。这可能无法提取零镜头设置中的相关信息，导致性能相对低于之前的人工标注结果。

export OPENAI_API_SECRET_KEY=YOUR_KEY_HERE
python eval.py \
    --model gpt-4 \
    --tasks flare_zh_fe,flare_cner,flare_sm_acl

3.自托管评估

要运行推理后端，请执行以下操作：

bash scripts/run_interface.sh

注意，请根据您的环境要求调整run_interface.sh。

预定义任务指标

Task	Metric	Illustration
分类	Accuracy	该指标表示正确预测的观测数据与总观测数据的比率。计算公式为（正确预测结果 + 错误预测结果）/总观测数据
分类	F1 Score	F1 分数代表精确度和召回率的调和平均值，从而在这两个因素之间达成平衡。事实证明，在一个因素比另一个因素更重要的情况下，它特别有用。分数范围从 0 到 1，1 表示精确度和召回率均为满分，0 表示最差情况。此外，我们还提供了 F1 分数的 "加权 "和 "宏观 "版本。
分类	Missing Ratio	此指标计算任务中给定选项中未返回任何选项的响应比例。
分类	Matthews Correlation Coefficient (MCC)	MCC 是一种评估二元分类质量的指标，其得分范围从 -1 到 +1 不等。得分 +1 表示完美预测，0 表示预测结果不优于随机概率，-1 表示预测结果完全相反。
序列标记	F1 score	在 "顺序标签 "任务中，我们使用了由 "seqeval "库计算的 F1 分数，这是一个强大的实体级评估指标。该指标要求预测实体和地面实况实体之间的实体跨度和类型完全匹配，以获得正确的评价。真阳性（TP）表示预测正确的实体，假阳性（FP）表示预测错误的实体或跨度/类型不匹配的实体，假阴性（FN）表示从地面实况中遗漏的实体。然后利用这些数量计算精确度、召回率和 F1 分数，其中 F1 分数代表精确度和召回率的调和平均值。
序列标记	Label F1 score	该指标仅根据预测标签的正确性来评估模型性能，而不考虑实体跨度。
关系抽取	Precision	精度衡量正确预测的关系在所有预测关系中的比例。它的计算方法是真阳性（TP）数除以真阳性和假阳性（FP）的总和。
关系抽取	Recall	召回率衡量的是在所有实际关系中正确预测关系的比例。它的计算方法是真阳性（TP）的数量除以真阳性和假阴性（FN）的总和。
关系抽取	F1 score	F1 分数是精确度和召回率的调和平均值，它能在这两个指标之间取得平衡。F1 分数在 1（精确度和召回率均为满分）时最佳，在 0 时最差。
提取和抽象总结	Rouge-L	该指标评估系统与参考摘要之间的最长共同子序列（LCS）。LCS 自然考虑到了句子级结构的相似性，并自动识别最长的共现同序 n-gram。
提取和抽象总结	Rouge-N	它测量的是系统生成的摘要与参考摘要之间 N 个词组（给定文本样本中 N 个项目的连续序列）的重叠度。N "可以是 1、2 或更多，ROUGE-1 和 ROUGE-2 通常分别用于评估单语法重叠和大语法重叠。
问答	EmACC	EMACC 对模型生成的答案与参考答案之间的精确匹配进行评估。换句话说，只有当模型生成的答案与参考答案一字不差地完全匹配时，模型生成的答案才被认为是正确的。

部分任务输入输出示例

在问题解答（FinQA）、文本摘要（FinTS）、关系提取（FinRE）、事件检测（FinED）、实体识别（FinER）和新闻分类（FinNC）等特定金融任务中，各种 LLM 的输入和响应示例。

Task	Query	Baichuan-7B	GPT-4	ICE-INTERN-full-7B
FinQA	浦东建设公告，公司子公司上海市浦东新区建设（集团）有限公司、上海浦兴路桥建设工程有限公司中标多项重大工程项目，中标金额总计为10.94亿元。请问中标事件对应的主体有哪些?	浦东建设、浦兴路桥、浦东建设(集团)	中标事件对应的主体有上海市浦东新区建设（集团）有限公司	上海市浦东新区建设（集团）有限公司,上海浦兴路桥建设工程有限公司
FinTS	市场普遍预期日本央行将维持其超宽松货币政策不变，但知情人士表示，周二将公布的经济展望报告中，可能上调4月起财政年度的通胀预估。能源和原材料成本的上涨已将批发价格推高至40年来的最高水平，企业已开始将上涨的成本转嫁给消费者。近期通胀温和上升，主要是投入成本上升和日元疲软推动的，而不是强劲的国内需求。日本央行行长黑田东彦曾表示，物价上涨应该伴随着工资的强劲增长。请对上述金融报道进行总结，给出具有中心主旨的摘要，回答要求尽量简短。	日本央行行长黑田东彦曾表示，物价上涨应该伴随着工资的强劲增长。	日本央行预计将上调4月起的通胀预估，尽管市场普遍预期货币政策将保持超宽松。成本上涨推高批发价格，企业已将涨成本转嫁给消费者，但通胀主要由投入成本上升和日元疲软推动，而非国内需求强劲。	知情人士：日本央行可能上调4月起财政年度的通胀预估。
FinRE	新希望集团销售额约为上市公司倍有余,由于背靠农业帝国“希望系”, 资本市场一直预期集团能够向新希望股份注入农业资产, 如果集团资产整合启动, 新希望股份的股。请分析上述涉及实体对(新希望股份,新希望集团)的关系。	被收购	被注资	自己
FinED	大智慧(601519)信披违规遭调查“互联网+”炒作或终结金鹰等多家基金公司高管离职基民担忧业绩波动。请分析上述金融报道中的事件类型及及其事件主体，并以‘事件类型，事件主体’的格式输出。	套现约1.5亿元	交易违规, 大智慧	信批违规, 大智慧
FinER	本公司非执行董事孙月英女士不再担任远洋海运集团有限公司总会计师和中远财务有限责任公司董事长。请给出上述金融报道中存在的个人(’PER’)、组织(’ORG’)或地点(’LOC’)的特定命名实体，回答应遵循的格式’实体名称, 实体类型’。**	**远洋海运集团有限公司，ORG	中远海运发展股份有限公司, ORG	孙月英, PER;**远洋海运集团有限公司, ORG;中远财务有限责任公司, ORG
FinNC	WTI原油涨幅回升至0.5%，现报75.58美元/桶。请对该金融报道进行分类，具体属于['**','外国','国际','公司','行业','大盘','经济','政策','政治','期货','债券','房地产','外汇','虚拟货币','新冠','能源']中的哪些类别？	~~输出与内容无关~~	国际,能源	国际期货

引用

如果您在项目中使用了ICE-PIXIU，请引用我们的文章。

许可证

ICE-PIXIU 采用 [MIT] 许可。有关详细信息，请参阅 MIT 文件。

yy0649 / ice-pixiu Goto Github PK

ice-pixiu's Introduction

No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks

新闻

概述

主要特征

ICE-FIND: 中英跨语言指令数据

ICE-PIXIU(貔貅）以其独特的数据类型、金融任务以及中英文双语领域的数据源，为不同用户群提供各种金融场景下的服务。

描述 ICE-PIXIU 在不同语言能力、数据类型、金融 NLP 任务、特定金融任务和数据集上的分布旭日图

ICE-INTERN: 中英文跨语言金融大模型

ICE-FLARE: 中英文跨语言金融评估基准

任务

基准评估环境部署

本地安装

Docker 镜像

自动化任务评估

预定义任务指标

部分任务输入输出示例

引用

许可证

ice-pixiu's People

Contributors

Stargazers

Watchers

Recommend Projects

Recommend Topics

Recommend Org