SMP 2024大模型图分析挑战赛 - 比赛方案分享 - 飞桨AI Studio星河社区
比赛官网:SMP 2024大模型图分析挑战赛
以闭源大语言模型(GPT、Claude、Gemini等)为基础构建问答系统,让系统能够通过编写执行Python代码来回答用户提出的图分析相关的问题。
可以使用其他可公开访问的外部数据来增强模型,也可以使用向量数据库等技术。
本次比赛评估模型能力的赛题按照设计模型的能力不同,以及题目的难易程度,分为判断题、计算题、绘图题、综合题四种类型。
在初赛阶段,题目仅包含判断题和计算题。在复赛阶段,题目包括上述所有题型。
本次比赛的题目数据有两种类型,一种是在题目信息中对所需图数据进行描述,另一种则是将图数据保存在文件中。
本次比赛将提供一些数据集,具体包括:文档数据集:可以使用和拓展相关文档数据集,采用检索增强生成等技术,提高大语言模型在图相关任务上的表现。
文档数据集是从几个Python库的相关网站爬取并整理的数据集。 根据不同Python库的文档,分别整理出了6个json文档。
方案流程图:
每一个阶段都会生成中间文件,下一个阶段会对上一个阶段生成的中间文件进行解析,保证每一轮都可交付。
主要包括三个文件:
第一次跑的话需要安装一下项目依赖,还需要设置一下 utils.py 中的 API_SECRET_KEY 和 X-API-KEY。
In [1]
*# !pip install --user -r requirements.txt*
In [2]
*# !pip install karateclub==1.2.3# !pip install graspologic==3.3.0# !pip install pycombo==0.1.7*
In [3]
*# !pip install langchain*
接下来详细介绍一下我们的方案的主要步骤,我们以下面这道题目为例。
In [4]
import os
import json
from datetimeimport datetime
from utilsimport (
contains_file,
exe_command,
extract_error_line,
get_gpt,
get_question_type,
google_search,
init_dir,
make_graph_request,
summarize_webpage,
write_file,
)
USER_AGENT environment variable not set, consider setting it to identify your requests.
In [19]