项目背景
在当今数据驱动的研究和应用环境中,数据科学与大模型的结合逐渐成为一个新兴领域。然而,现有的大语言模型虽然表现出强大的泛化能力,但并非专门针对数据科学领域定制,难以充分满足专业数据科学分析和数据处理的需求。为推动这一领域的发展,统计与数据科学研究院受上海财经大学统计与数据科学学院周帆副教授课题组委托,现发布研究助理招聘贴,诚邀对大语言模型感兴趣的同学参与科研项目。项目旨在探究数据科学领域大模型的开发路径,结合统计学理论和实际应用需求,创新地构建能够解决数据科学领域复杂任务的专业模型。本项目将推动统计学、数据科学与人工智能的学科交叉融合,开发出具有高度专业性的数据科学大模型,并积极探索其在学术研究和产业中的应用前景,为大模型在数据科学领域的创新应用开辟新的可能。
项目介绍
本项目的目标是探究大语言模型在掌握数据科学知识、评估能力,以及执行代码操作以解决实际问题等方面的表现,包含两个子项目:
1. 数据科学大模型评测基准
收集整理各类统计学和数据科学题目数据,开发合成数据引擎,构建评估大模型数据科学能力的基准,测试各类大语言模型的数据科学能力。
2. 数据科学大模型测试与调优
通过构建的数据科学大模型基准,以开源模型Deepseek为基准模型,对模型在统计学和数据科学领域的能力进行调优,开发出具有高度专业性的数据科学大模型。
招募对象
能够完成助研任务的上海财经大学在校本科生和硕士生。
工作内容
1.协助收集与数据科学相关的题目和数据集,涵盖各种数据科学问题和应用场景,为大模型的优化与评测构建全面的数据基础。
2. 对收集的数据进行筛选和清洗,去除噪声和冗余信息,确保数据的准确性与一致性,以提高后续分析和模型训练的效果。
3. 协助进行大模型数据科学能力的测试实验,记录分析大模型在数据科学知识掌握上的表现,为模型调优提供依据。
4. 协助进行大模型数据科学评测能力的实验,分析其对数据科学相关问题的回答评价能力,为改进评测效果提供反馈支持。
5. 运用数据可视化技术,将实验结果和测评反馈清晰呈现,帮助揭示数据中的模式与趋势,支持项目的进一步分析和优化。
6. 对数据科学相关数据进行分类、整理和集成,建立结构化、高质量的数据库。
独特的学术和职业发展机会
1. 参与前沿的数据科学大模型研究项目,深度学习大语言模型的评估和调优方法,积累相关领域的研究经验。
2. 提升数据处理能力,包括数据预处理、清洗和特征工程等关键技能,夯实数据科学基础。
3. 深入探索数据科学和机器学习方法在大模型评估与优化中的应用,提升模型理解和跨学科综合实践能力。
4. 紧跟大语言模型研究方向,积累高水平的研究成果,为毕业论文选题与研究提供充实的实践支持。
如何申请
有意向的同学,请将个人简历和个人陈述发送至2022213259@stu.sufe.edu.cn,邮件主题请注明“数据科学大语言模型项目助研申请”。
