Skip to the content.
SyntheticData
Chinese tutorials on synthetic data
View on GitHub
SyntheticData
合成数据的需求
Lean合成
Lean Workbook:大规模的自然语言数学形式化
Lean Reasoner:使用Lean提高复杂推理能力
Lean Automation:自动形式化
基于Putnam 数学竞赛的神经定理证明器评测集
TheoremLlama: 端到端的通用LLM训练为lean4专家框架
lean github: 几乎穷github中的lean仓库的数据集
其他合成数据
通过检索和转换现有数据集获得更好的合成数据
RLHF Data
搬运自
Intel tech
:
使用表格数据prompt改进RAG和LLM
四种清洗数据的方式
优化向量数据库
数据灌注
DeepMind Alpha系列
奥林匹克几何求解
LLM+神经算法推理器
Agent数据管线
使用十亿个Agent合成数据
DataDreamer 一套Python LLM数据管线框架