Skip to the content.

SyntheticData

合成数据的需求

Lean合成

  1. Lean Workbook:大规模的自然语言数学形式化
  2. Lean Reasoner:使用Lean提高复杂推理能力
  3. Lean Automation:自动形式化
  4. 基于Putnam 数学竞赛的神经定理证明器评测集
  5. TheoremLlama: 端到端的通用LLM训练为lean4专家框架
  6. lean github: 几乎穷github中的lean仓库的数据集

其他合成数据

  1. 通过检索和转换现有数据集获得更好的合成数据

RLHF Data

搬运自Intel tech:

  1. 使用表格数据prompt改进RAG和LLM
  2. 四种清洗数据的方式
  3. 优化向量数据库

数据灌注

DeepMind Alpha系列

  1. 奥林匹克几何求解
  2. LLM+神经算法推理器

Agent数据管线

  1. 使用十亿个Agent合成数据
  2. DataDreamer 一套Python LLM数据管线框架