https://arxiv.org/abs/2201.11903https://arxiv.org/abs/2210.03629
https://arxiv.org/abs/2303.11366
https://arxiv.org/abs/2305.10601LLM-based agent 玩《我的世界》的 demohttps://arxiv.org/abs/2305.16291探索 finetune 在 tool use 场景下的提升https://arxiv.org/abs/2307.16789LLM-based agent 控制手机屏幕完成任务https://arxiv.org/abs/2312.08914《InstructRetro:检索增强预训练后的指令调优》这篇论文介绍了使用检索增强预训练的大型语言模型(LLM),通过利用外部数据库,提高了困惑度和事实准确性。https://arxiv.org/abs/2310.07713这篇论文介绍了检索增强语言模型(RALM),它可以通过外部数据存储获取长尾和最新知识来提高语言模型的表现。https://arxiv.org/abs/2310.01352《Retrieval-Augmented Generation for Large Language Models: A Survey》这篇论文是关于 RAG 在 LLMs 中应用的综述,它详细考察了 RAG 的发展进程、关键技术和评估方法,强调了 RAG 在提高 LLMs 的准确性和可信度方面的潜力,尤其是在知识密集型任务中。https://arxiv.org/pdf/2312.109973.Continual pretrain 精选论文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》DeepSeekMath 7B, which continues pretraining DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data.https://arxiv.org/pdf/2402.03300《InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning》Math reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We unify chain-of-thought reasoning, reward modeling, formal reasoning, data augmentation, and code interpreter in a unified seq2seq format and supervise our model to be a versatile math reasoner, verifier, prover, and augmenter.https://arxiv.org/pdf/2402.06332《LLEMMA: AN OPEN LANGUAGE MODEL FOR MATHEMATICS》Continue pretraining Code Llama on Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding LLEMMAhttps://arxiv.org/pdf/2310.10631《Scaling Instruction-Finetuned Language Models》(1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation, RealToxicityPrompts).https://arxiv.org/pdf/2210.11416《MAmmoTH2: Scaling Instructions from the Web》We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning.https://arxiv.org/pdf/2405.03548最火爆的 LLM-based agent 开源项目https://github.com/Significant-Gravitas/AutoGPT基于 Role-Playing chatting 的 multi-agent 设计范式https://github.com/camel-ai/camel在程序开发场景下的 multi-agent 协作 demo(基于 Camel )https://github.com/OpenBMB/ChatDev在代码场景的 multi-agent 协作 demohttps://github.com/geekan/MetaGPTRole-Playing chatting 的 multi-agent 框架https://github.com/microsoft/autogencode-first 的 agent 框架,在数据处理场景下的 demohttps://github.com/microsoft/TaskWeaver
比 Auto-GPT 的 benchmark 更高的 agent projecthttps://github.com/OpenBMB/XAgentLangChain 团队在 agent 领域的尝试https://github.com/langchain-ai/langgraphcode-first 的 agent 框架,在数据处理场景下的 demohttps://github.com/microsoft/TaskWeaver致力于构建企业内复杂场景的 Agent 应用, 解决企业内复杂场景的问题。目前在维护一个企业内 code-driven 的 Agent 框架, 使得 Agent 能力可以无缝嵌入企业内代码场景的工作流程。同时团队在探索企业内“搜索+ Agent ”,“ CRUD + Agent ” 可能的落地场景。
SmartPrep.AI & 智启学院 李文轩
致力于探索和创造大模型时代教育的新范式。SmartPrep.AI是全球首个大模型原生教学管理平台让大模型成为教师的得力助教、学生的长期学伴,目前已服务多所全球顶尖国际教育组织。智启学院是一个Agent驱动的新型教育机构,让6-15岁小朋友能够站在AI的肩膀上创造原本做不到的事,同时致力于探索可复制的项目制学习平台。
Devv.AI 是面向开发者的新一代 AI 搜索引擎,能够在编程领域提供快速、准确和实时的回答。底层技术基于垂直领域的 Search Index + RAG。产品发布数月以来,已获得近百万的开发者用户。交影科技一家专注于特种数据合成与增强的公司,通过关系抽取加实体抽取的方式构建增强数据集,启发器加验证器联动的方式生成合成数据集,通过合成数据的方式生成数理、工业、特种数据领域无需标注的专业数据集。
Bagel 刘荣轩
Bagel AI 搜索引擎,质量第一,有趣第二,省钱第三。从微信上的搜索引擎做起,让用户用最简单方式的获取到最多有价值的信息。贝果科技,微信,飞书,网页端三合一,让做调研和吃早饭一样简单。
以上是奇绩校友有关 Agent & RAG 的实践产品,他们关于 Agent & RAG 的创业实践心得,例如 Agent 在 B 端落地的关键、如何建立 B 端和 C 端的产品壁垒以及在 RAG 商业化中需要解决哪些痛点问题等,在资料集中有详细展开。