AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


ChatGPT:文件上传功能全面解析
发布日期:2024-07-26 15:04:32 浏览次数: 2167


ChatGPT:文件上传功能全面解析

前言

被问到 ChatGPT 对于上传的文档的数据处理上限,比如有亚马逊 10000 条用户评论的Excel 表格是否能够全面分析和提取内容?特别查阅了以下相关文档,下面内容来源于 OpenAI 官方,做了翻译和排版,顺便也给自己存档,方便查阅。

摘要:

ChatGPT的文件上传功能目前已向 ChatGPT Plus 和 Enterprise 用户开放,支持多种文件格式,包括 PDF、Word 文档和演示文稿。用户现在可以上传文件,让 ChatGPT 进行综合分析、内容转换和信息提取等操作。

这项新功能极大地扩展了 ChatGPT 的应用范围,从数据可视化到文档总结,再到信息检索,都变得更加便捷。每个用户可以上传最多 20 个文件,单个文件大小上限为 512MB。值得注意的是,OpenAI 对文件的保留时间和使用方式有明确规定,以保护用户隐私。

虽然目前还存在一些限制,如不支持处理嵌入文档中的图像,但 OpenAI 表示未来会继续完善这一功能。对于普通用户来说,这次更新无疑让 ChatGPT 成为了更加强大和多功能的人工智能助手,为日常工作和学习带来更多便利。

官方解答

'https://help.openai.com/en/articles/8555545-file-uploads-faq '

? 文件上传常见问题解答

? 最近更新:一周多前

? 有什么变化?

  • 我们正在为ChatGPT添加一项新功能,允许在对话中上传和处理不同类型的文档。这项功能基于我们现有的高级数据分析模型,提升了对文本丰富的文档的处理能力。

? 可用性

  • 目前已对所有ChatGPT Plus和ChatGPT Enterprise用户开放,可在chatgpt.com网页版、iOS/Android移动应用程序上使用,并将很快通过API提供。

? 新的文件上传功能如何工作?

  1. 综合:

  • 上传包含定性和定量信息的电子表格,并请求ChatGPT帮助理解和可视化数据。
  • 比较和对比两份文档。
  • 分析文档中的情感或语气
  • 分析电子表格。
  • 将一份文档中的框架或标准应用于另一份文档的内容。(比如参考 A 表的表头和格式,应用于 B 表)
  • 转换:

    • 上传复杂的研究论文,请求ChatGPT提供简单摘要
    • 上传PowerPoint演示文稿,请求ChatGPT对内容提供反馈。
    • 用简单术语总结文档
    • 特定风格重写短文档。
    • 将演示文稿转换为文档
  • 提取:

    • 上传PDF,让ChatGPT查找任何与特定主题相关的内容。
    • 文档中提取相关引用
    • 文档或电子表格中搜索特定主题的所有提及。
    • 文档中提取元数据(作者、创建日期等)。
    • 统计电子表格中包含特定属性的行数。
    • 提取文档的特定部分(如所有标题或所有项目符号列表)。

    ? 支持哪些类型的文件?

    • 支持所有常见的文本文件、电子表格、演示文稿和文档文件

    ? 每个GPT一次可以上传多少个文件?

    • 每个GPT在其生命周期内最多可上传20个文件。每个用户/组织有文件大小限制和使用上限。(一个对话中最多上传 20 个文件,不管对话持续多久

    ? 文件上传大小限制是什么?

    • 每个文件512MB
    • 每个文件200万个标记(不适用于电子表格)。
    • CSV文件或电子表格不能超过约50MB
    • 图像每张限制为20MB

    ? 使用上限:

    • 每个最终用户上限为10GB。
    • 每个组织上限为100GB。

    ?️ 如何删除上传的文件?

    • 上传到高级数据分析的文件会在一定时间后删除,具体时间因您的计划而异。如果遇到文件使用上限,您也可以从最近的聊天记录或您创建的任何GPT中删除文件。

    ? 文件和聊天记录如何保留?

    • 聊天记录:
      • 如果数据控制 -> 聊天历史记录设置为开启,则无限期保存。
      • 如果从ChatGPT删除聊天,它将从用户界面中消失。为监控滥用行为,我们会保留所有对话30天,然后永久删除
    • 文件:
      • 通过ADA/文档分析处理的文件,以及与自定义GPT聊天时上传的文件:保留时间因您的计划而异。
      • 通过Vision处理的图像和作为知识上传到自定义GPT的文件:无限期保留。

    ?️ 能否处理嵌入在文档/演示文稿中的图像?

    • 目前不支持嵌入在文档/演示文稿中的图像。我们计划在未来添加对此的支持。

    ? OpenAI会使用上传的文件来训练其模型吗?

    • 答案取决于您使用的服务。我们【可能会】使用提交给ChatGPT、DALL·E和其他【面向个人的服务】的内容来改进模型性能。内容【可能】包括上传的文件。请参阅相关文档以了解内容如何用于改进模型性能以及用户可以做出的选择。

    • 商业产品: 我们不会使用客户提交给我们的商业产品的内容来改进模型性能。

    ? 有关我们如何使用业务数据的信息,请参阅我们的企业隐私页面。

    200 万 tokens 相当于多少英文单词?约多少条亚马逊电商评论?

    1. Tokens 与单词的关系

    • 一个 token 大约等于 0.75 个英文单词【9†source】。这意味着 200 万 tokens 相当于大约 150 万个英文单词(200 万 * 0.75)
  • 亚马逊电商评论的长度

    • 根据一些统计,平均一条亚马逊电商评论大约有 15 到 20 个单词。

    基于这些信息,我们可以进行以下估算:

    1. 总单词数:200 万 tokens 大约等于 150 万个单词。
    2. 每条评论的单词数:假设每条评论平均为 18 个单词(取中间值)。

    因此,150 万个单词可以容纳的评论数量为: [ \frac{1500000}{18} = 83333 ]

    因此,200 万 tokens 大约相当于 83,333 条亚马逊电商评论

    也就是说,一个文件内容上限是150万英文单词,大约 8.3万条电商评论

    BUT,我们无法确保 ChatGPT 是否能够完美遍历所有的数据内容,会不会有遗漏?尤其是它经常摆烂,所以最好对它的效果打个折扣。

    • END



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询