我要投稿

年轻人请破除对GPT-4o的盲目迷信！

发布日期：2024-06-10 06:40:15 浏览次数： 2701

作者：彩虹之眼

微信搜一搜，关注“彩虹之眼”

抱歉宝子们，昨天出去happy没上钟~，今天来给宝子们请安，祝端午安康！（漂泊在外的宝子们对自己好点~）

宝子们今天的内容就围绕4o展开Battle。过程中也会穿插一些可能不成熟的看法，自由交流！

自5月14日凌晨，OpenAI春季发布会放出以来，4o是出尽了风头，基本每次和朋友约咖啡厅都可以听到类似的话题，好像不知道4o就被时代抛弃了。事实上真的有那么神通广大ma？看完这篇宝子们该醒醒啦！

先卖个关子，都说4o很强，但是强到哪里呢？

本少女相信这个问题就可以问住很多，没有实际上手API的朋友。

先说亮点本少女认为无非就这三点：

响应速度：GPT-4o对音频输入的响应时间可以快到232毫秒，平均为320毫秒，什么概念，这基本与人类在对话中的响应时间相近啦！
多语言支持：在50种不同的语言中表现更佳，提高了ChatGPT针对50种不同语言的质量和速度，这一块确实有巨大改进。
推理及音频翻译：在推理及音频翻译方面也非常出色，在MLS基准测试中也优于Whisper-v3以及Meta、谷歌的语音模型
视觉能力：GPT-4o也非常惊艳，能够更好地理解和生成图像内容，这为用户提供了更为丰富的交互方式接受文本、音频和图像的组合作为输入，并生成文本、音频和图像的任意组合输出。

但是宝子们今天咱们是来找茬的~

这个情况其实一直存在，甚至越发严重，本少女觉得应该让更多的人（不仅仅是开发者~）意识到这个问题，不能对GPT-4o盲目的崇拜~

其实近期发现很多网友都发现了这个问题，比如推特上这位网友就蛮有意思的~

（来源网友）

他这个测试题就挺有意思的，下面网友补充评论的也很有水平，都放上宝子们一起品一品~

(来源网友）

其实上面两张图已经说明很多问题，比如这个案例中，如果你不知道梁思成和林徽因的事情，不知道梁思庄是女的，不知道答案里的林果果是谁，肯定没法判断 gpt 的回答正确与否。

这里就出现科学体系和非科学体系的概念（图一的测试属于非科学体系）

这种非科学体系内的知识对中文用户帮助就非常有限，而且可能还存在误导，科学体系就不一样了，如果你问物理化学数学这些，AI本质上中英文用的都是同一套科学知识，只是表达语言不同，也就很准确。

为什么挑这个例子呢，个人觉得是值得一写的。

本少女做个简单总结，宝子们可能就更清楚了。

也就是openAI根本不重视中文，训练的数据基本都是被污染的，也不去做最起码的清洗。无论是否使用cot，GPT-4o都无法理解非科学体系内的问题。

单发上面图片例子可信度是不够的，本少女结合tokenizer的词表可能更有说服力。

宝子们也知道GPT-4o放出来以后，模型的多语言支持发生了巨大的改进，当然这一变化的背后，主要归功于tokenizer（词汇分解器）的重大升级。

我们来看一个实际的例子：一段包含34个字符的中文文本（24个汉字、5个字母或数字、5个标点符号）。

（图源来自知乎社恐患者杨老师）

在GPT-3模型中，这段文本的token数量为62个，因为其tokenization方案会将一个汉字分解成多个token。（下图）

（图源来自知乎社恐患者杨老师）

而在GPT-4模型中，新的tokenization方案将每个字符（无论是汉字、字母、数字还是标点符号）都映射为一个token，减少了处理文本的token数量。

（图源来自知乎社恐患者杨老师）

这意味着在GPT-4o中，这段文本只需24个token即可完成处理。

要知道token的数量和处理方式直接影响着模型的语言能力。传统上，token是sub-word单位，比character大，但比word小。GPT-4o的升级将token变成了above-word单位，更接近词组的概念。这样一来，模型的“词汇量”大幅增加，使其能够更好地理解和生成复杂的语言结构。

采用新的“o200k_base” tokenizer后，GPT-4o的词汇量从GPT-3时代的5万提升至20万。这不仅增强了模型的语言能力，还使得其多语言支持更加出色，

但是同样带来的一个新的问题是中文数据被大大污染了。新的tokenizer在对中文进行优化时，能够更有效地处理复杂的中文文本。然而，由于中文互联网环境中存在大量的不规范用语和低质量数据，这些问题也不可避免地影响了模型的性能。

以下是一段用于抓取中文词表中前100个中文字符的代码示例：

import tiktokenimport langdetectT = tiktoken.get_encoding("o200k_base")
length_dict = {}
for i in range(T.n_vocab):try:length_dict[i] = len(T.decode([i]))except:pass
# Sort by lengthlength_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1]))
# Print the top 100 chinese wordstot = 0for item in length_dict:try:if langdetect.detect(T.decode([item])) == "zh-cn":print(item, T.decode([item]))tot += 1except:passif tot == 100:break