AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


年轻人 请破除对GPT-4o的盲目迷信!
发布日期:2024-06-10 06:40:15 浏览次数: 1848



抱歉宝子们,昨天出去happy没上钟~,今天来给宝子们请安,祝端午安康!(漂泊在外的宝子们对自己好点~)

宝子们今天的内容就围绕4o展开Battle。过程中也会穿插一些可能不成熟的看法,自由交流!

自5月14日凌晨,OpenAI春季发布会放出以来,4o是出尽了风头,基本每次和朋友约咖啡厅都可以听到类似的话题,好像不知道4o就被时代抛弃了。事实上真的有那么神通广大ma?看完这篇宝子们该醒醒啦!

先卖个关子,都说4o很强,但是强到哪里呢?

本少女相信这个问题就可以问住很多,没有实际上手API的朋友。

先说亮点本少女认为无非就这三点:

  • 响应速度:GPT-4o对音频输入的响应时间可以快到232毫秒,平均为320毫秒,什么概念,这基本与人类在对话中的响应时间相近啦!

  • 多语言支持:在50种不同的语言中表现更佳,提高了ChatGPT针对50种不同语言的质量和速度,这一块确实有巨大改进。

  • 推理及音频翻译:在推理及音频翻译方面也非常出色,在MLS基准测试中也优于Whisper-v3以及Meta、谷歌的语音模型


  • 视觉能力:GPT-4o也非常惊艳,能够更好地理解和生成图像内容,这为用户提供了更为丰富的交互方式接受文本、音频和图像的组合作为输入,并生成文本、音频和图像的任意组合输出。


但是宝子们今天咱们是来找茬的~

这个情况其实一直存在,甚至越发严重,本少女觉得应该让更多的人(不仅仅是开发者~)意识到这个问题,不能对GPT-4o盲目的崇拜~

其实近期发现很多网友都发现了这个问题,比如推特上这位网友就蛮有意思的~

(来源网友)
他这个测试题就挺有意思的,下面网友补充评论的也很有水平,都放上宝子们一起品一品~
(来源网友)
其实上面两张图已经说明很多问题,比如这个案例中,如果你不知道梁思成和林徽因的事情,不知道梁思庄是女的,不知道答案里的林果果是谁,肯定没法判断 gpt 的回答正确与否。
这里就出现科学体系和非科学体系的概念(图一的测试属于非科学体系)
这种非科学体系内的知识对中文用户帮助就非常有限,而且可能还存在误导,科学体系就不一样了,如果你问物理化学数学这些,AI本质上中英文用的都是同一套科学知识,只是表达语言不同,也就很准确。

为什么挑这个例子呢,个人觉得是值得一写的。
本少女做个简单总结,宝子们可能就更清楚了。
也就是openAI根本不重视中文,训练的数据基本都是被污染的,也不去做最起码的清洗。无论是否使用cot,GPT-4o都无法理解非科学体系内的问题。
单发上面图片例子可信度是不够的,本少女结合tokenizer的词表可能更有说服力。
宝子们也知道GPT-4o放出来以后,模型的多语言支持发生了巨大的改进,当然这一变化的背后,主要归功于tokenizer(词汇分解器)的重大升级。
我们来看一个实际的例子:一段包含34个字符的中文文本(24个汉字、5个字母或数字、5个标点符号)。
(图源来自知乎社恐患者杨老师)
在GPT-3模型中,这段文本的token数量为62个,因为其tokenization方案会将一个汉字分解成多个token。(下图)
(图源来自知乎社恐患者杨老师)
而在GPT-4模型中,新的tokenization方案将每个字符(无论是汉字、字母、数字还是标点符号)都映射为一个token,减少了处理文本的token数量。
(图源来自知乎社恐患者杨老师)
这意味着在GPT-4o中,这段文本只需24个token即可完成处理。
要知道token的数量和处理方式直接影响着模型的语言能力。传统上,token是sub-word单位,比character大,但比word小。GPT-4o的升级将token变成了above-word单位,更接近词组的概念。这样一来,模型的“词汇量”大幅增加,使其能够更好地理解和生成复杂的语言结构。
采用新的“o200k_base” tokenizer后,GPT-4o的词汇量从GPT-3时代的5万提升至20万。这不仅增强了模型的语言能力,还使得其多语言支持更加出色,
但是同样带来的一个新的问题是中文数据被大大污染了。新的tokenizer在对中文进行优化时,能够更有效地处理复杂的中文文本。然而,由于中文互联网环境中存在大量的不规范用语和低质量数据,这些问题也不可避免地影响了模型的性能。
以下是一段用于抓取中文词表中前100个中文字符的代码示例:
import tiktokenimport langdetectT = tiktoken.get_encoding("o200k_base")
length_dict = {}
for i in range(T.n_vocab):try:length_dict[i] = len(T.decode([i]))except:pass
# Sort by lengthlength_dict = dict(sorted(length_dict.items(), key=lambda item: -item[1]))
# Print the top 100 chinese wordstot = 0for item in length_dict:try:if langdetect.detect(T.decode([item])) == "zh-cn":print(item, T.decode([item]))tot += 1except:passif tot == 100:break

结果让人大开眼界!

(图源来自知乎社恐患者杨老师)
中文词表被污染了,中文语料也不清洗了!看来OpenAI这是完全放弃中国市场了~
总而言之,科学体系内的知识仍然GPT4-o最强,但是中文领域知识就未必了
今天这一篇主要是破除国人对GPT的盲目迷信!
看到这里可能有宝子问,国内的中文领域做的比较好的是?
那争议就更大了,各自为战,数据也不共享,咳咳,这里也不多做评价~



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询