我要投稿

AI算法之“人工智能”总结笔记

发布日期：2025-01-21 20:54:39 浏览次数： 1548 来源：H小姐的数字化杂货铺

本文是投喂ai大模型的总结，以听、说、看、思考创造角度列举的典型的AI算法和场景，如有分类不正确，那说明ai仍需努力，哈哈哈～

1. 计算机视觉（CV）

核心算法

卷积神经网络（Convolutional Neural Networks, CNN）：适用于图像分类、目标检测、图像分割等任务。

场景

图像分类：识别图像中的对象类别，如猫、狗等。
目标检测：在图像中识别不同的物体实例，并给出它们的位置（边界框）。
人脸识别：检测和识别图像中的人脸，并进行身份验证。
图像分割：将图像分割成不同的区域，并对每个像素分配相应的类别标签。
图像生成：合成新的图像，如风格迁移、超分辨率等。
视频理解：分析视频内容，识别视频中的行为、事件等。
视频生成：生成新的视频帧或完整的视频内容。

2. 语音识别（ASR）

核心算法

递归神经网络（Recurrent Neural Networks, RNN）：尤其是长短期记忆网络（LSTM）和门控循环单元（GRU），适合处理语音的时序性质。
Transformer架构：近年来在语音识别中也得到了广泛应用，因为它可以处理更长的序列。

场景

语音转文字：将语音信号转换为文本。
语音命令识别：识别语音命令以控制设备或执行操作。
实时字幕生成：为直播视频或电话会议提供实时字幕。
语音识别辅助：帮助听力障碍者通过文字理解语音信息。
语音识别安全：用于语音身份验证或安全系统。

3. 语音合成（TTS）

核心算法

Tacotron2：用于高质量的语音合成。
WaveNet：用于生成逼真的音频波形。
FastSpeech：提供更快的合成速度。
HiFi-GAN：用于生成高质量的音频波形。

场景

文字转语音：将文本信息转换为语音输出。
阅读辅助：为视障人士提供有声书籍或文章阅读。
语音导航：为驾驶员提供语音导航指引。
虚拟助手：创建具有自然语音交互能力的虚拟助手。
多语言翻译：将不同语言的文本转换为语音输出。

4. 认知能力

核心算法

知识图谱（Knowledge Graph, KG）：用于存储和管理知识。
自然语言处理（Natural Language Processing, NLP）：用于理解文本信息。

场景

知识检索：从知识图谱中检索相关信息。
知识推荐：基于用户兴趣和历史行为推荐相关知识。
知识图谱构建：自动构建和维护知识图谱。
文本分类：根据文本内容进行分类。
命名实体识别：识别文本中的实体名称。
情感分析：分析文本中的情绪倾向。
机器翻译：将一种语言的文本翻译成另一种语言。
文本摘要：自动生成文本摘要。
问答：自动回答问题。
对话系统：构建能够进行自然对话的聊天机器人。

5. 创造能力

核心算法

生成对抗网络（Generative Adversarial Networks, GAN）：用于生成新的内容或模拟现有内容。
数据智能（Machine Learning, ML）：虽然ML本身不是一个创造能力的核心算法，但它为创造能力提供了基础。例如，在图像和视频生成中使用的GAN就是基于ML的原理。

场景

召回：从大量数据中召回相关数据。
排序：对召回的数据进行排序。
过滤：过滤掉不相关或低质量的数据。
评分：对数据进行评分或评级。
推荐：基于用户行为和偏好生成推荐内容。
解释：解释算法的决策过程。
图像生成：生成新的图像，如艺术创作、风格转移等。
视频生成：生成新的视频内容，如电影特效、虚拟场景等。
音乐生成：生成新的音乐作品。
文本生成：生成新的文本内容，如新闻报道、故事创作等。
数据增强：生成额外的数据用于训练其他模型。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

一文带你了解大模型——智能体（Agent）

2024-05-28

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

全面对比dify、coze、streamlit、chainlit

2024-04-26

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

OpenAI o1与GPT4o的对比分析

2024-09-23

50+个AI大模型在不同领域的应用案例

2024-08-04

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂大模型推理必备技术：KV Cache

2024-07-01

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

2024-07-18

大家都在问

XLNet+Milvus：比BERT还聪明的语义理解模型到底是怎么工作的？

2025-01-22

中国研究者破解OpenAI 01和03的“思考”秘密，AGI时代即将到来？

2025-01-22

被玩疯的小红书 AI 翻译，用了哪家大模型？

2025-01-21

OpenAI创造了一种可以让我们永生的人工智能模型?

2025-01-21

AI Agent酣战：群雄逐鹿，鹿死谁手？

2025-01-18

2025年，大模型厂商将激战企业级市场，赢家会是谁？

2025-01-15

复盘2024，大模型的商业化主线是什么？

2025-01-13

大模型之嵌入与向量化的区别是什么？

2025-01-13

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

本文是投喂ai大模型的总结，以听、说、看、思考创造角度列举的典型的AI算法和场景，如有分类不正确，那说明ai仍需努力，哈哈哈～

1. 计算机视觉（CV）

核心算法

场景

2. 语音识别（ASR）

核心算法

场景

3. 语音合成（TTS）

核心算法

场景

4. 认知能力

核心算法

场景

5. 创造能力

核心算法

场景

相关资讯

160+中大型企业正在使用53AI

把握AI发展的机遇，共同探索、共同进步

如何打造基于GenAI的员工服务机器人

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

一文带你了解大模型——智能体（Agent）

Cursor 一个真正让程序员产生危机感的 AI 编程工具

全面对比dify、coze、streamlit、chainlit

16个具有“联网搜索”功能的AI：总有一个适合你！

OpenAI o1与GPT4o的对比分析

50+个AI大模型在不同领域的应用案例

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

一文读懂大模型推理必备技术：KV Cache

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

大家都在问

XLNet+Milvus：比BERT还聪明的语义理解模型到底是怎么工作的？

中国研究者破解OpenAI 01和03的“思考”秘密，AGI时代即将到来？

被玩疯的小红书 AI 翻译，用了哪家大模型？

OpenAI创造了一种可以让我们永生的人工智能模型?

AI Agent酣战：群雄逐鹿，鹿死谁手？

2025年，大模型厂商将激战企业级市场，赢家会是谁？

复盘2024，大模型的商业化主线是什么？

大模型之嵌入与向量化的区别是什么？

热门标签