记录学习一些人工智能领域的专业名词含义，方便理解。

人工智能

1956年夏天，计算机科学家约翰·麦卡锡（John McCarthy）首次提出”人工智能”（AI）这个概念。

人工智能指的是，通过软件和硬件，来完成通常需要人类智能才能完成的任务。它的研究对象，就是在机器上模拟人类智能。

机器学习

早期，人工智能研究分成两个阵营。

第一个阵营是规则式（rule-based）方法，又称专家系统（expert systems），指的是人类写好一系列逻辑规则，来教导计算机如何思考。

可想而知，对于复杂的、大规模的现实问题，很难写出完备的、明确的规则。所以，这种方法的进展一直很有限。

第二个阵营就是机器学习（machine learning），指的是没有预置的规则，只是把材料提供给计算机，让机器通过自我学习，自己发现规则，给出结果。

神经网络

神经网络（neural network）是机器学习的一种主要形式。

神经网络就是在机器上模拟人脑的结构，构建类似生物神经元的计算网络来处理信息。

一个计算节点就是一个神经元，大量的计算节点组成网络，进行协同计算。

神经网络需要极大的算力，以及海量的训练材料。以前，这是难以做到的，所以20世纪70年代开始，就陷入了停滞，长期没有进展。

深度学习

深度学习是神经网络的一种实现方法，在20世纪80年代由杰弗里·辛顿提出。它让神经网络研究重新复活。

深度学习是一种让多层神经元可以进行有效计算的方法，大大提高了神经网络的性能。”深度学习”这个名字，就是比喻多层神经元的自主学习过程。

多层神经元包括一个输入层和一个输出层，它们之间有很多中间层（又称隐藏层）。以前，计算机算力有限，只能支撑一两个中间层，深度学习使得我们可以构建成千上万个中间层的网络，具有极大的”深度”。

Transformer

早些年，深度学习用到的方法是卷积神经网络（CNN）和循环神经网络（RNN）。

2017年，谷歌的研究人员发明了一种新的深度学习处理方法，叫做 Transformer（转换器）。

Transformer 不同于以前的方法，不再一个个处理输入的单词，而是一次性处理整个输入，对每个词分配不同的权重。

这种方法直接导致了2022年 ChatGPT 和后来无数生成式 AI 模型的诞生，是神经网络和深度学习目前的主流方法。

由于基于 Transformer 的模型需要一次性处理整个输入，所以都有”上下文大小”这个指标，指的是一次可以处理的最大输入。

比如，GPT-4 Turbo 的上下文是 128k 个 Token，相当于一次性读取超过300页的文本。上下文越大，模型能够考虑的信息就越多，生成的回答也就越相关和连贯，相应地，所需要的算力也就越多。

Token 词元

Token，也称为标记或词元，是语言处理中的一个基本单元。它通常代表一个单词、标点符号或一个特定的符号序列。Token是文本的基本组成单元，用于表示文本中的有意义的语言元素。例如，“Hello, world!”这个句子可以被划分为多个Token：“Hello”、“,”、“world”和“!”。

深度学习成为当今显学的原因

深度学习成为当今显学的主要原因是性能优越。实际上深度学习的基础技术几十年前就已经提出来了，那为什么最近十多年深度学习才开始火热？这主要是制约深度学习的两大因素：大数据集和高性能硬件在十多年前才达到深度学习的门槛。大数据集使深度学习能够充分的进行训练，而高性能硬件如CPU和GPU使深度学习的训练速度以指数级提升。

参考链接

自然语言处理中的文本token和tokenization详解,by KAKAKA.
深度学习基础介绍,by Yunhui1998.
It all started with a Perceptron,by Vincent.
科技爱好者周刊（第 330 期）：李开复梳理人工智能,by 阮一峰.