介绍
什么是生成式 AI?这是我们大多数人都在思考的问题。在过去几年中,生成式 AI 获得了巨大的关注。随着 ChatGPT 在 2022 年 11 月的爆发,我们已无回头路!
各行各业都在采用生成式 AI 来实现各种有趣的应用,如内容生成、营销、工程、研究和一般文档处理。
什么是生成式 AI?
生成式 AI 是一种用于生成文本、图像或音频等内容的人工智能形式。深度学习模型通过在大规模数据上进行训练来生成此类响应。
生成式 AI 的历史
生成式 AI 最初在 20 世纪 60 年代以聊天机器人的形式出现。在本节中,我们将回顾导致我们今天所知的生成式 AI 繁荣的重要事件时间表。
1966 年:麻省理工学院教授约瑟夫·魏岑鲍姆(Joseph Weizenbaum)开发了 Eliza,这是第一个模拟心理治疗师对话的聊天机器人。Eliza 能够利用模式匹配和简单的语言处理技术来响应用户,这是自然语言理解和人机交互方面的一个重大早期突破。

1968 年: 麻省理工学院的特里·威诺格拉德(Terry Winograd)开发了 SHRDLU 程序,这是一个突破性的程序,展示了在有限领域内的自然语言理解能力。使用 SHRDLU,用户可以根据用英语发出的指令来操纵物体。该项目的成功突显了人工智能在现实情境中理解和执行复杂指令的潜力。
1985 年:贝叶斯网络作为一种强大的概率建模和因果分析人工智能工具出现。通过使用有向无环图表示变量之间的概率关系,贝叶斯网络提供了不确定性下的推理能力,可用于诊断、预测和决策。
1989 年:约书亚·本希奥(Yoshua Bengio)、扬·勒昆(Yann LeCun)和帕特里克·哈夫纳(Patrick Haffner)利用卷积神经网络 (CNN) 彻底改变了图像识别领域。得益于共享权重和卷积,CNN 处理视觉数据的准确性和效率比传统方法更高。计算机视觉系统和深度学习应用正是基于这一突破。

2000 年:约书亚·本希奥等人引入了神经概率语言模型,这是一种基于神经网络的语言建模方法。通过捕捉上下文依赖关系并学习词语的分布式表示,该模型增强了语音识别、机器翻译和文本生成等自然语言处理任务的能力。
2011 年:苹果公司的 Siri(一种声控虚拟助手)的面世是消费级 AI 技术的一个重大时刻。通过 Siri,用户可以使用语音指令与设备交互,为个性化和直观的用户体验树立了新标准。
2013 年:托马斯·米科洛夫(Tomas Mikolov)引入了 word2vec,这是一种用于自然语言处理中词嵌入的变革性技术。Word2vec 使用神经网络学习词语的连续向量表示,从而捕捉语义关系和上下文相似性。这一进步提高了词语表示的质量,并有助于改进情感分析、命名实体识别和文档聚类等各种 NLP 任务。
2014 年:伊恩·古德费洛(Ian Goodfellow)及其同事开发了生成对抗网络 (GAN),引入了一种全新的生成建模框架。GAN 由两个神经网络组成:生成器和判别器,它们通过类似游戏的训练过程进行博弈。这种方法能够生成逼真的合成数据,从而在图像合成、风格迁移和数据增强方面得到应用。
2017 年:Vaswani 等人发表的论文《Attention Is All You Need》引入了 Transformer 模型,这对自然语言处理产生了颠覆性影响。通过使用自注意力机制捕捉序列中的长程依赖关系,Transformer 在机器翻译、文本摘要和语言理解等任务中表现优于以前的架构。包括 BERT 和 GPT 在内的多个最先进的 NLP 模型均基于 Transformer 模型。

2018 年:谷歌 AI 的研究人员开发了 BERT(来自 Transformer 的双向编码器表示),以提高自然语言理解能力。使用 BERT,通过双向训练和 Transformer 架构从左、右上下文捕捉语境,从而在回答问题、分析情感和分类文本等任务中取得显著改进。由于 BERT 的预训练策略和语境化嵌入,它为语言表示学习树立了新标准。
2021 年:OpenAI 在 2021 年推出了 DALL-E AI 模型,它可以根据文本描述生成图像。为了根据用户输入生成多样化且富有创意的视觉输出,DALL-E 将 Transformer 架构与大规模图像-文本对相结合。
2022 年: 新模型 GPT-3.5 标志着大语言模型 (LLM) 的一个里程碑。它展示了在自然语言理解、生成和对话方面的高级能力,证明了基于深度学习的语言模型的发展及其在聊天机器人、虚拟助手和基于文本的 AI 系统中的应用。
2023 年:GPT-4 登场,展示了生成式 AI 的进一步进步。与之前的模型相比,该新模型具有更好的语言理解、上下文保留和文本生成能力。
2024 年:今年是生成式 AI 大放异彩的一年,Stable Diffusion 3、Vlogger、Claude 3、Devin AI 以及年中推出的 ChatGPT-5 等模型相继问世。
生成式 AI 模型是如何工作的?
大语言模型 (LLM) 拥有数十亿个参数,可以生成引人入胜的内容或逼真的图像。它是自然语言处理 (NLP) 和生成式 AI 的重要组成部分,在文本摘要或语言翻译等任务中表现优异。让我们以最新的 GPT 模型 ChatGPT-4 为例。它是一个大语言模型,包含 1.7 万亿个在文本数据语料库上训练的参数。
另一方面,Transformer 是大语言模型的构建基块。由于其“注意力”机制,Transformer 的表现优于 RNN(循环神经网络)和 LSTM(长短期记忆网络)。模型可以针对每个输出标记专注于输入序列的不同部分。例如,GPT 之所以能提供如此快速的响应,是因为它对序列数据进行了并行处理。
现在我们已经了解了生成式 AI 模型背后的“大脑”,让我们来看看它们是如何工作的。
数据收集
该过程始于收集与模型执行任务相关的大规模且多样化的数据集。根据模型的目的,这可能包括文本、图像或两者的组合。
预处理
下一步是预处理,即对收集到的数据进行清洗和格式化。例如,文本数据预处理可能包括分词、去除停用词、处理特殊字符或将文本转换为数值表示。
定义模型架构
接下来是选择正确的模型架构,这至关重要。这可能涉及选择合适的 Transformer,这是一种专门为序列任务设计的深度学习模型。这些架构通常由多层注意力机制组成,使模型能够捕捉数据中的长程依赖关系。
选择正确的架构可能取决于以下因素:
复杂性:根据我们的工作内容,可以选择简单或复杂的模型来达到预期结果。
数据要求:我们需要庞大的数据集,还是有限的数据即可?这取决于我们希望模型训练的有效程度。
训练时间:有些模型训练速度快,而有些则需要更长时间但能产生更好的结果。此因素完全取决于可用的时间框架。
兼容性:这涉及无缝集成,以检查给定模型是否与现有硬件或框架对齐。
模型预训练
在选择好合适的模型架构后,会在海量的无标签数据上进行模型预训练。在这里,模型学习通用语言模式、语义和语境理解,使其能够生成连贯且具有上下文意识的文本。
模型优化
此步骤优化模型以提高其性能和效率。这可以通过梯度下降优化、学习率调整、正则化方法和模型架构调整等技术来实现,以改善整体性能指标。
微调
我们来到了最后一步。微调将预训练模型的知识应用于目标任务的细微差别,例如文本生成、翻译、摘要或问答。
现在我们已经了解了生成式 AI 模型的工作原理,我们将探讨一些最常见的生成式 AI 类型。
生成式 AI 的类型
既然我们对生成式 AI 有了更好的了解,让我们看看其中一些最常见的类型。
文本生成
这是目前最常见的生成式 AI 形式之一。我们都以某种形式使用过它。文本生成涉及 AI 技术生成与人类输出响应极其相似的上下文相关、有意义且连贯的文本。它在内容生成领域极受欢迎,如撰写电子邮件副本、社交媒体内容甚至博客写作。一些最常用的文本生成工具包括 OpenAI 的 ChatGPT、Google 的 Gemini 和 Anthropic 的 Claude。

GPT 实战
文本生成图像/视频
随着文本生成图像和文本生成视频 AI 工具的引入,内容生成达到了一个全新的水平。它们使用自然语言处理 (NLP) 技术和深度学习来根据文本描述生成图像和视频。应用场景包括视频制作、资产创作和内容创作。Google 的 Imagen、Midjourney 和 OpenAI 的 SORA 是一些常见的此类工具。
图像生成视频
视频是最好的讲故事方式之一,但制作视频可能令人望而生畏。想象一下只用一张图片就能完成。这就引出了图像生成视频的 AI。与之前的输入为文本的生成式 AI 工具不同,这里的输入是一张图像。借助 StabilityAI 的 Stable Diffusion 3、Google 的 Vlogger 和 Runway 的 Gen-2 等工具,我们可以将无聊的静态图像变成动态且引人入胜的视频。
语音合成与语音转文字
语音合成(Text-to-Speech)将文本转换为口语,而语音转文字(Speech-to-Text)将音频转录为文本。两者各有用处;例如,语音合成可用于语音助手或教程,而语音转文字提供转录、听写或语音指令功能。一些最常见的语音转文字工具包括 AssemblyAI、OpenAI 的 Whisper、AWS Transcribe 和 Deepgram。
代码助手
生成式 AI 不仅对内容创作产生影响,还影响了软件开发。软件工程师现在可以使用代码助手来减轻繁琐的任务。这包括生成代码片段或自动化编码任务。Github 的 Copilot、BlackboxAI 和 Hugging Face 的 HuggingChat 是软件工程师常用的代码助手。

生成式 AI 的用例
内容创作
生成式 AI 最常见的用例之一是内容创作。只需输入几行文字,你就可以生成数百行的内容。内容创作者现在可以节省大量时间用于头脑风暴,并为长期内容策略和营销制定大纲。
视频编辑与生成
视频编辑和生成是生成式 AI 世界中另一个热门用例。在这里,人们可以仅凭文本输入甚至图像,以人类编辑所需时间的一小部分来制作高质量的视频内容。模型会分析海量的图像和视频数据,并生成连贯且美观的视频内容。

Heygen 实战
音乐创作
生成式 AI 可以为广告或品牌推广活动制作不错的素材。与其他从现有数据中推断模式的生成式 AI 模型一样,这里它通过音乐数据进行处理并生成听起来相似的音乐。作曲家和艺术家可以探索创造力,并涉足新的流派领域。
增强医学影像
像其他用例一样,生成式 AI 将医学影像提升到了一个新的水平。医学影像中的一个巨大挑战是数据可用性差。通过利用 GAN(生成对抗网络)和 VAE(变分自编码器)等生成式 AI 模型可以解决这一问题。它们能够根据现有数据生成多样化且逼真的图像。
聊天机器人
作为生成式 AI 最古老的形式,聊天机器人已经伴随我们一段时间了,而且看起来它们将长期存在。随着时间的推移,聊天机器人能够更好地理解客户,并提供准确且细致的响应。与人类同行不同,聊天机器人能够处理更大规模的查询并提供个性化回复。
编码任务
正如前面所讨论的,生成式 AI 不仅限于内容创作。它的触角延伸到了软件开发领域,包括代码补全、修复错误、代码审查或代码重构。代码助手能够简化重复性任务,如生成代码或检测错误,让开发人员有更多精力专注于其他紧迫任务。
沉浸式游戏
生成式 AI 可以引入新元素,如角色或关卡。通过学习现有的游戏元素,模型可以生成新的元素,从而消除游戏体验中的单调感。像育碧 (Ubisoft) 这样的品牌正在利用生成式 AI 进行游戏开发和清除漏洞。
生成式 AI 的挑战
尽管生成式 AI 带来了很多优势,但也引发了一些担忧,例如隐私和侵权问题。提供这些工具的品牌必须通过内容审核和道德准则来解决这些挑战。
- 生成式 AI 模型需要海量数据集进行训练。这可能导致敏感信息泄露或被滥用。
- 另一个生成式 AI 的担忧是版权侵权。由于模型在包含来自互联网的大量文章的数据上进行训练,总是存在侵权的可能。
- 总是存在不公平结果的可能性,即算法在训练时可能无意中带有偏见,甚至放大现有的偏见。由此产生的偏见可能是露骨或暴力的,并产生有害内容。
生成式 AI 的未来
自 60 年代诞生以来,到 GAN 让其在 AI 其他领域脱颖而出,生成式 AI 已迅速发展成为人工智能的最顶级子领域之一。根据德勤 (Deloitte) 的 2023 年 3D 创作者经济调查显示,94% 与内容创作者合作的品牌已经在使用或计划使用生成式 AI。
生成式 AI 是首个此类 AI 技术,它面向大众,任何人都可以使用它来自动化或增强那些本需要自己动手掌握特定技能才能完成的任务。
正如上一节所讨论的,它也带来了一系列问题。让当前和未来的劳动力成为生成式 AI 的早期采用者,可以使在不断发展的人工智能领域中航行变得更加容易。
生成式 AI 不会取代人类,而是会增强他们的工作能力。在合适的人手中,这些工具可以产生引人注目且令人印象深刻的结果,无论是内容创作还是修复代码中的错误。
本次有趣且全面的阅读到此结束。我们介绍了生成式 AI 以及它是如何发展到今天的,讨论了其工作原理,并看了一些用例。
下次再见!



