作者都是各自领域经过审查的专家,并撰写他们有经验的主题. 我们所有的内容都经过同行评审,并由同一领域的Toptal专家验证.
胡安·曼努埃尔·奥尔蒂斯·德·萨拉特的头像

胡安·曼纽尔·奥尔蒂斯·德·萨拉特

Juan是一名开发人员, data scientist, 他是布宜诺斯艾利斯大学研究社交网络的博士研究员, AI, and NLP. Juan拥有十多年的数据科学经验,并在包括SPIRE和ICCS在内的ML会议上发表过论文.

Previous Role

高级数据科学家

工作经验

15

Previously At

Auth0
Share

全世界都被迷住了 人工智能 (AI), 尤其是最近在自然语言处理(NLP)和生成式人工智能方面的进展——而且有充分的理由. 这些突破性技术有可能提高各种任务的日常生产力. For example, GitHub Copilot 帮助开发人员快速编写整个算法, OtterPilot 自动生成会议记录的主管,和 Mixo 允许企业家快速启动网站.

本文将简要介绍 生成式人工智能概述,包括相关的 AI technology examples, 然后把理论付诸行动与生成人工智能教程中,我们将创建使用GPT和扩散模型的艺术渲染.

六张人工智能生成的文章作者的各种动画和艺术风格的图像.
作者的六张人工智能生成的图像,使用本教程中的技术创建.

生成式人工智能概述

Note: 那些熟悉生成式AI背后的技术概念的人可以跳过本节,继续学习本教程.

In 2022, many foundation model 应用进入市场,加速了人工智能在许多领域的发展. 在理解了几个关键概念之后,我们可以更好地定义基础模型:

  • 人工智能 是一个通用术语来描述任何能够智能地完成特定任务的软件吗.
  • 机器学习 人工智能的一个子集是使用从数据中学习的算法吗.
  • A neural network 机器学习的一个子集是模仿人类大脑使用分层节点吗.
  • A 深度神经网络 神经网络有很多层和学习参数吗.

A foundation model 深度神经网络是在大量的原始数据上训练的吗. 在更实际的情况下, 基础模型是一种非常成功的人工智能,它可以很容易地适应并完成各种任务. 基础模型是生成式人工智能的核心:GPT等文本生成语言模型和图像生成扩散模型都是基础模型.

文本:NLP模型

在生成式人工智能中, 自然语言处理(NLP)模型 是否经过训练,能写出读起来像是人类写的文章. In particular, 大型语言模型 (法学硕士)与当今的人工智能系统尤其相关. 法学硕士可以通过使用大量数据进行分类 识别和生成文本 以及其他内容.

在实践中,这些模型可以作为写作甚至编码助手. 自然语言处理应用 include 简单地重复复杂的概念, 翻译文本, 起草法律文件, and even 制定锻炼计划 (尽管这种用法有一定的局限性).

Lex 是一个具有多种功能的NLP写作工具的例子:提议标题, 完成句子, 在给定的主题上写出完整的段落. 目前最容易识别的法学硕士是GPT. Developed by OpenAI在美国,GPT几乎可以在几秒钟内对任何问题或命令做出反应,而且准确率很高. OpenAI的各种模型可以通过一个 single API. Unlike Lex, GPT可以与代码一起工作, 为功能需求编写解决方案,并识别代码内问题,使开发人员的工作更加轻松.

图片:AI扩散模型

扩散模型是一个深度神经网络 潜在的变量 能够学习给定图像的结构 去除模糊 (i.e., noise). 在模型的网络被训练“知道”图像背后的概念抽象之后, 它可以创造出该图像的新变体. For example, 通过去除猫图像中的噪声, 扩散模型“看到”了猫的清晰图像, 学习猫的样子, 并应用这些知识来创造新的猫的形象变化.

扩散模型可以用来 去噪或锐化 图像(增强和精炼它们),操纵 面部表情, or generate face-aging图片 暗示一个人随着时间的推移会变成什么样子. 你可浏览 Lexica 搜索引擎来见证这些人工智能模型在生成新图像方面的力量.

教程:扩散模型和GPT实现

演示如何实现和使用这些技术, 让我们练习使用HuggingFace扩散模型和GPT生成动画风格的图像, 它们都不需要任何复杂的基础设施或软件. 我们将从一个现成的模型(i.e.一个已经被创造出来的 pre-trained),我们只需要进行微调.

Note: 这篇文章解释了如何使用生成式AI图像和语言模型来创建有趣风格的高质量图像. 本文中的信息不应(错误地)用于创建深度伪造 谷歌实验室的使用条款.

安装和照片要求

要准备本教程,请注册:

使用Drive和Colab.
进行GPT API调用.

你还需要20张自己的照片——为了提高性能,甚至需要更多的照片——保存在你计划用于本教程的设备上. 为了获得最佳效果,照片应该:

  • 不小于512 × 512像素.
  • 做你自己,只做你自己.
  • 有相同的扩展格式.
  • 从不同的角度拍摄.
  • Include three to five full-body shots and two to three midbody shots at a minimum; the remainder should be facial photos.

That said, 照片不需要是完美的——如果偏离这些要求会对输出产生影响,这甚至可以起到指导作用.

基于HuggingFace扩散模型的AI图像生成

要开始,请打开本教程的同伴 谷歌Colab笔记本,其中包含所需的代码.

  1. 运行cell 1将Colab与您的Google Drive连接起来,以存储模型并保存其生成的图像.
  2. 运行单元2以安装所需的依赖项.
  3. 运行cell 3下载HuggingFace模型.
  4. 在单元格4中,在 Session_Name 字段,然后运行单元格. 会话名称通常标识模型将要学习的概念.
  5. 运行cell 5,上传你的照片.
  6. 到第6单元格训练模型. By checking the Resume_Training 选项,您可以多次重新训练它. (这一步可能需要大约一个小时才能完成.)
  7. 最后,运行单元格7来测试模型并查看它的实际情况. 系统将输出一个URL,您将在其中找到生成图像的接口. 在进入 prompt, press the Generate 渲染图像按钮.

带有许多配置的模型用户界面的屏幕截图, 输入文本框, “生成”按钮, 和一个动画角色的输出.
图像生成的用户界面

有了一个工作模型, 我们现在可以用不同的提示来产生不同的视觉风格(例如.g.“我是一个动画人物”或“我是一幅印象派画作”)。. However, 使用GPT进行字符提示是最理想的, 因为与用户生成的提示相比,它产生了更多的细节, 并最大限度地发挥我们模型的潜力.

用GPT提示有效扩散模型

我们将通过OpenAI将GPT添加到管道中, 尽管coherence和其他选项为我们的目的提供了类似的功能. 首先,在OpenAI平台上注册并创建您的 API key. 现在,在Colab笔记本的“生成良好提示”部分,安装OpenAI库:

PIP安装openai

接下来,加载库并设置API密钥:

import openai
openai.api_key = "YOUR_API_KEY"

我们将从GPT生成优化提示,以生成动画角色风格的图像, replacing YOUR_SESSION_NAME 在笔记本的单元格4中设置的会话名称“How I Look”中:

ASKING_TO_GPT = '编写一个提示符来输入扩散模型以生成漂亮的图像'\
                '的YOUR_SESSION_NAME样式为动画角色.' 
响应= openai.Completion.创建(模型=“文本-达芬奇家具- 003”,提示= ASKING_TO_GPT,
                                    温度= 0,max_tokens = 1000)
打印(响应["选择"][0].text)

The temperature 取值范围为0 ~ 2, 它决定了模型是否应该严格遵循它所训练的数据(接近0的值), 或者在输出上更有创意(值接近2). The max_tokens 参数设置要返回的文本量, 四个符号大约相当于一个英语单词.

在我的例子中,GPT模型输出如下:

“胡安被塑造成一个动漫人物,有着一双富有表现力的大眼睛和一张小巧玲珑的嘴巴.
他的头发向后梳起,穿着简单而时尚的服装. 他是完美的
他是一个英雄的榜样,无论在什么情况下,他总是设法让自己看起来最好."

最后,通过将这篇文章作为输入输入到扩散模型中,我们得到了最终的输出:

该文章作者的6张人工智能生成的图像被设计成各种动漫人物.
作者的六张人工智能生成的图像,通过gpt生成的提示进行了完善.

让GPT编写扩散模型提示意味着您不必详细考虑动画角色的细微差别—GPT将为您生成适当的描述. 你可以根据自己的口味进一步调整提示. 完成本教程后, 你可以为自己或任何你想要的概念创造复杂的创意形象.

人工智能的优势触手可及

GPT和扩散模型是现代人工智能的两个基本实现. 我们已经看到了如何单独应用它们,并通过配对来增加它们的威力, 使用GPT输出作为扩散模型输入. In doing so, 我们已经创建了两个能够最大化自身可用性的大型语言模型的管道.

这些人工智能技术将深刻影响我们的生活. 许多人预测大型语言模型将会如此 极大地影响了劳动力市场 在各种各样的职业中,自动化某些任务并重塑现有角色. 虽然我们无法预测未来, 毫无疑问,那些利用自然语言处理和生成式人工智能优化工作的早期采用者将比那些没有这样做的人更有优势.

Toptal工程博客的编辑团队向 费德里科•阿尔巴内塞 查看本文中提供的代码示例和其他技术内容.

了解基本知识

  • 你如何使用GPT?

    要使用GPT,需要创建一个OpenAI帐户并生成一个API密钥. 然后,您可以开始使用GPT进行文本生成, text embedding, 音频转录.

  • GPT的一些用例是什么?

    Generally, GPT可以帮助写作, fix, or analyze code, 并对大多数问题提供具体的回答. GPT的应用横跨金融、教育、客户服务和软件/IT领域.

  • GPT支持哪些编程语言?

    所有编程语言都支持api可消费的GPT.

  • AI图像生成如何应用于创意产业?

    在创意产业, 人工智能可以生成用于网站的图片和视频, blogs, emails, 营销活动, and more.

  • 人工智能图像生成的局限性和挑战是什么?

    A limitation of AI image generation is its level of accuracy; for example, 人工智能不擅长画手. 人工智能图像生成面临的一个挑战是如何避免训练数据中的偏见和抄袭. Second, 人工智能生成的图像无处不在,这使得人们很难区分真实图像和人工智能生成的图像.

  • 如何将人工智能图像生成用于图像编辑和增强?

    使用人工智能图像生成编辑或增强图像, 通过文字向AI描述现有的图像, 加上你想看到的东西的描述. 像DALL-E这样的图像生成系统也有可用的编辑工具.

聘请Toptal这方面的专家.
Hire Now
胡安·曼努埃尔·奥尔蒂斯·德·萨拉特的头像

Located in 布宜诺斯艾利斯城,阿根廷布宜诺斯艾利斯

Member since November 6, 2019

作者简介

Juan是一名开发人员, data scientist, 他是布宜诺斯艾利斯大学研究社交网络的博士研究员, AI, and NLP. Juan拥有十多年的数据科学经验,并在包括SPIRE和ICCS在内的ML会议上发表过论文.

Toptal作者都是各自领域经过审查的专家,并撰写他们有经验的主题. 我们所有的内容都经过同行评审,并由同一领域的Toptal专家验证.

Previous Role

高级数据科学家

工作经验

15

Previously At

Auth0

世界级的文章,每周发一次.

订阅意味着同意我们的 privacy policy

世界级的文章,每周发一次.

订阅意味着同意我们的 privacy policy

Toptal开发者

Join the Toptal® community.