如何使用人工智能来做事（如何使用人工智能来做事）

游客 2024-01-16 1470

默认

摘要： ...

然而,似乎没有一个AI实验室提供任何用户文档。目前能看到的用户指南,都只是来自Twitter意见领袖的讨论线程。针对声称关心自己技术适当使用的组织来说,选择以传言形式进行文档化是一种奇特的选择,但我们还是处在这种状态。

我不能声称这会是一个完整的用户指南,但是它将为当前的AI状况提供一些方向感。我一直在为学生(和感兴趣的读者)准备AI入门指南,每隔几个月就需要作出重大修改。最近的几个月格外疯狂。

本指南表达个人观点,基于我的经验,专注于如何选择正确的工具来完成任务。如果你想先了解AI可以完成哪些任务,我之前写的文章可能会有帮助。

主要的大型语言模型

当我们现在讨论AI时,通常是在讨论大型语言模型(LLM)。大多数AI应用都是由LLM提供支持的,目前只有少数几家组织创建了基础模型。每家公司都通过聊天机器人提供对其模型的直接访问:OpenAI制造了GPT-3.5和GPT-4,它们支持ChatGPT和Microsoft的Bing(在Edge浏览器上可以访问它);谷歌拥有各种以Bard为标签的模型;Anthropic推出了Claude和Claude 2。

这里不会讨论其他LLM。第一个是由Inflection创建的Pi,它针对对话进行了优化,真的非常非常想成为你的朋友(说真的,试试就知道我的意思了)。它除了聊天之外不想做太多事,想让它为你工作将会非常折磨。我们也不会涵盖各种开源模型,任何人都可以使用和修改。目前它们对于普通用户来说通常不可访问且毫无用处,但是未来指南可能会包括它们,因为它们确实很有前景。

所以这是你的快速参考表,总结了LLM的当前状态:

前四个(包括Bing)都是OpenAI系统。目前OpenAI主要有两种AI:3.5和4。3.5模型在去年11月引发了当前的AI狂潮,4模型在今年春天首次亮相,能力更强。一个新变种使用插件连接到互联网和其他应用程序。有很多插件,大多数都不是非常有用,但是如果需要的话可以随意探索它们。代码解释器是一个极其强大的ChatGPT版本,可以运行Python程序。如果你从未为OpenAI付费,那你只使用过3.5。除了插件版本和一个暂时中止的带有浏览功能的GPT-4版本之外,这些模型都未连接到互联网。Microsoft的Bing使用4和3.5的组合,通常是GPT-4家族中首个推出新功能的模型。例如,它可以创建和查看图像,并且可以在网页浏览器中阅读文档。它连接到了互联网。Bing的使用有点奇怪,但很强大。

谷歌一直在测试自己的AI以供消费者使用,他们称之为Bard,但它由一系列基础模型驱动,最近的一个叫做PaLM 2。对于开发LLM技术的公司来说,迄今为止它们的表现相当令人失望,尽管昨天宣布的改进显示他们仍在继续改进基础技术,所以我对此抱有希望。它已经获得了运行有限代码和解释图像的功能,但我通常会避免它。

最后一家公司Anthropic已经发布了Claude 2。Claude最显著的特点是拥有非常大的上下文窗口——基本上是LLM的记忆。Claude可以在记忆中保存近乎整本书的内容,或者许多PDF。它被设计成比其他大型语言模型更不太可能产生恶意行为,在实际使用中,这意味着它倾向于对某些事情略微训斥你。

接下来是一些使用示例:

写作

最佳免费选项:Bing和Claude 2

付费选项:ChatGPT 4.0/带插件的ChatGPT

目前,GPT-4仍然是最强大的AI写作工具,你可以在Bing(选择“创意模式”)上免费使用,或者购买每月20美元的ChatGPT订阅。然而,Claude是强有力的第二选择,而且有限的免费选项可用。

这些工具也正在直接集成到常用的办公应用程序中。Microsoft Office将包括由GPT提供支持的辅导员,Google文档将集成来自Bard的建议。这些创新对写作意味着深远的影响。

这里是一些使用AI帮助你写作的方式。

需要担心的几件事:为了响应你的答案,AI很容易“误报”并生成合理的虚假内容。它可以生成完全错误但十分令人信服的内容。让我强调一下:AI会持续而出色地撒谎。它告诉你的每一个事实或信息都可能不正确。你需要检查所有内容。当你请求引用、报价、引文和互联网信息时,尤其危险(对于未连接到互联网的模型)。Bing通常会比其他模型产生更少的虚构内容,因为GPT-4普遍更加基于事实,并且Bing的互联网连接意味着它实际上可以获取相关事实。这是一份避免误报的指南,但不可能完全消除误报。

而且请注意,AI不会解释它自己,它只会让你认为它在解释。当你要求它解释为什么写了某些内容时,它会给出一个似乎合理的完全虚构的答案。当你请求它的思考过程时,它并没有审视自己的行动,它只是在生成让它看起来像是这样做的文本。这使得理解系统中的偏见非常具有挑战性,即使这些偏见几乎肯定存在。

它也可以被不道德地操纵或欺骗所利用。你对其输出负有责任。

生成图像

最透明的选项:Adobe Firefly

开源选项:Stable Diffusion

最佳免费选项:Bing或Bing Image Creator(使用DALL-E)、Playgound(可以使用多个模型)

最佳图像质量:Midjourney

大多数人可以使用的主要图像生成器有四个:

Stable Diffusion,这是开源的,你可以从任何高端计算机上运行它。刚开始需要付出努力,因为你需要学习如何适当地制定提示,但是一旦你掌握,它就可以产生很棒的效果。它在将AI与其他来源的图像相结合方面尤其出色。

OpenAI的DALL-E,它集成在Bing(必须使用创意模式)和Bing Image Creator中。该系统很不错,但不如Midjourney。

Midjourney,这是2023年中期最好的系统。它的学习曲线比任何其他系统都低:只需输入“thing-you-want-to-see --v 5.2”(结尾的--v 5.2很重要,它使用的是最新模型),你就可以得到很棒的结果。

Adobe Firefly,内置在各种Adobe产品中,但与DALL-E和Midjourney相比,图片质量略逊一筹。然而,另外两个模型在使用来训练AI的源图像方面模糊不清,而Adobe声明它只使用有使用权的图像。

以下是它们的比较(每张图片都标注了模型):

Prompt: “Fashion photoshoot of sneakers inspired by Van Gogh” - the first images that were created by each model

提示:“梵高风格网球鞋时尚照” - 每个模型生成的第一张图片

需要担心的事项:这些系统建立在对互联网数据的训练上,训练本身就存在固有偏见(例如,如果让它创造企业家的图片,默认你会看到更多以男性为主的图片,除非你明确指定“女企业家”),你可以使用这个资源管理器来观察这些偏见。

这些系统也以在互联网上存在的艺术作为训练材料的方式进行训练,这种方式在法律和伦理上都不透明,可能存在问题。尽管技术上你拥有所创造图片的版权,但法律规定仍然模糊。

而且现在,它们不生成文字,只生成一堆看起来像文字的东西。但是Midjourney制作手的效果非常逼真。

提出想法

最佳免费选项:Bing

付费选项:ChatGPT 4.0,但由于其互联网连接,Bing可能会更好

尽管存在所有约束和奇怪之处,但AI在产生想法方面完美无瑕。要有好的想法,你通常需要有很多想法,而AI在创造大量想法方面表现不俗。通过恰当的提示,你还可以强制它进行非常创造性的思考。在Bing的创意模式下,要它查找你最喜欢的不寻常的思维激发技巧,比如Brian Eno 的倾斜策略或 Mashall McLuhan 的四分法,并应用它们。或者要求一些奇思妙想,比如从随机专利或你最喜欢的超级英雄中获得灵感......

制作视频

最佳动画工具:D-iD,用于在视频中制作脸部动画。Runway v2,从文本创建视频

最佳语音克隆:ElevenLabs

现在,用完全由AI生成的角色、完全由AI编写的脚本、AI生成的语音,通过AI动画生成一个视频已经变得轻而易举。它还可以深度伪造人物,正如你在这个链接中看到我深度伪造自己的那样。说明和更多信息请见这里。谨慎使用,但这对解释视频和介绍很有帮助。

第一个公开可用的文本到视频工具也刚刚发布,即Runway v2。它创建4秒的短片段,更像是未来发展的演示,但是如果你想了解这个领域的未来发展,它值得一看。

需要担心的事项:深度伪造是一个巨大的问题,这些系统需要被道德地使用。

处理文档和数据

对于数据(以及你有的任何奇思妙想代码):Code Interpreter（代码解释器）

对于文档:Claude 2用于大型文档或多文档,Bing侧栏用于较小的文档和网页(Edge浏览器中的侧栏可以“看到”浏览器中的内容,让Bing使用那些信息,尽管上下文窗口的大小是有限的)

Code Interpreter（代码解释器）,它是GPT-4的一种模式,让你可以将文件上传给AI,允许AI编写和运行代码,并让你下载AI提供的结果。它可以执行程序、运行数据分析(尽管你需要足够了解统计和数据来检查它的工作)、创建各种文件、网页,甚至游戏。尽管自它发布以来,围绕未受训人员使用它进行分析的风险存在很多争论,但许多测试代码解释器的专家都对它印象深刻,一个论文甚至建议它将需要改变我们培训数据科学家的方式。如果你想了解更多使用细节,请参考我之前的文章。我也制作了一个初始提示,为代码解释器设置以创建有用的数据可视化。它提供了一些良好的图表设计基本原则,并提醒它可以输出多种文件类型。你可以在这里找到它。

对于处理文本,特别是PDF,到目前为止,Claude 2表现优秀。我已经把整本书粘贴到前一个Claude版本中,效果令人印象深刻,新模型更加强大。你可以看看我以前的经历,以及一些可能有趣的提示,在这里。我还给了它许多复杂的学术文章,要求它总结结果,它做得很好!甚至更好的是,你然后可以通过后续问题进行审问材料:有什么证据支持这种方法?作者得出了什么结论?等等...

需要担心的事项:这些系统仍会在有限的方式下进行虚构。如果你想确保准确性,需要检查它们的结果。

获取信息和学习

最佳免费选项:Bing

付费选项:通常Bing是最佳选择。对于儿童,可使用可汗学院的Khanmigo,它提供由GPT-4驱动的良好AI辅导。

如果你要将AI用作搜索引擎,可能最好不要这样做。由于存在高度的虚构风险,且大多数AI没有连接到互联网,使用Bing会是明智之选(我建议你使用Bing。谷歌的AI Bard更容易虚构)。然而,根据最近的试点研究,证据表明AI在谨慎使用的情况下,常常比搜索提供更多有用的答案。特别是在搜索引擎效果不佳的情况下,比如技术支持、决定吃什么、获取建议等,Bing相较于谷歌是一个更好的起点。这是一个快速发展的领域,但目前你在这些用途上还是需要谨慎。你肯定不想陷入麻烦。

但是更令人兴奋的是,AI可以用于帮助教育,包括帮助我们学习。我已经写过AI如何用于教学,并帮助教师更轻松地工作、使他们的课程更有效,但它也可以用于自主学习。你可以让AI解释概念,获得非常好的结果。这个提示是一个很好的自动导师,你可以在这里找到一个直接链接来在ChatGPT中激活导师。因为我们知道AI可能在虚构,所以你明智的做法是(仔细!)用另一个来源双重检查任何关键数据。

还有更多?

鉴于技术的迅速进步,这些可能都是你将使用的最糟糕的AI工具,正如过去几个月的发展所示。我确信不久后我就需要制作新的指南。但请记住两个关键点仍然适用与AI:

AI是一种工具,并不总是正确的工具。考虑到其缺点,仔细考虑它是否适合你计划应用它的目的。

存在许多你需要注意的伦理问题。AI可以用来侵犯版权、作弊、窃取他人劳动成果或操纵他人。而特定AI模型的构建方式及谁从其使用中受益往往也都是复杂的问题,目前并不太清楚。最终,你有责任以道德的方式使用这些工具。

我们正处于一个快速演进的革命的早期阶段。你还有其他的使用体会要分享吗?请在评论中告诉我。