大AI时代即将到来?AI技术能解放多少技术力

2023-05-12 09:16 浏览
如果要盘点今年互联网科技板块的第一话题,那么AI技术是当仁不让的第一。

最开始人们都在争论关于AI作图的那些议题。从几个月前,AI作画只有几个模版来回变化,不会画手,甚至不会画拿筷子吃面的尴尬;但现在,已经可以个性化画风深度定制,写实的、3D化的、二次元的画风应有尽有,甚至还能针对各种个性化画风做出深度学习,完美复原,仅是几月发展就与当初不可同日而语。

曾经让AI学会画手是一个难以被攻克的问题,现在已经不是多难的事情
近期,随着美国OpenAI研发的聊天机器人程序ChatGPT(全名:Chat Generative Pre-trained Transformer)发布,AI进化的谱曲达到最高章。

ChatGPT是特殊的一个。他是根据自然语言处理任务的人工智能,其运作逻辑可以根据学习人类的语言来进行对话,并能根据上下文理解而进行互动,并随着交流量的增加而不断智能化。同时,ChatGPT在这套学习思维的基础上,能够完成许多以前只有”人“才能做到工作,比如翻译、文案、程序脚本与各种影音化的处理任务,功能之丰富,简直就是AI界的百科全书。


也因为ChatGPT这个爆炸性产品的诞生,关于AI生产力的话题也被推到台前。事实上,除了当红的ChatGPT以外,各行各业也在催生出自己的AI软件。

那么还有什么AI软件正在埋头发展呢?

这篇文章来汇中一下这些AI产品,顺便做点猜想,看看他们能为游戏行业带来什么。

多点开花的AI生产力介绍

无论是ACG行业,还是影视多媒体与平面设计等行业,谈起生产力逃不开这几个方面:音频、音乐、美术插画、视频与脚本程序等方向。接下来从这几个类别去看看,有什么工具已经实现了一定程度上的生产力。

01美术插画:Midjourney和Stable Diffusion

当今最火的美术插画AI工具,当属由David Holz领导开发的Midjourney;以及Stability AI公司的Stable Diffusion了。

两个工具都是在消费级GPU上就能运作,Stable Diffusion甚至得到苹果平台的优化,在iPhone、iPad、Mac等设备上也能够流畅运行,低门槛接触是这是两个工具能够迅速蹿红的一个原因,哪怕你没有最顶级的电脑,也能上手把玩一下。

两款AI作图工具,其人工智能模式相近,都是将文本信息向图像扩散的模型组合。简单来说,就是用户提供各种文本,工具再根据文本的信息去生成用户想要的图像。比如在Stable Diffusion里,你提供文本宇航员+骑+各种坐骑的描述性文字,那么就会生成出宇航员骑着各种奇幻生物的图片出来。


不同的是,两款工具的运营模式并不相同。

Stable Diffusion是一款开源的AI作图工具,它最大的优势就是自由度、没有太多束缚,用户在提供素材时也会引入各种非版权图片,对于提高素材量与美术风格的插件也是来者不拒,让Stable Diffusion对于各种美术风格都能很好驾驭,我们常见的各种AI个性化画风的尝试大多出自Stable Diffusion。


中国风,水墨画法与写实,Stable Diffusion各种风格都能尝试
也因为开源的优势,Stable Diffusion还能玩出更多玩法,比如它可以拿来压缩图片,且压缩图片的细节能够保留更多,这对于压缩技术来说也是一项大的突破。


再比如,它可以对各种图片与视频进行定制化美术风格输出/细化,加工出更加美观的美术图与视频。虽然目前这套加工模式还不成熟,比如美术细化图片的文字会乱码;比如视频输出还无法稳定;再比如一些比较大的动作无法精准定位还原等问题都让Stable Diffusion投入实际生产有着一定距离,但这种加工技能的点满,为解放生产力提供非常大的期待值。

原图与加工新画风的AI图片对比,文字乱码依然是加工图片一个问题(图片来自二次元假小子控吧)
至于Midjourney则是一款收费作图工具。该工具的环境相对封闭,使用的图片素材也大多是版权图片。因此,能够调教和生产的图片并没有Stable Diffusion多样。

但也得益于稳定的版本更迭,尤其是到了V5版本以后,Midjourney对于画幅比例、纹理效果以及AI处理手与牙齿等细节的局限做出了很多优化,因此让Midjourney总能生成出更加精美且没有破绽,足够以假乱真的美术产物让业内震撼。比方说之前有关Midjourney最大的新闻就是透过一些文字生成出一套背景是上世纪90年代、中国城市的年轻青年的老照片图片。

经过这次更新,Midjourney变得非常强大
Midjourney V5做出90年代风格的AI照片
也因为Midjourney更定制与职业,目前已有不少从业者开始尝试利用Midjourney辅助创作,比如就在近期,国外一位从业20多年的独立开发者就分享了自己使用AI对人物建模设计的一些辅助创作成果,据他所言,人物建模设计上节省了40个小时,在场景构建上节省了3天的时间。


同时在3D领域,很多公司也开始了AI的3D美术生产工具的探索,比如著名引擎大厂Unity刚刚在GDC2023上,宣布了自家的Unity AI;其次,Adobe也发布了自家的AI工具Firefly,不仅能利用AI生成图片,还能制作模板、编辑P图效果与创造笔刷、更替背景等多种一键生产功能,并且也能直接用自然语言修改图片。在商业化美术领域,AI的发展可说是进入日新月异,万箭齐发的阶段。


02视频:wonder studio

在美国时间的3月9日下午,Wonder Dynamics公司推出了旗下名为Wonder Studio的AI视频工具,它是一个浏览器AI工具,基于云的人工智能。它的原理是透过捕捉真人表演的内容进行分析,接着可以将想要投放的CG角色与真人进行替换,AI会自动将灯光、光影与动作匹配到跟真人演员几乎一致的水平,甚至是面部的微表情也可以做到一键替换。

目前是一个基于云数据的人工智能工具

替换效果对比
现在甚至能做到微表情处理
不仅如此,Wonder Studio还能导出分层、分析画面的数据与运动环境,让用户更多角度的跟踪修改,做出更理想的效果。


还能对具体影片的情况去调整
03音频方面、模拟人声:VITS

VITS全称Variational Inference with adversarial learning for end-to-end Text-to-Speech,是一种基于声学模型进行语音合成方法的AI音频类工具,它能根据用户提供的语音合成模型,配合使用训练好的语音编码器vocoder声码器对用户提供的文本进行转化,vocoder会根据发音规则与文本的标题符号作为生成语音信号的特征去表示,最后做出一段流畅的语音。


目前该工具的生成语音质量已经非常成熟,不仅可以模拟出想要的音色,连节奏与情绪感都能做到完美复原,甚至还能让输出的人声进行唱歌这类复杂的声音表达,达到足够以假乱真的程度。也因此在软件刚开始阶段,就已经有大量用户做出各种音色,游戏的、动画声优的、著名歌星的,应有尽有。


但目前该工具还处于较为原始的阶段,工具需要大量的复杂的训练流程,还没有进入消费级运用的低门槛水平。

04作曲:MusicLM

有了人声合成,音乐作曲自然也不能少。

在2个月前,谷歌发布了旗下的AI作曲工具MusicLM。与大多AI工具一样,MusicLM也是根据输入文字进行生产音乐的人工智能。它的前身是基于谷歌去年9月发布的一项名为AudioLM,专注于合成高保真音频的项目,也因此,MusicLM并不像美术AI那样,使用扩散模型进行工作。


只要文字的描述精准且丰富,无论是古典名画还是现实题材,都能识别出相应风格,与画面做出匹配。
不过即便没有扩散模型的作用,MusicLM目前依然可以做到很多意想不到的音频处理。比方说,工具不单可以透过文字生成音乐,还能以一段音频打底+形容的文字,比如乐器或者音乐风格去改编音乐的风格,输出想要的效果。


此外,工具还有一个故事模式,它能将一段音乐根据文字的编排顺序去重塑不同时间段的音乐,实现音乐的风格化切片,对于影视化与游戏配乐而言,这个功能能够精准对位不同时间段的需要,将多种音乐风格有序的跟画面需要对上。


05基于语言的万能工具:ChatGPT

作为当红炸子鸡,前文已经提到ChatGPT作为AI聊天程序的基础功能。它是以语言为基础,但又不局限于直接的沟通,OpenAI还为他提供了开源设置,ChatGPT可以安装各种基于语言模型而设计的插件,赋予ChatGPT联网,扩展运算的能力,这大大拓宽了了ChatGPT的使用场景。


目前已知的插件想要拓展的方向比如说:

    与第三方应用程序连接,利用ChatGPT的机制完成包括日常行程、购物、导航等功能;利用WolframAlpha等插件,让ChatGPT获得更强大的计算能力,让回复内容更加精准/丰富;对表格、文档与视频音频文件进行内容的分析、绘制与可视化操作;延展出更多精细的操作,包括计算力引擎、 视频剪辑、 图片PS、脚本设计与文字翻译,全面覆盖语言工具所能做到的极限。

    也因此ChatGPT才会那么火热,它的发展几乎涵盖了工具化的大多数方面,有了它可以解决很多事情。

    那么,盘点了这么多工具以后,基于目前发展的情况,让我们对AI工具化做点猜想,看看它们以后能够对游戏行业做出哪些改变?

    解放生产力的一些方向观察与猜想

    ①节省人力成本、降低入门门槛

    现在开发游戏是一项高门槛、高投入的产业,尤其在很多3A大作里尤为明显。此前业界不少厂商就游戏定价20年,但开发成本却逐年走高的现象多有抱怨。

    现在的3A游戏项目的开发成本已经可以比肩大片,但很多游戏要靠单纯卖盘获得大片的收益可不容易
    而游戏成本走高的一个原因就在于高昂的人力成本无法节省,尤其是业界对于游戏画面要求越来越高的现在,往往需要庞大的美术团队去做高精度美术与高模的精雕细琢工作。

    在很长一段时间高画质、高材质需要靠人力去填,以后就不好说了
    那么这些批量精细活的工作就可以轮到绘图AI工具入场了。形成一套一个主美把控核心创作输出,利用AI去做批量生产与高精细化的工作流程。

    像Stable Diffusion目前就有插件去做类似的工作内容。只是目前可选择美术风格还不够多,制作出来的样品也不够精细,但如果继续发展下去的话,未来可期。另外,需要大人力资源去填的内容如果能够靠AI弥补,也一定程度降低了开发门槛。独立开发者能制造的游戏的范围能够进一步扩大。

    比方说,目前就有很多中日的同人游戏开发者开始尝试用AI去做一些低成本的同人游戏,毕竟很多同人游戏并没有商业化,很适合去做AI工具化的尝试。有的同人团队是利用AI作画,有的则是让AI几乎包办所有工作,比如B站up主“秋之雪华”就制作了一款名叫《夏末弥梦》的galgame,整段已公开的Demo视频中,从美术到培养配乐全是有AI完成。


    ②试错成本降低、效率提升

    这是AI工具化最先能做到的事情,甚至一些工具已经能做得不错。

    比如前文提到的某国外美工利用Midjourney速度输出角色的设计稿辅助建模就节省了大量时间。不仅是美术AI工具,其他的领域比方说脚本与视频建模,我们也可以可以根据ChatGPT去快速输出脚本然后进行优化;或者利用Wonder Studio视频AI工具的一键替换去观摩建模在实际运用的效果。


    借助AI技术改善产业生产效率差,几年还不见得做出一款游戏的情况。

    ③本地化能力大大提高

    本地化一直是游戏多地区发行的一个命门。不少大型游戏往往需要在不少地区去做语言跟进;客服端与手游游戏甚至需要运营大量外语人工去维护更新与交流,其成本不低,而且往往出力不讨好。很多时候的翻译质量与本土化水平并不能让玩家满意。

    而目前像ChatGPT等工具的出现给了改进本地化水平的可能性。比方说就目前ChatGPT的翻译效果,在不少玩家尝试下,往往能有很不错的效果,如下图:

    (图片来自PSN中文站用户heyoutui)
    至于AI运营与客服系统,早在目前就已经开始普及开来,唯一的问题就在于表述过于机械、语言过于无感,还有适配的语言不足等不够智能的问题,但这些毛病如果接入ChatGPT与音频合成的VITS等进行适配与升级,那么,游戏的国服分发与运营压力将随着AI的进步而逐步减压。

    ④宣发物料的效率提升与成本将降低

    常见的宣发,如短视频、海报、趣图与玩梗的文案和速递新闻也可以依靠AI速度生产,比如目前Adobe宣传的平面软件Firefly,主打的就是快速处理图片各种风格的AI机制,若能做到投入生产力的水平,无疑能让宣发更容易很多。


    一键处理想要的P图效果
    其次,目前ChatGPT的文案处理能力已经越来越成熟,比方说你给他提案一个新闻/活动议题,它就已经能生成出一个还可以的模版,就当下来说,给予AI提供的模版去修正文案以获取自己想要的宣发文案,是已经可以做到的现实。

    根据某个游戏设计一场预计20人的现下活动(图片来自厦门UPGAME)
    ⑤音、视频成本也将大幅度降低

    游戏常备的音乐、配音与视频也将随着AI技术的成熟做到更多更方便的做法。

    比方说利用Wonder Studio让游戏的3D建模去适配视频,减少比如用手K去调整建模动作的工作量;比方说,利用VITS降低配音成本与配音的可适用范围,游戏公司只需要提取声优的音色,就能靠AI生成各种情感与台词;再比如利用MusicLM去为游戏的各种画面去适配音乐,即便无法直接商用,也能让主创更好抓准风格进行精细的修改。

    我想要井上喜久子与平野绫的声线,AI结合原型声音模型做出来就可以了
    这方面的推进也是预期可见的进度。比如光线传媒的光线动画就在之前公开讨论AI补充动画作画的可行性,并放出了AI作图的宣发。


    总结

    AI的发展过于迅猛,以至于现在写下的文章可能过两天就会被推翻也说不准。近日各大游戏公司也开始了自己的AI软件开发,比如育碧公布内部AI写作工具Ubisoft Ghostwriter,它目前能辅助编剧进行台词创作,以后还能能做到什么程度现在还是个未知数。


    但AI的进步目前依然逃不开很多问题:

    比方说版权问题,目前AI的生产品一般离不开对原素材的加工,所以经常侵犯一些创作者的权益,这如何改进?

    又比方说,适用性问题。目前AI大多基于程序与文字表述进行生成,有着门槛高和不够直观的问题,是否有能推进操作逻辑简易化的可能;当然还有关于资源的垄断问题,会不会因为AI发展的爆发,以后生产力的核心被几家AI公司所控制,过高的垄断成本会不会阻碍AI技术的发展?这些矛盾都很难说。

    不过不少问题已经被重视,比如AI作画开始建立属于AI自己的素材库网站civitai。很难说,这些现实的矛盾能阻挡AI发展多久,也许,AI的生产力投入就不在明日也说不准。


    参考资料:
    AIGC教程:如何使用Midjourney节省70%时间,制作3D游戏角色
    https://mp.weixin.qq.com/s/BIKv_GG_44on5bnsg1vcWQ
    UNBELIEVABLE AI Video & VFX -- WonderStudio / VFX and 3D Made EASY!
    https://www.youtube.com/watch?v=qw4ez2bIOQE
    【VITS】语音合成介绍篇 (一):什么是VITS
    https://www.bilibili.com/read/cv20837189
    Google's MusicLM: Text Generated Music & It's Absurdly Good
    https://www.youtube.com/watch?v=2CUKU2iAzAs
    【ChatGPT Plugins】史诗级更新,9 个插件实例自动完成任务!打开你
    https://www.bilibili.com/opus/776650913330757639?from=search&spm_id_from=333.337.0.0
    首个AI绘图AI配音的同人GAL实机demo《夏末弥梦》
    https://www.bilibili.com/video/BV1uV4y1L7o1/?vd_source=4d33fe977344618c76ddda8e8695906d

    关注找手游微信公众号,了解手游代理最新资讯



客服中心

刘先生:
18372019116

添加微信好友获取行业干货

分享: