ao3怎么调成中文看文章(ao3怎么调成中文看文)

2023-11-19 10:41:36
手机游戏网 > 手游app排行榜 > ao3怎么调成中文看文章(ao3怎么调成中文看文)

《碧蓝幻想Versus》在昨日(3月14日)正式登陆Steam平台,不过相较与PS4版本,游戏不支持中文还是令不少玩家苦恼的。不过Steam产品评论区已经有玩家找到了调出中文的方法,并将设置方法分享了出来,一起来了解一下吧。

这也说明显然游戏文件实际上已经内置了中文语言,但不知出于什么原因没有在第一时间给出中文版,也许会在未来更新中加入公开支持。已经购买游戏并且想要享受中文的玩家可以尝试一下这个方法。

从发出第一篇分析AO3的帖子到现在已经过去了一个月时间,实话实说,发文和视频受到欢迎,引起讨论还是让我们都获得一定的满足,而且我们也并没有像大家想的那样遭受了什么网络暴力,最大的麻烦就是豆酱知乎一直被禁言而已。在这里感谢那些支持我或者反对我的人能发出很多理性的声音。

可是,本周的文章如何写,我是十分发愁的。发了三篇技术讲解帖,得到大家的回复最多就是看不懂,不明觉厉~ 再看看我的粉丝构成实际上以非程序员居多,阅读确实十分困难。虽然本人励志成为一个跟进前沿技术的科技作者,但为了当前广大关注我、支持我的粉丝,还是要尝试为大家做一些科普的内容。那么今天,我就尝试为各位讲解一下目前人工智能领域研究的前沿领域之一:自然语言处理技术。

因为本文针对的都是彻底的行外人士,那么我就按照三个部分展开讲解:

一、人工智能概述

帮助大家了解人工智能以及一些相关概念,以及他们之间的关系。并普及一个重要概念:结构化数据和非结构化数据;

二、 自然语言处理(Natural Language Processing 下文均简称NLP)

为大家简要介绍统计学家是如何打败语言学家,完成了自然语言处理的突飞猛进;

三、词向量

为大家普及一些重要概念:词向量、跳字模型和词袋模型。

在正式开始前,先为大家安利两本书:

1、吴军博士的《数学之美》2012年的书,2014年出版第二版。开篇就讲的是NLP的前世今生,也是本文第二章的主要参考,这本书的故事深入浅出,数学基础不好的也能看懂。另外吴军博士的《浪潮之巅》也是经典中的经典;

2《动手学深度学习》阿斯顿·张,李沐的经典之作,本人去年在CSDN举办的活动中有幸参加了相关Workshop活动,了解到了这本书。算是我接触过的最顺手和贴近实战的深度学习教材。该书目前也被多所大学当做教材使用。最难能可贵的是这本书是开源的,你并不需要去购买,自行百度即可。书中使用的深度学习框架是MXNet,Github 上 也有 Pytorch 版本的,当然,这本书是需要有编程基础的,不是学编程的,看看第一本书就好了。

那么接下来,我们正式开始:

一、人工智能

在十几年前,你问任何一个玩游戏的青年人工智能英文缩写“AI”(Artificial Intelligence) 是什么。大部分人都会毫不犹豫地告诉你,游戏里那些电脑操控的“敌人”通通都是AI。

但现在提到人工智能,大家常常会觉得十分神秘高深,加上广大媒体的推波助澜,导致大家常常将其与机器人,哲学甚至伦理挂钩。

作为在“人工智能”领域学习和创业多年的人,实际上我也很难明确讲清人工智能这个概念,并且一直都用看待“麻瓜”的眼神对待任何抛开落地应用空谈人工智能的人士。在我个人看来,人工智能是一个非常宽泛的概念。广义上讲:计算机通过外部传感器获取了一段信息,经过一定的逻辑处理后,自动执行了一个决策,就可以称之为人工智能。当然,目前大家所称的人工智能普遍指的是:处理逻辑比较复杂的,在部分领域(如:自然语言处理,语音识别,图像识别等)以接近或突破“图灵测试”为目标的计算机方法。

总之,抛开各种关于人工智能的神话传说来看,它实质上就是一套理论方法的集合。而人工智能之所以目前广泛进入人们的视野主要有两个原因:

    人工智能技术解决问题的能力突飞猛进;

    人工智能技术的学习和应用门槛越来越低。

你没有看错,人工智能并不是越来越神秘,而是越来越简单了,单从地铁广告中越来越多的人工智能培训班就能看出这一点。就我近年来招聘的情况就能明显感觉到,能够掌握传统经典方法的人越来越少,而很多只会用封装好的工具,知其然而不知其所以然的人越来越多,这也是学习门槛降低后的现象之一。

提到人工智能就不能不谈谈:大数据、机器学习、深度学习这几个概念了。从我个人感受来看,大数据曝光的频率要远高于机器学习和深度学习,但事实上他们的关联关系可以用如下的图来阐述:

人工智能概念们的关系

可以这样说,大数据是人工智能的“燃料”。机器学习作为人工智能中的一类工具和方法,顾名思义就是让计算机自己来学习和掌握知识,并自动作出判定。深度学习又是机器学习中一类方法的统称。

为了方便大家理解和记忆,我在这里再反向总结一下:深度学习是目前机器学习中的一种主流方法,而机器学习又是人工智能中目前主流的数据处理方法,而大数据就是我们要存储,分析,加工的数据和配套的工具。

作为目前人工智能领域最流行的方法,绝大多数机器学习方法的核心实际上都是基于概率论的。

说到概率论,有一句经典的话来概括“概率就是无知,是源自对未知事物的不了解”,换句话来说,几乎所有的机器学习方法都来自于对它们得到的信息资料进行总结并得到结果。

因此,就目前来说,几乎所有的机器学习方法都无法产生与训练它们的数据差别太大的结果,也就是很难具备所谓的“创新性”。因此,一个人工智能的善恶,完全取决于创造它和使用它的人的行为和目的。一个著名的例子就是2016年微软的人工智能聊天机器人Tay黑化事件,本来人畜无害的Tay在24小时之内就被网友彻底“教坏”,黑化成一个满嘴脏话的不良少女。

2016年 微软的人工智能Tay引发不小争议

这也反映了一个问题,计算机和人类对于信息的认知是不同的,本质上计算机并不能像我们一样轻松理解一张图片和一句话的内在含义。而这里的“含义”不是用数字或者是公式可以表示出来的。因此,我们首先需要一种方法,试图构建出这些“含义”,方便计算机存储和运算。

这里就涉及到一个重点:结构化数据和非结构化数据

精确概念大家可以自己去查查(写太长没人看了),为了便于快速理解这两个概念,这里举几个例子:

1、各位的工资表,成绩单就 结构化数据;

2、一张图片要表达的内容含义 不是 结构化数据;

3、一张图片的大小分辨率 结构化数据;

4、一本书的内容 不是 结构化数据;

5、一本词典里的词 结构化数据;

6、图书馆的图书编号 结构化数据。

总的来说,含义明确,数量有限且可以被拆分并用表格(例如Excel)表示的数据就可以叫做结构化数据。而那些含义模糊,数量或可能性难以估计,不能被拆分保存在表格中的数据就是非结构化数据

计算机设计之初就是用来处理结构化数据的,所以即使是最原始的计算机对结构化数据的处理能力和速度也是完虐人类的,但是计算机却很难对非结构化数据进行处理。因此,如何将非结构化数据转化为结构化数据(或向量化)也是当前人工智能领域一个重要的课题。

那么这里提个小思考题:一个人说了句话的语音是不是结构化数据呢?那么把这句话转化成文字,这段句子是不是结构化数据呢?

带着这个思考,我们进入下一章:自然语言处理, NLP。

二、自然语言处理浅解

本章前半部分主要参考了吴军博士的《数学之美》(这本书真的很好看,建议大家读读)。后半段参考了《动手学深度学习》的第10.1节。

人类在“教”电脑学习理解人类语言这件事上,可以说是一次统计学家对语言学家的全胜过程。与此相对应的方法就是基于统计模型的方法和基于人为制定规则的方法。基于人为制定规则的方法在上世纪80年代前一直是主流。但后来逐渐被统计学方法取代,特别是现在基于深度学习的方法(本质上也是统计学为理论基础的)快速发展后,原来基于人为制定规则的句子分析法可以说是黯然失色。

有些小伙伴可能认为一个句子应该是一个结构化的数据,因为句子有主语、谓语、宾语;词有名词、动词、形容词。按照句法和词性对应,完全可以将句子拆开放入表格。

但事实上,一个句子是非结构化数据,按照上述句法词性拆分并分析语言就是传统的基于规则的方法,而人类语言形成中,实际是先有语言再有规则的,所以大量语料并不是基于规则构成的,一个经典的中文例子就是:

西红柿炒鸡蛋。你说这是一个名词还是一句话呢?(西红柿表示我太难了~)

谁炒谁?

所以说,面对如此复杂的人类语言,通过人工穷举所有的可能性显然是不现实的,这也使得相关研究一度陷入瓶颈。但是,虽然不是结构化数据,语言却也不是随机的,语言确实符合某种规律,只是这种规律过于复杂,并不能被精确的表述出来,那么在数学上用什么工具来描述和表示不精确的现象呢?答案就是:统计学。

通过统计学家和计算机学家的不懈努力,加上互联网给我们带来的海量数据加持,自然语言处理的问题得到了很大的突破,现在大家常用的机器翻译就是自然语言处理领域的一个重要应用。

关于统计学和机器学习是如何解决自然语言处理问题的过程过于庞大,本文为了保证连贯性,就把介绍转化为如何将“句子”这种非结构化数据转化为结构化数据(也叫向量化)的过程。

三、词向量(Word Embedding)

我们简单回顾一下向量的概念,如果大家还记得几何知识,就应该知道向量是具有大小和方向的,而方向这个概念又和空间维度挂钩。当初学习几何的时候,都是在二维空间(平面),和三维空间(物理世界)中操作向量的。但事实上,维度是可以无限大的。我们就从NLP这个领域重新了解一下向量。这里我们需要引入词向量的概念。

首先,我们知道语言是由词汇构成的,而词汇实际上是一种结构化数据。我们可以将各种词汇编纂整理成词典(想想有47231个词的《新华词典》,我们给每个词一个编号,并按照编号顺序把词存入计算机,这就是结构化数据)。而每一个词就是一个维度

也就是说用《新华词典》构成的词向量有47231维之大,想想我们所处的世界只有3维,你就能感受到数据结构化的难度有多大了。

简单举个几个例子:

我们有一个很小的词典:“”,“”,“喜欢”,“”,“非常

那么我们就根据词典中词的个数构建了一个5维的空间。那么怎么在计算机中表示“我喜欢你”这句话呢?一个最简单的表示方式就是将出现词的标号设为1,其他设为0: (#后面是注释,方便大家理解)

[1,0,0,0,0]  #代表“我” [0,0,1,0,0]  #代表“喜欢” [0,1,0,0,0]  #代表“你”

这样,我们就用三个向量[1,0,0,0,0][0,0,1,0,0][0,1,0,0,0]在计算机中表示了“我喜欢你”这句话,这就是一个简单词向量,以及用词向量构成句子的例子。

但是,这样的表示是非常粗暴难用的,原因是这样1或0(专业叫法是 one-hot)的表示方法没有办法表达出词和词之间的关系,换句话说,计算机很难辨别 “”“喜欢”“” 和 “”“非常”“” 的区别,但任何一个人都知道,后一种情况是病句,一般是很难出现的。

为了从统计学上解决这个问题,我们就要用到跳字模型和词袋模型,这里尝试介绍一下它们的概念。(请各位先去温习一下高中学过的条件概率知识)

跳字模型就是考虑一个词周围可能出现其他词的概率。举个栗子,假设有一句话:“战战”“很”“爱”“他的”“坚果”(老婆挑的句子~不喜轻喷)

在这里,我们把“爱”作为我们重点关注的词,也就是中心词。其它几个词叫做背景词。那么跳字模型关心的就是给定一个中心词(“爱”),生成在这个中心词周围一定范围的背景词(“战战”,“很”,“他的”,“坚果”)出现的概率,即:

P(“战战”,“很”,“他的”,“坚果” | “爱”)

跳字模型关心给定中心词生成背景词的条件概率

事实上,各个背景词出现概率又是相互独立的,因此上面的式子又可以改写成

P(“战战”| “爱”) · P(“很” | “爱”) · P(“他的” | “爱”) · P(“坚果” | “爱”)


看不懂可以跳过这段

如果我们有一个包含所有词的词典,将这些词一一编号(索引),如果整个词典有d个词。在跳字模型中,每个词都可以被表示成两个d维向量,用来计算条件概率。假设这个词在词典中索引为i,当它为中心词时向量表示为v_i,而为背景词时向量表示为u_i。设中心词在词典中索引为c,背景词在词典中索引为o,给定中心词生成背景词的条件概率可以通过对向量内积做softmax运算而得到:

下面的内容应该可以看懂了


总之,我们通过跳字模型建立了词与词之间的概率关系,这样我们在得到一个中心词之后,就能够清楚的了解到哪些词更有可能出现在它的周围。而跳字模型产生的词向量也不是简单的1或0了,而是由一系列0到1之间的小数概率构成了更加复杂,并且由远近关系的词向量。

与跳字模型相对应的是词袋模型:

P(“爱” | “战战”,“很”,“他的”,“坚果” )

词袋模型关心给定背景词生成中心词的条件概率

这里就不再重复解释词袋模型了,总结一下就是,词袋模型通过一个词的前后两边的背景词来估计更可能出现的中心词是什么。在大多数自然语言处理方法中,跳字模型和词袋模型是共同使用的。

我们现在知道了跳字模型和词袋模型的原理,那么怎么得到他们呢?事实上,我们首先需要一个比较全面的词典,然后还需要大量的语料进行统计计算出跳字模型和词袋模型,这样就能够得到比较好的词向量。

所幸已经有很多人做好了这些工作,比如在我视频中使用的词向量就是搜狗公司通过他们的输入法获得大量语料训练后发布的词向量模型,可以在网上下载到。

我们来总结一下:人类建立词向量的结构来方便计算机储存和运算句子。而为了让计算机通过统计的方法知晓在自然语言中词和词之间的关联关系,人类又使用了跳字模型和词袋模型来代替通过词典索引(0或1)来建立更好的词向量。通过以上的方式构建出的词句,在大数据加持下,计算机通过其它机器学习方法不断被训练,就会变得越来越“懂”人类语言。而大家现在常用机器翻译软件这样的现实应用也就是在这样的技术上构建出来的。

介绍到这里,希望大家可以从以上内容中了解到人工智能,机器学习以及NLP之间的关系;也能对在NLP领域如何将非结构化数据进行结构化表示有一个简单的概念,限于篇幅原因,深度学习相关的科普内容我会在下期和大家分享。这次的技术文章没有一行代码。不知道大家能看懂多少呢?在评论区点评一下吧。

作者:admin | 分类:手游app排行榜 | 浏览:20 | 评论:0