中培伟业IT资讯频道
您现在的位置:首页 > IT资讯 > 精选文章 > 数据分析“韦小宝最爱谁”,送你无往不利的男女相处技巧

数据分析“韦小宝最爱谁”,送你无往不利的男女相处技巧

2019-07-23 18:26:09 | 来源:中培企业IT培训网

韦小宝到底有什么厉害之处?今天,让我们从数据分析“韦小宝最爱谁”的角度来做一些揭秘吧!

分析方法综述

本文基于文本的描述来分析。根据分析目标,将描述性分析定位在人物分析的层面,从出场频次、出场时间、亲密程度、称谓变化来解析作者对人物的刻画。

文本数据结构化

非结构化,直接进行统计分析是没法进行的。所以,要预处理,将非结构化的文本数据转成结构化的信息以供分析。这里面所用的方法就是确定分析的目标和对象,从《鹿鼎记》中提取信息。

目标:小说主要人物及主要称谓

1、韦小宝:小桂子,韦香主,小宝,韦大人,韦爵爷,相公

2、康熙帝:小玄子,皇帝,皇上

3、双儿:好双儿、双双

4、阿珂:陈珂,美貌小姑娘,师姊

5、苏荃:洪夫人,教主夫人

6、建宁公主:公主

7、沐剑屏:小郡主,小老婆

8、方怡:方师姐、方姑娘、怡姐姐

9、曾柔

10、韦春花

11、陈近南

12、郑克塽

13、吴应熊

14、茅十八

从称谓的内容和数量上看,小宝会给喜欢的人起昵称哦,这一点,我们在和异性相处的时候可以借鉴。

七位夫人(图片来源于网络

分析单位:可以以句子为分析单位,也可以以段落为单位,本文涉及的段落450字——480字为一个分析单位,(以WORD文档统计,全文1227969字,每页固定40行,每行固定30字统计,共有2727页,也就是有2727个分析单位。)

小贴士:

事实上,我们都对文本非常熟悉,工作和生活中都存在着大量的文本数据比如:网页、新闻、论坛、社交媒体(微博、微信)、评论(新闻评论、购物评论等)这些都是典型的文本数据,在海量的文本数据中蕴含着丰富的价值,对文本大数据的分析和挖掘具有重要意义,而它的典型应用又有舆情监控、商业智能、趋势预测、精准营销等等。

出场频次

小说对各个人物的着墨如何?这反映了不同人物的分量轻重。总体来说,采用了计数词频的方式,具体来说,围绕这两个问题展开。

1、如何定义一个人物?

2、怎样出场可以记一次?

以主人公韦小宝为例,定义这个人物最简单的方式就是书中出现“韦小宝”这个名词,但是这样做还是会有漏洞。小说中称呼他的方式还有很多,比如韦爵爷、小桂子等。因此,需要按照之前的数据准备,将同一个人的不同称呼都对应到“韦小宝”这个人物上来。


数据结果可以看出来,小说中男主角韦小宝的出现次数是最多的,其次是双儿和阿珂,她俩不分伯仲,小郡主和方怡紧随其后。我们在阅读小说时也能感觉到,小宝对双儿和阿珂是最特别的了。也许,双儿和阿珂中间,就能产生韦小宝的最爱。

从这个角度,我们也能看出来,多和异性接触,一定是会增进感情的,有想法要行动起来才有结果。

出场时间

人物的出场时间同样重要,这个爱情中,讲究情敌的出场顺序一样。这里可以将每个分析单位按照顺序编号:1,2,3……,T。时间点就可以理解为这些编号。然后对于每一个人物而言,可以统计其出场的时间点。

1、 韦小宝:68 69 70……

2、 双儿:856 857 858……

3、 阿珂:1321 1322 1323……

4、 苏荃:1004 1005 1006……

5、 建宁公主:1067 1068 1069……

6、 沐剑屏:472 473 474……

7、 方怡:574 575 576……

8、 曾柔:1127 1128 1129……

可以看出,出场最早的是小郡主,其次是小郡主的师姐方怡,再然后是和小宝最亲厚的双儿,其他人也都陆续在1000到1150,也就是小说的中间悉数登场。被很多人公认为小宝最爱的女人阿珂是出场最晚的。

而从亲密值的角度,也可以再深入分析一下小宝与女人们的关系。为了说明更简便,只针对双儿、阿珂和沐剑屏来分析。

亲密值公式:亲密密度=出场次数÷出场单元数量


可以比较明显的看出来,从亲密程度来说,小宝与双儿更亲厚。双儿可能是小宝的最爱。

可见,与异性相处,想获得亲厚的关系,需要努力增加存在感,并且要创造更多与对方一起完成的任务哦。

人以群分

前文的描述性分析已经基本反映了本书主角之间的关系。还可以通过人物进行聚类分析,理清人物关系。

词向量工具:就是讲词映射到欧氏空间的一种表示,其中,两个词语的寓意越详细,距离越近。

如何得到词向量?

这个模型通过对文本进行神经网络的分析,该模型通过学习训练语料获取词向量和概率密度函数,把词映射到低维向量空间,词向量之间cos距离的大小代表了词语之间关系的远近。词向量利用开源工具word2vec而得。

为了简单表达,用下面的图片来说明一下分析过程。

由于中文特殊性,训练词向量需要先对文本进行分词,去除停用词(比如了、的这样的表意特征不明显的词)

事实上,在金庸的武侠世界中,已经给各个人物分好类,这就是他们的背后的帮派。比如天地会、皇宫、沐王府、青木堂、神龙教等等。主要的区别,在于他们武功路数和立场不同。比如天地会经常说反清复明,而皇宫常说捉拿叛徒。

词向量的分析维度可以按照这些说法展开,本文不过多赘述,如想了解详细方法,可以在公众平台提问。

虽然,小宝的几位夫人最初与他的立场多有不和,比如阿珂最是反抗小宝,她自己刺杀吴三桂失手后,本来一心希望和郑克塽远走高飞,在扬州丽春院,怀了韦小宝的骨肉,后又发现郑克塽的本性,且逐渐意识到韦小宝对自己的好,转爱上他,终随归隐。

如果耐心等待,女神也会是你的。


标签: 大数据