中文分词在中文信息处理中是最最基本的,无论机械翻译亦或信息检索照样其他相干应用,如不雅涉及中文,都离不开中文分词,因个中文分词具有极高的地位。
NLP刚入门,想找个器械练练手,于是便看到了手边的农药。。。
思路
- 应用Python爬取王者光荣官网所有豪杰的背景材料文本信息
- 应用RMM最大年夜逆向匹配分词算法对文本进行分词处理,计算词频
- 应用Excel出具简单的可视化申报
结不雅
爬取了王者光荣官方网站-腾讯游戏
71位豪杰的豪杰故事文本
共计59793个字符
排名前20的高频词汇:
【本身】一词出现了194次,词频为0.48%,高居榜首。
王者光荣团队在介绍豪杰时,多以第一人称视角进行故事论述和情感宣泄。
有利于用户更好地舆解豪杰背景,触发共情效不雅,有利于进步用户的┞符体游戏体验。
男性词汇: 他 他们 男 须眉 汉子 少年 爹爹;出现次数704次,词频为1.74%。
男女词汇比例为73:27,男女豪杰数量比例为72:28,几乎一致王者光荣的豪杰更迭与故事成长重要与男性豪杰相干
如铠的豪杰背景中,【他】出现了31次,【她】出现了1次
在同为长城小队队员的花木兰豪杰背景中,【他】出现了12次,而【她】出现了1次
男女词汇比例
重要情节均由男性角色推动。
【长安】、【长城】和【大年夜唐】稳居榜首前三,占据了前20地名中46.67%的词频
繁华盛世和战乱边疆都是孕育无数豪杰豪杰的好处所,兼容并蓄的社会情况和攘外安内的国度政策迸发出一批又一批的青年才俊。
如苏烈的豪杰故事中,【本身】就出现了4次,图片所截区域不全,仅作展示解释。
女性词汇: 她 她们 少女 女 老婆 太后 女娲 小女孩 女郎 女孩 女婴 女兵士;出现次数263次,词频为0.65%。
王者光荣的游戏策划也是深谙此道。
今朝所有的豪杰均来自于王者大年夜陆的魔幻地盘之上,如城镇、废墟、地下、丛林、深渊、寺院和戈壁等。
官方人员在设计新的豪杰时,不妨把视角转向浩渺的天空。
排名前20的地点词汇:
如Dota中的双头龙、精灵龙、寒冰飞龙、逝世灵飞龙和凤凰等角色,来为游戏注入新的活力,进一步加强游戏本身的趣味性和可玩性。
正负面情感词汇比例
正负面词汇比例为65:35,豪杰们多因外族入侵、魔道跋扈獗、国破家亡和欲望幻灭等身分,为了国度安宁和妄图实现,不得不拿起手中刀剑,奔向疆场
天降大年夜任于斯人也,必先苦其心志,劳其筋骨,饿其体肤,空乏其身,行指乱其所为,所以动心忍性,曾益其所不克不及。
正面词汇: 爱 仁 和平 信赖 成功 欲望 微笑 光荣 巨大年夜 光辉 美丽 自负 等;出现次数425次,词频为1.04%。
负面词汇: 魔 魔道 阴郁 末路怒 反叛 恐怖 恐怖 掉去 逝世亡 危险 吞噬 险恶 残暴 嘲笑 熬煎 战乱 等;出现次数780次,词频为1.91%。
【编辑推荐】
- 人工智能、大年夜数据、云计算等有望成为行业下一?引擎?
- 大年夜小白到大年夜数据人工智能专家的进修过程
- 大年夜数据分析技巧与拭魅战之Spark Streaming
- 若何搭建企业“大年夜数据视野”? 五个步调帮你搞定
- R vs Python,数据分析中谁与争锋?
推荐阅读
起首,什么是 Python?根据 Python 创建者 Guido van Rossum 所言,Python 是一个:高等编程说话,其设计的核心理念是代码的易读性,以及许可编程者经由过程若干行代码轻松表达设法主意创>>>详细阅读
本文标题:数据分析:王者荣耀英雄背景下的分词报告
地址:http://www.17bianji.com/lsqh/37928.html
1/2 1