【引自T_SevenS的博客】在开辟neo4j的过程中,经常会有同窗问若何向neo4j中导入大年夜量的汗青数据,而这些数据一般都邑存在于关系型数据库中,如今本人就根据本身的导入经历,把导入的过程和一些挖过的坑分享给大年夜家,以便后面的同窗少走弯路,废话不多说,直接上干货。
1、batch-import原始项目地址:https://github.com/jexp/batch-import
这个对象是neo4j的作者之一Michael Hunger所编写,是在neo4j自带批量导入对象基本之上做的进一步优化,然则它在导入.gz紧缩文件时,会出现关系无法导入的情况,所以如不雅要应用.gz紧缩包进行导入,请应用我修悛改的版本:https://github.com/mo9527/batch-import
2、情况预备
jdk:7以上
内存:8G以上,导入数据多的话会异常消费内存,我本身导入的是将近1.5亿节点,3亿关系,用的是32G内存
3、导入步调
a)大年夜github上clone下代码,并应用maven进行打包,打完包后的jar文件,与项目本身的依附jar一路放到lib文件夹下,batch.properties文件和履行导入的脚本放在lib同级目次下,最后的目次构造如下图:
ps:file文件夹是我本身将要导入的csv文件和.gz紧缩包。
如不雅想修改导入对象的Heap大年夜小,可以修改脚本文件中的 set HEAP=4G
3)、修改batch.properties文件
b)组装csv文件
说起这一步,可能须要你们根据本身的实际营业需求棘手动写代码导csv文件了,这里我只讲一下csv文件格局一些要点:
1)、节点csv文件
节点csv文件的第一列是固定的,列值为此节点的label名称,第二列是index,它的列头是id:string:indexName 这种格局,解释一下,id是这一列的property名字,可以根据须要本身定名,string为字段的数据类型,indexName是neo4j数据库中将要导入的索引名称,我本身的文件格局如下:
然后,后面的列就是节点的property了,没什么特其余请求
2)、关系csv文件
先看下我的关系csv文件:
关系的csv文件前两列要特别留意,第一列是关系的肇端节点,第二列是关系的停止节点,第三列是关系类型,后面的列是关系的property,可以随便了。他github上的解释没有说出一些留意点,这里要特别标明:
第一列的肇端节点的列头,也就是id:string:buyerId这个器械,这个玩意必定要和节点csv文件(上图)中定义的一模一样,第二列也是如斯,要和停止节点的csv文件里的一样,不然他会找不到对应的关系。
重要修改两个处所,
- 如不雅是在现有的neo4j数据库中进行导入,请设置:
batch_import.keep_db=true
- 将节点csv文件中所有的索引名称参加到文件中,例如膳绫擎这个节点csv文件中的索引名称是buyerId,那就在文件中参加batch_import.node_index.buyerId=exact
以下是我本人的设备文件:
4、导入
linux和win情况的导入都差不多,只不过履行的脚本不一样,这里以win情况为例。
文件都预备好了,如今开端导入了。
打开cmd,cd到导入脚本的目次,也就是import.bat地点目次,履行敕令:
- import.bat test.db node.csv rel.csv
解释一下敕令的几个参数:第一个参数是数据库的目次,可以绝对路径指定到随便率性地位,第二个参数是节点csv文件,多个csv文件用逗号分隔,如不雅是紧缩包,必定要留意,这里有个坑,不克不及把所有类型的node都放到一个紧缩包中,必定要每个类型的node分开紧缩,不然它只会导入第一个类型的node节点,同理,关系的紧缩包也要分开紧缩,然后导入时用逗号分隔.gz文件。
好了,如不雅你的csv文件没有问题,内存足够用的话,如今就开端等待吧。
温馨提示:如不雅节点文件中有中文的话,导入会异常慢的,除非你内存有128G,我有一个节点文件,琅绫擎只有一列是中文,并且中文最长不跨越4个汉字,2000多万记录导了2个小时,留意我是32G内存,其他4000多万的节点,没有汉字的,根本上不跨越2分钟。
【编辑推荐】
- 针对Oracle数据库备份恢复的一些懂得与总结
- 新数据库萌芽编辑器:加快Azure T-SQL的萌芽
- 数据库监控若何进步工程和开辟团队的工作效力
- MySQL数据库常用架构设计
- Oracle 12.2启用数据库对象的In-Memory转换填充
推荐阅读
Android 运行时情况带有一个基于 Android 开源项目镜像的最小自定义 Android 体系。所应用的镜像今朝基于 Android 7.1.1。 Anbox 以基于容器的方法,在像 Ubuntu 如许的惯例的 GNU Linux >>>详细阅读
本文标题:如何使用batch-import工具向neo4j中导入海量数据
地址:http://www.17bianji.com/lsqh/34941.html
1/2 1