Transwarp StellarDB是星环科技自主研发的分布式图数据库,兼容openCypher查询语言,提供海量图数据的存储和分析能力,支持原生属性图存储结构,支持万亿边PB级数据存储。同时,StellarDB具备毫秒级点边查询能力,10+层的深度链路分析能力,提供众多图分析算法,具备数据2D和3D展示能力。StellarDB在金融、政府和社交网络等领域得到广泛应用,特别是在某地客户电信关系图谱场景实现了万亿边规模的存储和稳定运行,真正意义上将万亿级图数据库能力应用落地。
近日,星环科技分布式图数据库StellarDB正式发布4.1版本,在对现有功能进行优化的基础上,新增十多种图算法,并对部分已支持算法进行了性能提升,助力企业加速图数据分析。此外,StellarDB 4.1版本在数据类型和查询语法方面进行深度升级,大幅提高产品的易用性和建模灵活性,帮助用户更快、更高效地挖掘海量数据(603138)互联价值。
(相关资料图)
新增十多种图算法,近50种图算法满足更多业务场景
StellarDB支持丰富的图算法,支持内置和外置两套算法库来满足客户多种业务场景需求,其中内置算法库包含 PageRank、连通子图、LPA 等算法,外置算法库包含 NLP、NLU、深度学习算法来适配知识图谱业务场景。
StellarDB 4.1版本新增Weighted PageRank、Personalized PageRank、Dice Index、Adamic Adar等十多种图算法,内置图算法近50种,并且算法性能超过同类竞品数倍。
扩展PageRank类算法
StellarDB内置多种PageRank(页面排名)算法以满足不同业务场景需求。一般地,PageRank算法通过对图中的节点进行打分来评估图中节点的重要性,广泛地应用在金融交易关系分析、供应链分析和社交网络关系分析等场景。在不同的使用场景中,可以灵活使用不同的PageRank算法评估相关业务中的重要节点。例如,可以用来表征对应关系图谱中关联交易多或者特殊交易多的节点、供应链上不可替供应商和产品、社交网络中的名人等。
StellarDB 4.1版本新增Weighted PageRank、Personalized PageRank等PageRank类算法,以满足更细致的业务场景需求。如Personalized PageRank算法可以用于推荐业务场景,例如书籍推荐、音乐推荐等。以图示书籍推荐为例,在Personalized PageRank算法中,用户可以指定某个读者为推荐对象,比如读者A。通过执行Personalized PageRank算法,所有节点中用户关注的推荐对象读者A和该对象节点的相关点则会获得更高的访问概率,从而可以根据相关节点读者的阅读书籍进行书籍推荐。
扩展相似度算法
相似度算法可以用来衡量图谱网络中两个节点的相似性,可以应用于精准营销等场景。StellarDB 4.1版本新增Dice相似度计算算法,在金融交易网络中,可以将客户A和客户B的所有属性当作属性集合,基于Dice系数计算公式计算其相似程度,若得到两个用户具有较高相似度,则可以认为二者具有相似的交易行为,那么客户A感兴趣的金融产品可能也会引起客户B的兴趣。基于这个假设,便可以从大量客户中筛选出目标客户进行金融产品营销,从而提高营销效率和营销精准度。
关联查询、图算法性能数倍提升
在关联查询方面,StellarDB提供了分布式、可扩展的点、边查询能力,可支持 10+ 层深度查询,多跳查询性能是开源图数据库Neo4j的数倍。在4.1版本中,StellarDB对分析模式下小数据量任务调度进行了优化,减少调度任务数量,提升了任务执行效率。此外,StellarDB 4.1优化了多match条件关联查询的性能,针对“match pattern1 match pattern2”这种同时使用多个match语句,匹配模式共有对象且pattern2含有变长关系的语法进行优化,使得查询语句执行效率得到较大提升。
在图算法性能方面,StellarDB具有优异的图算法性能,在常用的图算法PageRank、强连通子图和LPA等算法方面是Neo4j的3-6倍以上。StellarDB 4.1版本基于实践经验总结,对原先支持中的十多种基本图算法进行了优化,算法性能均提升数倍。常用的算法如LPA算法性能提升约一倍,PageRank算法效率提升约2.7倍,多种最短路径算法性能提升了3倍以上。图算法性能的数倍提升可以帮助企业加速图数据分析。
更多数据类型,查询语法优化,易用性升级
数据类型丰富
StellarDB支持多种常用数据类型以及 Array 和高精度 Decimal复杂类型,在4.1版本中新增支持时序类型、地理空间(GEO)两个复杂类型,增加数据建模的灵活性,降低了传统图数据建模时需要单独对特殊数据类型构建点或者边的复杂性。
时序类型可以用来表示实体属性是具有时序特征的数据,也可以针对该属性存储不同时间点的数据。数据更新仅针对该实体点边而言,并不需要额外创建新的点或者边来表征不同时间的数据。比如金融场景中某用户的交易或转账记录数据或供应链场景中某货物供销记录数据等,都是具有时序特征的数据。StellarDB提供了灵活的数据管理策略,譬如保留一定时间范围内的数据或保留固定数量的最新数据等,方便用户专注于数据模型和业务模型的设计。
地理空间类型表征该实体属性是具有地理空间特征的数据,定义为地理空间类型的属性的值是一对经纬度值,该类型可判断给定范围内是否存在给定点等计算。地理空间类型支持基于经纬度的多种查询,比如可以查询某个地区一定范围内有多少期望查询的实体,从而方便用户为其应用或者业务添加基于地理坐标的各类功能。
通过新增复杂数据类型,将复杂数据类型的数据管理任务交给图数据库系统,降低人工维护复杂类型数据的成本,提高复杂类型数据管理的效率,让用户可以更加专注且高效地设计更符合业务的模型。
查询语法扩展
StellarDB支持openCypher查询语言,并在openCypher基础上进行了扩展,根据实际生产实践中所遇到的需求引入数据导入,图算法,建模等语法(Transwarp Extended openCypher(TEoC)),用户不仅可以低成本、平滑地替换任一基于Cypher或openCypher的图数据库(如Neo4j),还可以基于TEoC扩展语法更加灵活地构建应用场景。此次StellarDB 4.1对TEoC语法进行了进一步的优化,提高图数据库的易用性,主要包括:(1)bulk create语法支持在定义边时添加uid属性,用于区分不同的边;(2)针对旧版本中order by子句中需要强制进行类型转换,4.1版本中支持类型推断,简化了order by使用强制类型转换的语法;(3)使用TEoC语法声明变量时,在变量赋值时可以使用null值等语法功能优化等。
StellarDB架构图
访问接口能力加强
StellarDB支持Java SDK、Python SDK、Restful等接口方式提交查询语句,支持JDBC协议提交查询语句。StellarDB 4.1版本进一步加强对JDBC SDK的支持,引入StellarDBPreparedStatement对象以及占位符操作,不仅可以提升语句的执行效率,还能提高开发效率和灵活性。
星环科技分布式图数据库StellarDB通过了中国信通院图数据库和图计算平台基础能力2项评测,并列为全球图数据库代表产品上榜Gartner 2022年《图数据库管理系统市场指南》和信通院图计算平台代表产品。目前,StellarDB广泛应用于金融、政府和社交网络等领域,在人员社交网络探索、金融风险传播分析等场景发挥着重要作用。未来,星环科技将继续在图技术领域深耕,为企业提供查询速度更快、分析能力更强、稳定性更高的图数据库产品。同时,作为国内领先的企业级大数据基础软件公司,星环科技是国内同时具备图数据库、知识图谱平台、图挖掘应用开发能力的企业,其全栈自研的图技术能力可以助力企业快速挖掘图数据价值,推动业务高效高质量发展。