内容简介
《图数据管理与挖掘》介绍了图数据管理与挖掘的关键技术,涵盖基于集合相似度的子图匹配查询处理方法与原型系统、情境感知的个性化推荐方法、利用多层聚簇的跨类协同过滤推荐算法、基于潜在主题的准确性Web社区协同推荐方法、基于用户社区全域关系闭包的高效均衡性Web社区推荐方法、Web社区推荐原型系统、大规模时空图中人类行为模式的实时挖掘方法、基于潜在引用图数据的专利价值评估方法、基于专利关联的新颖专利查找方法,以及异构专利网络中的竞争对手主题预测方法。
《图数据管理与挖掘》适合计算机、信息管理等相关专业的高年级本科生和研究生阅读,也可作为数据科学等相关领域的研究与开发人员的参考书。
内页插图
目录
前言
第1章 大图数据库中基于集合相似度的子图匹配查询处理方法
1.1 引言
1.2 预备知识
1.2.1 问题定义
1.2.2 架构
1.3 集合相似度剪枝
1.3.1 倒排模式格的构建
1.3.2 剪枝技术
1.3.3 倒排模式格的优化
1.4 基于结构的剪枝操作
1.4.1 结构化签名
1.4.2 基于签名的LSH
1.4.3 结构化剪枝
1.5 基于支配集的子图匹配
1.5.1 DS.匹配算法
1.5.2 支配集的选择
1.6 实验分析
1.6.1 数据集合设置
1.6.2 比较方法
1.6.3 线下性能
1.6.4 线上性能
1.7 结论
第2章 基于集合相似度的子图匹配查询原型系统
2.1 引言
2.2 预备知识
2.2.1 问题定义
2.2.2 方法概览
2.3 签名及DS-Tree
2.3.1 查询签名和数据签名
2.3.2 DS-Tree
2.3.3 利用DS-Tree查询
2.4 支配子图
2.5 SMOC算法
2.6 实验
2.6.1 数据集和实验环境
2.6.2 对比方法
2.6.3 离线处理性能
2.6.4 在线处理性能
2.7 结论
第3章 利用社会网络图数据的情境感知个性化推荐方法
3.1 引言
3.2 预备知识
3.2.1 问题定义
3.2.2 方法框架
3.3 角色挖掘
3.3.1 角色的定义
3.3.2 用条件数据库进行角色挖掘
3.3.3 情境感知的角色权重
3.4 基于角色的信任模型
3.5 寻找相似用户
3.5.1 WSSQ算法概述
3.5.2 前缀过滤
3.5.3 L1-范数过滤
3.5.4 相似度计算的优化
3.6 推荐方法
3.7 实验评价
3.7.1 数据集描述
3.7.2 对比方法
3.7.3 对角色挖掘和信任模型的评价
3.7.4 推荐质量
3.7.5 推荐时间
3.8 结论
第4章 多层聚簇中基于协同过滤的跨类推荐算法
4.1 引言
4.2 预备知识
4.2.1 问题定义
4.2.2 算法框架
4.3 多层聚簇
4.4 利用多层聚簇推荐
4.4.1 推荐框架
4.4.2 Top-K推荐
4.5 实验
4.5.1 数据集
4.5.2 对比方法
4.5.3 评价标准
4.5.4 参数设置
4.5.5 minsup的影响
4.5.6 效率和扩展性
4.6 结论
第5章 基于潜在主题的准确性Web社区协同推荐方法
5.1 引言
5.2 基于潜在主题的Web社区协同推荐方法
5.2.1 方法框架
5.2.2 ITS值计算.
5.2.3 ETS值计算
5.2.4 IETS值计算
5.2.5 可扩展性
5.3 实验及分析
5.3.1 数据集描述
5.3.2 实验方案
5.3.3 实验结果
5.4.结论
第6章 基于用户-社区全域关系的新颖性Web社区推荐方法
6.1 引言
6.2 UCTR方法
6.2.1 UCTR方法框架
6.2.2 社区准确度计算
6.2.3 社区新颖度计算
6.2.4 社区UCTR值计算
6.3 实验及分析
6.3.1 数据集描述
6.3.2 推荐准确性评价
6.3.3 推荐新颖性评价
6.3.4 推荐综合评价
6.4 结论
第7章 基于用户-社区全域关系闭包的高效均衡性Web社区推荐方法
7.1 引言
7.2 NovelRec方法
7.2.1 方法框架
7.2.2 离线建模计算
7.2.3 在线推荐计算
7.2.4 NovelRec复杂度分析
7.2.5 用户冷启动分析
7.3 实验及分析
7.3.1 实验数据分析
7.3.2 推荐准确性分析
7.3.3 推荐新颖性分析
7.3.4 NovelRec性能分析
7.4 结论
第8章 Web社区推荐原型系统
8.1 引言
8.2 Web社区建模
8.2.1 对象代理模型概述
8.2.2 利用对象代理模型建模Web社区
8.3 Web社区管理原型系统
8.3.1 对象代理数据库概述
8.3.2 基于TOTEM的Web社区管理系统
8.4 Web社区推荐原型系统
8.4.1 推荐系统实现机制
8.4.2 推荐系统功能效果
8.5 结论
第9章 大规模时空图中人类行为模式的实时挖掘方法
9.1 引言
9.2 预备知识
9.2.1 定义
9.2.2 问题陈述
9.2.3 框架
9.3 在单一时间间隔中的黑洞检测
9.3.1 STG索引
9.3.2 候选网格选择
9.3.3 空间扩展
9.3.4 流上限更新
9.4 连续检测
9.5 实验评估
9.5.1 数据
9.5.2 北京市案例研究
9.5.3 纽约市案例研究
9.5.4 在单一时段内的表现
9.5.5 连续检测的表现
9.6 结论
第10章 基于潜在引用图数据的专利价值评估方法
10.1 引言
10.2 潜在引用关联
10.3 专利价值评估基本算法
10.4 专利价值评估改进算法
10.5 专利价值评估更新算法
10.6 实验评估
10.6.1 实验设置
10.6.2 评估方法
10.6.3 结果与分析
10.7 结论
第11章 基于专利关联的新颖专利查找方法
11.1 引言
11.2 相对新颖图
11.3 专利新颖度排序算法
11.4 专利新颖度更新算法
11.5 实验评估
11.5.1 实验设置
11.5.2 评估方法
11.5.3 结果与分析
11.6 结论
第12章 异构专利网络中的竞争对手主题预测方法
12.1 引言
12.2 竞争对手的主题预测的框架
12.3 主题词选取
12.4 建立企业-主题异构图
12.5 拓扑特征的分析和抽取
12.6 基于监督模型的主题预测方法
12.7 实验评估
12.7.1 实验设置
12.7.2 评估方法
12.7.3 结果与分析
12.8 结论
参考文献
前言/序言
最近几年,图数据管理与挖掘技术的发展和应用引起了国内外研究者和工业界的极大兴趣。图作为一种常见的数据表示模型,用于建模复杂数据以及数据之间的关联,例如社会网络、语义网、路网、生物网络、专利网络等。图数据库是指被存储的数据对象是基于图数据模型的。图数据管理的核心问题是图数据库的查询处理,即基于图模型的结构查询,例如子图匹配查询、路径可达性查询、路径距离查询等。虽然从某种角度上来说,图数据库中的查询也可以用SQL语言来表达,利用现有的RDBMS的查询功能来完成,但是这样的查询系统的性能是非常低的。图数据管理研究的关键点是如何设计有效的索引结构和查询算法来快速地回答图数据库中的结构查询问题。图数据挖掘相比于关系数据库的挖掘更强调的是发现与分析数据之间的关联关系。随着大数据时代的到来,数据的关联关系在数据挖掘和分析的过程中越来越受到重视,是商务智能、决策支持、科学研究等领域的核心问题与难点。对于图数据管理与挖掘查询的研究最早可以追溯到20世纪90年代。最近,由于社会网络数据,专利网络数据,以及语义网数据等领域大数据的大量出现,引起了对于图数据管理与挖掘的新一轮研究热潮。在最近几年的三大国际数据库顶级会议(SIGMOD,VLDB和ICDE)上均有图数据管理与挖掘的相关论文,并且数量与比例逐年上升。
社会网络、时空图以及专利网络具有天然的图数据特征,数据之间的复杂关联以及大数据的产生给管理和挖掘这些数据带来了巨大的挑战。本书以图数据理论与模型为基础,面向社会网络、时空图、专利网络等应用领域,提出了一系列的图数据管理与挖掘关键技术。
本书的撰写得到武汉大学多位教师、同学的大力协助和支持,尤其是余骞博士和冯岭博士对本书部分内容的撰写做出了贡献,对他们的辛勤付出表示由衷的感谢!感谢相关学术研究的合作者,你们在我学习和研究道路上给予了大量的帮助和指导。感谢家人的陪伴、支持和鼓励。
本研究受到国家重点基础研究发展计划(973计划)“科学大数据管理系统(面向特定领域的大数据管理系统)”子课题“图数据管理关键技术及系统”(编号:2016YFB1000603),国家自然科学基金青年基金项目“移动社会网络中基于信任关系的情境感知推荐研究”(编号:61303025),以及国家自然科学基金重点国际合作研究项目“大数据环境下的知识组织与服务创新研究”(编号:71420107026)的资助,作者在此表示衷心的感谢。
《数字世界的脉络:深度剖析信息组织、处理与智能分析》 内容简介 在这个信息爆炸的时代,数据早已不再是孤立的字节集合,而是 interwoven、相互关联的庞大网络。理解、管理并从中提炼有价值的洞见,是驱动科学发现、商业创新乃至社会进步的关键。本书《数字世界的脉络:深度剖析信息组织、处理与智能分析》便是一本致力于揭示这一复杂信息生态系统奥秘的专著。它并非聚焦于某种特定类型的数据,也未局限于某个单一的技术领域,而是从一个更宏观、更根本的视角出发,深入探讨了信息如何被组织、如何被有效地处理,以及如何通过智能分析手段,从海量数据中挖掘出隐藏的规律与价值。 本书的主旨在于构建一个关于信息管理的全面框架,其核心理念是将现实世界中的复杂关系映射到数字领域,并在此基础上设计高效的组织与处理机制。它首先从信息组织的理论基石讲起,探讨了不同数据模型的优势与局限,从传统的层次化结构、网状结构,到更具表现力、能够捕捉细粒度关联的图结构(但请注意,本书并非仅限于图数据管理与挖掘,而是将其作为一种重要的组织方式进行阐述)。在此基础上,本书详细介绍了数据存储的先进技术,包括分布式文件系统、NoSQL数据库以及面向特定应用场景的专用存储方案,并分析了它们在性能、可扩展性、一致性等方面的权衡。 在数据处理方面,本书涵盖了从数据采集、清洗、转换到整合的全流程。它深入讲解了数据质量的重要性,以及如何通过各种技术手段识别、纠正和处理数据中的错误、缺失、不一致和重复信息。对于大规模数据集的并行处理,本书详细介绍了MapReduce、Spark等分布式计算框架的工作原理、编程模型以及优化策略,使读者能够掌握构建高效数据处理流水线的技能。此外,本书还探讨了流式数据处理的挑战与方法,例如如何实时捕捉、分析和响应不断涌入的数据流,以及如何利用内存计算和事件驱动架构来提升处理效率。 本书的另一重要组成部分是智能分析。它超越了传统的数据统计与可视化,而是深入探讨了机器学习、人工智能等前沿技术在数据洞察中的应用。本书系统地介绍了各种主流的机器学习算法,包括监督学习(如线性回归、逻辑回归、支持向量机、决策树、随机森林、梯度提升树)、无监督学习(如聚类算法K-Means、DBSCAN,降维算法PCA、t-SNE)以及深度学习(如卷积神经网络CNN、循环神经网络RNN、Transformer模型)的基本原理、适用场景、优缺点及实现细节。本书并非停留在理论层面,而是结合了大量的实际案例,演示了如何将这些智能分析技术应用于诸如预测分析、模式识别、异常检测、推荐系统、自然语言处理、图像识别等多种实际问题。 本书特别强调了数据治理与安全。在海量数据的管理过程中,如何确保数据的合规性、隐私性和安全性是至关重要的议题。本书深入探讨了数据隐私保护技术,如差分隐私、同态加密、联邦学习等,以及数据访问控制、数据审计、数据生命周期管理等安全策略。它还关注了数据伦理问题,引导读者思考如何在利用数据的同时,保护个人隐私和维护社会公平。 在技术实现方面,本书并未局限于某种特定的编程语言或工具,而是力求讲解通用性的原理与方法。它会引用多种语言和框架(如Python、Java、Scala等)以及常用的数据处理和分析库(如Pandas、NumPy、Scikit-learn、TensorFlow、PyTorch等)的示例代码,帮助读者将理论知识转化为实际操作。 本书的写作风格力求严谨、清晰,并辅以丰富的图示和表格,以帮助读者更好地理解抽象概念。每个章节都设计有思考题或实践练习,旨在巩固所学知识并激发进一步的探索。 总而言之,《数字世界的脉络:深度剖析信息组织、处理与智能分析》是一本面向广泛读者的专著,包括但不限于计算机科学、信息管理、数据科学、人工智能等领域的学生、研究人员、工程师以及对数据管理与分析感兴趣的从业人员。它旨在为您提供一个坚实的理论基础和一套实用的技术工具,帮助您驾驭日益复杂的数字世界,从纷繁的数据中挖掘出无限的可能。无论您是希望系统学习数据管理的核心概念,还是希望掌握前沿的数据分析技术,抑或是关注数据安全与伦理,本书都将是您不可或缺的参考指南。它将引领您穿越数据的迷雾,探寻信息背后的脉络,最终实现数据驱动的洞察与决策。