论文分享：CommViz-Visualization of Semantic Patterns in Large Social Communication Network

Title： CommViz: Visualization of Semantic Patterns in Large Social Communication Networks（CommViz：大型社交网络中语义模式的可视化）
原文作者： Karin Verspoor, Bahadorreza Ofoghi, Marlene Robles Granda
期刊： Information Visualization
日期： 2018/01/01
原文地址： https://minerva-access.unimelb.edu.au/bitstream/handle/11343/127914/commviz-InfoVis.version-accepted.pdf?sequence=1
可视化链接： http://commviz.eng.unimelb.edu.au

0x00 概览

这篇文章介绍了一种信息可视化工具—CommViz，通过采用称为hive图的可视化方法来反映网络的语义结构，将其称之为语义蜂巢图。该方法有效地组织并提供对复杂的，高维度的通信数据的洞察，例如社交媒体上的电子邮件或消息。作者通过将CommViz工具的体系结构及其应用程序作为案例研究介绍给安然电子邮件语料库，演示了可视化结构如何能够调查大量消息中的模式和关系。

0x01 提出的问题及解决、文章目标、背景

1.1 提出的问题及解决

CommViz利用社交通信网络数据中的现有结构，例如电子邮件，即时消息或在线论坛 - 利用与每个单独消息相关联的元数据，指示发送者，接收者以及消息传输的日期和时间以及夫妻具有进一步上下文属性的结构，例如消息的推断主题内容（主题）或发送者的位置。

谁在给定的时间范围内向谁发送了关于什么主题的消息？
人们在谈论什么主题以及何时讨论？
哪些用户对特定主题进行了大量沟通？这对应于连接用户主题轴及其克隆的链接。
哪个主题与最大数量的邮件相关联？这可以通过源自用户主题轴的段中的链接的密度和暗度来观察。
在哪个时段是最常见的话题？通过查看源自用户主题轴并以用户时间轴轴结束的链接，可以观察到这一点。同样，坐标空间的该区域中的链接的密度和暗度表示重要的活动。
什么时候有最多的消息活动？这可以通过沿用户时间轴轴进入段的链接的密度和暗度来观察。
在给定的时间范围内，两个用户之间发送了多少条消息？这对应于连接用户时间轴和其克隆的链接。在这些轴之间的时间段内连接两个用户的暗链接指示当时两个用户之间的大量电子邮件。考虑图3中的安然数据集的概述。
CommViz方法解决了在二维表示中在单个链接中表示单个消息的四个核心属性的概念性挑战。

1.2 文章目标及贡献

设计一个可视化，公开用户（发送者 - 接收者）交互的网络结构，同时整合这些交互的上下文和时间属性。通过案例研究和用户研究证明该工具可用于阐明网络中与感兴趣的特定分析问题相对应的有意义模式，文章中论证了语义蜂巢图的使用优于替代方法可视化这些通信网络。
根据其属性组织消息，以便于检测与数据中的那些属性相关的有意义的模式，因此面临可视化高维多变量数据的问题。解决了在二维表示中在单个链接中表示单个消息的四个核心属性的概念性挑战。

1.3 相关工作及背景

大量节点和链接的可视化可能导致可视化中的“毛球”或“意大利面条”效应，具有大量的过度绘图，连接结构中的模式非常难以辨别。在图9中的代表性社交网络可视化中，可以观察到安全语料库中的这个问题，其将消息的人（发送者和接收者）显示为节点，并且当消息已经从一个人发送到另一个人时包括两个节点之间的链接。Hive图是作为“理性化”大型网络可视化的方法引入的，使用平行坐标图，其中轴是径向排列的，其中网络结构参数（如节点的聚类系数）用于将节点分配给轴，然后基于有序结构值（例如节点度或介于两者），将每个节点沿轴放置在可解释的坐标位置。蜂巢图在网络中的应用集中在根据网络本身的结构元素组织节点（即，定量网络结构测量）。所得到的可视化被认为是定量的，可视地可解析的和可缩放的。
已经开发了许多专门用于分析电子邮件的信息可视化系统，重点是电子邮件的元数据，包括旨在识别组织内的通信结构，线程结构或时间模式的工作。开发了很少的可视化系统考虑消息的上下文或内容。会话地图是一个早期系统，可视化Usenet的主题结构，提供社交网络，讨论主题和词汇关系的三个独立但相互连接的可视化。
主题模型通过应用概率图形模型得出，该概率图形模型推断在文档集合中聚集在一起的单词集合，以便发现代表集合中的文档的主题或主题。由于主题模型是对单词的概率分布，因此人们难以检查和验证。因此，已经努力促进主题的组织和可视化。这项工作主要侧重于主题的语料库级分析，包括TERMITE中主题模型中结构和术语关系的可视化，目的是支持对推断的主题质量的评估。其他工作，例如TopicMaps和TopicNets，已经解决了整个集合中主题和文档的连通性问题。许多其他工具，如Jigsaw和WordTree，也旨在揭示整个文档集文本中的模式，尽管它们不直接使用主题建模。

0x02 数据集及模型

2.1 数据集及处理

Enron email corpus（企业用户多年来发送的电子邮件）

该数据集最初包含属于158名安然员工的619,446封电子邮件，每位用户平均有757封邮件。大多数信息都是由安然公司的高级管理人员发送的。数据集中的每个电子邮件对象都包含发件人和收件人的电子邮件地址，邮件正文，日期，时间和主题。
经过处理之后，最终数据集包括89个人和56,210封电子邮件。

产生了四个核心维度：{sender, recipient, time, context}四个核心维度
为了捕获此数据集中的上下文，我们应用称为主题建模的自然语言处理技术来确定文档集合的主题结构。

在对安然消息运行LDA之前，对文本应用了许多预处理步骤，包括标记化。令牌的小写，词形还原（使用斯坦福核心NLP工具），使用标准停用词列表删除停用词，以及删除非字母令牌（因为在主题建模的上下文中数字可能不具备信息）。电子邮件内容也经过预处理，以删除一些不相关的文本。具体而言，在转发电子邮件的情况下，剥离了电子邮件正文中包含的嵌入标题信息。

2.2 语料库模型

应用主题建模的自然语言处理技术来确定文档的主题结构集合，并将每个电子邮件消息的内容与这些主题中的一个或多个相关联。使用Latent Dirichlet Allocation（LDA）方法，标准主题建模技术。

LDA中的主题由整个语料库词汇表中的术语列表上的不同分布表示。为了分析安然语料库并找到每封电子邮件消息的主题分布，使用了MAchine Learning for LanguagE Toolkit。

对于安全电子邮件的主题模型，LDA需要目标主题的数量作为其输入。实验中将主题总数设置为20，以用作可视化的初始目标集，而无需仔细调查最佳主题数。下表提供了MALLET在安然语料库中找到的主题（主题编号19）的示例，其中列出了该主题中概率最高的前10个术语。从该列表中，可以直观地确定该主题与能源定价有关。 alpha度量和令牌总数是主题的概率（在所有20个主题中总和为1.0）和语料库中与主题最相关的令牌总数。

<topic id=’19’ alpha=’0.0232’
totalTokens=’146261’>
    <word rank=’1’>power</word>
    <word rank=’2’>gas</word>
    <word rank=’3’>market</word>
    <word rank=’4’>price</word>
    <word rank=’5’>plant</word>
    <word rank=’6’>energy</word>
    <word rank=’7’>year</word>
    <word rank=’8’>project</word>
    <word rank=’9’>cost</word>
    <word rank=’10’>include</word>
</topic>

在确定主题后，作者通过计算与每个主题相关联的电子邮件中的单词比例，将每封电子邮件映射到其最可能的主题。

2.3 可视化方案

首先，就用户（在数据集中表示为发件人或收件人的个人）而言，我们已经开发了一个“可疑列表”，用于集中分析特定的个人子集。可疑列表中的每个个体都表示为可视化中的单个用户。其他安然内部用户（即，具有电子邮件地址@enron.com的用户）被组合在一起成为单个节点（节点1）。所有外部用户（非安然电子邮件地址）也组合在一起，形成一个节点（节点0）。

其次，如果电子邮件有多个收件人（例如，在：或：cc：列表中），我们会将该电子邮件视为连接发件人和每个收件人的多条（相同）个人邮件。

CommViz的核心可视化表示由两个主轴组成，每个主轴根据焦点问题，上下文或时间的一个方面表示数据集中的个体。对于焦点安全数据集，我们将上下文视为消息主题，由主题建模确定。

一个主轴线性划分为表示主题的段（每个线性段一个主题）。每个段包含一组表示电子邮件消息发送者的节点。对于安然数据集，每个段包含许多节点，这些节点等于安全数据集（或子样本）中的用户总数，并且轴具有与主题一样多的段。此轴上的每个节点代表可能已在给定主题上发送电子邮件的给定发件人。该轴称为用户主题轴。

第二主轴根据时间线性分段，因此在通信语料库中具有特定时间帧的段。发送消息的年份是沿此轴的安全数据集的初始分段结构。段中的每个节点表示在给定时间范围内可能的电子邮件收件人。我们称之为轴是用户时间轴的轴。
连接CommViz中节点的链接（弧）表示特定时间范围内特定主题的通信。图1描述了应用于安然数据的可视化的基本结构，两个用户之间有一个示例弧。弧表示两个用户之间关于时间帧2中的主题2的电子邮件通信（表示一个或多个消息）。

该可视化结构的一个重要特征是沿一个轴的信息通过边缘的连通性传递到另一个轴上的节点。也就是说，沿时间轴的时间信息不仅适用于该轴上的节点。，它还会将主题和在该时间段内链接在另一个轴上的各个用户相关联。这是因为单个链接代表发送者，接收者，时间范围，上下文的四倍。此属性表示CommViz以直观有效的方式表示数据的四个维度。
为了仅沿一个轴可视化用户交互（即，当不考虑另一个轴中的信息时），可以克隆蜂巢图中的每个轴。下图显示了在使用克隆时我们为安然语料库采用的相同结构。使用这种结构，可以专门理解在给定时间或关于给定主题的两个用户之间的交互。

2.4 评估可视化

使用对照实验来比较不同的技术/工具或相同的技术与不同的设置或样式是最常见的可视化评估类型。

为CommViz采用的可视化评估类型是一个面向分析的任务，其中相同数据的两个不同可视化在支持用户正确回答数据驱动问题方面的有效性方面相互比较。将CommViz的有效性与Cytoscape中实现的竞争对手可视化方法的有效性进行了比较。

首先从与安然电子邮件语料库相关的每个可视化（CommViz和Cytoscape）中捕获了六个屏幕截图。每个屏幕截图提供了回答特定类型问题所需的相同数据子集的视图。所有问题/图像在补充文件1和2中详述。问题涵盖数据集中的各种主题和日期信息。屏幕截图附有说明，以帮助用户理解问题的上下文，以及多项选择问题本身。机械土耳其工人被要求从四个选项之一中选择一个答案，根据对数据的标准分析查询得知正确的答案。

用户以三种不同的随机确定的顺序之一回答了12个问题，如下表所示。

将12个问题的三个序列中的每一个与相应的描述和屏幕截图一起放入单个人类智能任务中（因此总共有三个HIT）。每个HIT中的问题一次出现在屏幕上（带有问题编号，描述，可视化屏幕截图，问题和四个可能的答案选项），一旦他们回答，用户就无法返回上一个问题它移动到下一个。
每个HIT分别提交给Mechanical Turk，由50名不同的机械土耳其工人回答。
我们为员工实施了多项资格标准，包括：
允许工人只在每个HIT中回答一次问题。
如果他们已经回答了另一个HIT的问题，那么工人就不被允许带任何其他HIT。
工人必须拥有至少10,000个经批准的HIT。
对于他们之前为Mechanical Turk的任何请求者完成的HIT，工人必须至少拥有98％的批准率。

可视化技术的有效性分析的第一个指标是准确性。每种可视化技术的总体准确度计算为参与给定HIT的50名个体工人的平均值。为了确定两个可视化的准确度值之间的差异是否具有统计显着性，文章在与每个HIT和整体相关的准确度值之间进行了配对t检验。

只考虑不同工作人员在回答每种可视化技术的数据驱动问题时的一致性。这可以解释为意味着具有Cytoscape可视化的用户之间的响应更加一致，但是这些响应通常是不正确的，即，用户被可视化以一致的方式误导。

首先，针对每个可视化计算平均Fleiss Kappa，并针对每个问题，与金标准答案进行比较。这侧重于为每个可视化的每个单独问题给出的答案。在这种情况下，存在六个一致值，每个问题一个与相同问题的黄金标准答案相比（即，两个主题和每个HIT的50个响应）。然后计算HIT的这六个协议值的平均值。
下图为使用Cytoscape和CommViz获得的结果的准确性和评估者间协议分析。每个准确度值前面的y符号表示该值与基于标准95％置信水平的配对t检验的竞争可视化的准确度之间的统计上显着差异。在所有HIT和整体中，CommViz用户在测试问题上获得的统计上显着高于Cytoscape用户。

其次，对于每个可视化，以及每个工人，与黄金标准答案相比，计算了平均Fleiss Kappa。这个kappa值强调用户的六个答案的平均一致性与六个问题的六个金标准答案，这六个问题伴随着每个可视化技术的屏幕截图。这个kappa值强调用户的六个答案的平均一致性与六个问题的六个金标准答案，这六个问题伴随着每个可视化技术的屏幕截图。为此，计算了两组六个答案之间的50个一致值（即，六个主题和两个评价者）。然后计算每个HIT的这50个协议值的平均值。下图给出了这两个一致性分析的结果。

进一步分析了单个问题级别的结果，以确定两种可视化技术中的每一种都表现出卓越的性能;换句话说，与另一个相比，使用一种可视化技术的用户可以更有效地回答什么类型的问题。每个可视化的准确性首先计算机械土耳其工人为每个问题给出的答案。与技术水平分析类似，每个问题的黄金标准答案用于计算准确性。
结果表明CommViz使用户能够更有效地理解底层数据的信息内容。同时，使用CommViz可视化时，用户似乎更确定答案;与基于Cytoscape的可视化相比，用户响应的一致性更高。我们已经证明CommViz比标准的强制定向布局通信可视化具有重要的优势，特别是涉及上下文/主题之间或跨时间的比较分析的问题类型。

最后，展示了由150名机械土耳其工人选择的答案选项的分布，用（a）CommViz和（b）Cytoscape回答六个数据驱动的问题。用数字标注的条形对应于问题的“正确”答案。

0x03 创新性

社交网络特征与基础数据的语义属性在单个可视化中的集成。
最初为生物网络可视化开发的称为hive图的可视化方法的改编，以实现通信网络结构的清晰表达。这种适应的新颖贡献是根据数据语义而不是网络结构的定量特征来绘制数据。因此，称之为适应语义蜂巢图。
在消息的sender，recipient，time元数据之外添加额外的信息性维度，特别是消息的上下文，也可以用于反映消息的内容。因此，可视化捕获社交网络结构，包括消息方向性以及消息特定的上下文。
在单个边缘中表示消息的所有四个属性，同时还支持在大型消息集合中探索涉及属性的不同子集的模式。该方法从语义蜂巢图扩展到语义坐标，其中轴被构造为同时捕获两个属性。
CommViz具有灵活，性此可视化方法不仅适用于邮件数据，还适用于即时消息或在线论坛 - 利用与每个单独消息相关联的元数据，指示发送者，接收者以及消息传输的日期和时间以及具有进一步上下文属性的结构，例如消息的推断主题内容（主题）或发送者的位置。文中通过将其应用于小型Twitter样本，并将其应用于来自VAST 2015 Mini-Challenge 2的“Dinofun World”访客通信数据。证明了其应用场景的灵活性。两种调整都可以在盲目的情况下查看*。
可视化的评估方面，做了大量丰富的对比实验。

0x04 未来工作

可以增强界面和可视化的许多方面，以向可视化的用户提供更直接的反馈。显然需要对当前安然应用程序进行改进，以提高分析师理解用户主题轴上的主题对应的能力。进一步建立在数据的语义特征上的一种增强是将用户分组到组织结构中，例如，基于团队，部门等，并根据用户级别，聚合这些组之间，之间和之内的消息流量。
可以改进用作主题组织消息的基础的主题建模算法。McCallum 为此提出了作者 -收件人-主题（ART）模型，并使用该模型证明了分类任务的改进。该模型可以用于改进主题建模本身，并且可以被利用来以连贯的方式组织轴段内的用户节点，即，就其角色而不是当前的任意排序。
允许分析师根据感兴趣的特定问题从基础数据的各种视图中进行选择。然后根据该选择生成主要和次要组织维度;Web服务将相应地生成节点和边缘及其分组。可视化足够灵活，可以支持沿不同轴的多个层次组，并且我们实现的Web服务方法允许根据需要动态生成这些不同的视图。

0x05 我的一些思考

5.1 文章的一些不足

没有考虑如何最好合并一个额外的数据维度。在五个维度的时候，就不好表示了。
解释性问题。通过链接连接的轴之间的空间越大，越远离轴原点移动;可视化的评估解释。
时间动态问题。与主题相关的级别模式，例如，谁在谈论什么主题？如果没有明确表示代表中的个人，就不能轻易地进行查询。

文章的可借鉴的地方

可视化方案的评估方法；Fleiss Kappa一致性计算。
选取的邮件四个维度，文档主题模型的使用。
在其他领域的可视化方法的扩展。
克隆轴的提出。使用这种结构，可以专门理解在给定时间或关于给定主题的两个用户之间的交互。

可视化领域的一些点

提出一个新的可视化方法/算法；或者将别的领域的方法应用到当前领域中。
可视化模型及可视化方案。