数据分析学习总结笔记10:网络分析

1 网络分析概述

1.1 三大社会科学理论

  1. 突变理论(Catastrophe Theory)
    为人们理解微小作用导致社会突然变化的机理开拓了道路。
  2. 混沌理论(Chaos Theory)
    复杂而不断变化的系统,即使其初始状态是详尽了解的,也会迅速进入无法精确预知的状态。
  3. 复杂性理论(Complexity Theory)
    在大量元体(agent)各自按照不多的几条简单规则相互作用时,如何从中产生出秩序与稳定。

1.2 网络分析内容

网络无处不在,Internet、电力网络、交通网络等1。网络分析主要包括以下内容:

  1. 网络科学
  2. 社会网络
  3. 网络信息传播
  4. 网络分析技术与工具
    网络分析

2 网络的基本概念与特征量

2.1 网络的发展

1. 社会计量图
社会计量图
2. 社会网络分析
社会网络分析

2.2 网络的表达形式

网络科学的研究内容
1. 图
图
2. 邻接矩阵或邻接表
邻接矩阵或邻近表

2.3 网络基本概念与特征量

网络基本概念与特征向量

2.3.1 网络整体指标

1. 网络连通性
连通性
2. 网络密度

  • 网络密度指网络中实际存在的边数与最大可能的边数之比。
    网络密度

3. 网络直径、平均路径长度

  • 网络直径:网络中任意两个节点之间距离的最大值。
  • 平均路径长度:任意两个节点之间距离的平均值。

小世界现象:尽管许多实际复杂网络的节点数巨大,但是网络的平均路径却小得惊人。

2.3.2 网络节点指标

1. 度、度分布
度
2. 聚集系数
聚集系数
三种网络类型:
三种网络
3. 度中心性
度中心性
4. 介数中心性
介数中心性
5. 接近中心性
接近中心性
6. HITS算法、PageRank
HITS、PageRank

3 社会网络分析

3.1 社会网络分析法概述

**社会网络分析法(Social Network Analysis, SNA)**是对社会关系结构及其属性加以分析的一套规范和方法。
主要分析的是不同社会单位(个体、群体或社会)所构成的关系的结构及其属性。

  • :社会行动者,可以是任何一个社会单位或社会实体。
  • 关系:行动者之间的联系,常常代表关系的具体内容或者实质性的现实发生的关系。
    • 强关系:带来社会网络的信任
    • 弱关系:带来网络信息的传递

社会网络分析(Social Network Analysis)是最近非常流行的一种社会科学研究方法,当然,这种分析思想不仅仅是社会科学领域,其实很多自然科学领域也在研究网络。
常规统计分析处理的都是属性数据,社会网络分析处理的则是关系数据,其分析单位是“关系”,是从“关系”角度出发研究社会现象和社会结构,从而扑捉由社会结构形成的态度和行为2

通过案例深入理解社会关系网络。

社会网络的类型
社会网络类型

3.2 微博传播简介

  • 微博反映社会现象,是一种社会网络,要考察社会结构应该从关系的视角去思考。
  • 微博是一种传播现象,一种新媒体,需要考察传播机理和互动机制。
  • 社交媒体更具有媒介和传播属性。
  • 基于社会网络分析方法使我们能有效描述微博信息传播过程、相互作用和影响,洞察传播模式的动态演化。

3.3 社会网络分析工具——Cytoscape简介

Cytoscape

3.4 社会网络分析的应用

1. 社区发现
网络社区结构是指将网络中的节点划分为一组集合,集合内的节点连接较为紧密,集合之间的节点连接较为稀疏。
表示如下图,子图内个体之间关系紧密,子图间个体关系稀疏。
社区发现
常用算法:

  • 图分割:谱二分、K-L算法、最大流等;
  • 聚类算法:层次聚类、谱聚类和局部聚类。

2. 权力、声望和社会资本的直观表示
通过在网络中定义节点的度数、介数(betweeness)和接近度(closeness)等概念,可以揭示个人在社会中拥有权力和声望的情况。

  • 节点度数:个人有关系的人数;
  • 介数:个人在网络中是否占据中间地位,隐含着沟通不同群体的能力;
  • 接近度:个人与其他所有人的平均距离。

3. 追踪流行病的扩散/病毒式营销
流行病的扩散

4 社交网络

4.1 社交网络传播

1. 无标度网络——幂律分布(power-law)

  • 传播中的节点是不平等的
  • 存在少数重要的节点
  • 这些点起着重要作用
    幂律分布

幂律分布的典例:演员合作网络、地震强度、机场航班、战争规模、语言单词频率、姓氏分布、微博粉丝数、个人收入、GDP大小……

2. 社会关系图——幂律分布:

  • 增长性
  • 优先情节

3. 社交网络的传播结构——幂律分布

  • 聚集群体
  • 等级差异
  • 细分群体
  • 自组织性
  • 鲁棒性(健壮性)
  • 脆弱性

4. 结构主义思想
结构主义思想

4.2 社交网络营销

4.2.1 社交网络营销概述

社交网络营销:经由社会网络,在明确的目标群体规模和结构的基础上,通过关键成员(KOL)传递信息,以影响舆论和购买决策的形成

  • 社会化媒体是一种重要的营销工具,它是企业发布信息和影响消费者,并收集反馈信息与之互动的重要渠道。
  • 如何从海量的关系数据中发现有价值的信息、建立精准营销的目标客户、分析客户价值模型是很多企业关注的问题。

4.2.2 个性化推荐系统

推荐系统与算法:消费者更喜欢来自朋友而非系统的推荐,如何利用微博社会网络,从目标用户的朋友中挖掘可推荐的对象,或引导目标用户向其朋友推荐。
局部推荐算法:将信任评价机制和社会推荐有机结合。
个性化自适应算法:针对不同消费者行为模式,可采用不同的算法,且可随用户行为模式的变换自适应地改变并优化,实现更有效的个性化推荐。

  • 需要考虑到稳健性、精确性、多样性、新颖性的平衡。
    创新的扩散

4.3 网络传播结构

4.3.1 网络传播结构的构建

1. 来自平台
媒介平台本身记录了信息的扩散路径,因此可以通过平台提供的接口直接获取传播结构。如微博、论坛、贴吧等。

2. 来自标注
虽然平台没有直接记录,但是可以通过用户传播时的一些标注间接的找出传播结构。如微博里的//@, via XXX, 来自XXX等。
标注还原网络结构

3. 来自文本
在前两种都无法获取的情况下,通过计算文本相似性,再结合时间上的先后顺序,可以近似推出传播的结构。
(1)TF-IDF算法提取关键词;
(2)计算余弦距离;
(3)设定阈值判断(如,80%)。

4.3.2 网络传播结构的度量

1. 网络传播结构的空间度量
网络传播结构空间度量
(1) 网络传播结构的类型
传播结构类型
(2)结构性扩散度
结构性扩散度
(3)微博传播结构类型

  • 广播式传播
  • 病毒式传播
  • 阵列式传播
  • 明星效应
  • ……

2. 传播结构的时间度量
传播结构的时间度量
不同话题的传播趋势特征:
话题传播趋势特征
相关笔记:

  1. Python相关实用技巧01:安装Python库超实用方法,轻松告别失败!
  2. Python相关实用技巧02:Python2和Python3的区别
  3. Python相关实用技巧03:14个对数据科学最有用的Python库
  4. Python相关实用技巧04:网络爬虫之Scrapy框架及案例分析
  5. Python相关实用技巧05:yield关键字的使用
  6. Scrapy爬虫小技巧01:轻松获取cookies
  7. Scrapy爬虫小技巧02:HTTP status code is not handled or not allowed的解决方法
  8. 数据分析学习总结笔记01:情感分析
  9. 数据分析学习总结笔记02:聚类分析及其R语言实现
  10. 数据分析学习总结笔记03:数据降维经典方法
  11. 数据分析学习总结笔记04:异常值处理
  12. 数据分析学习总结笔记05:缺失值分析及处理
  13. 数据分析学习总结笔记06:T检验的原理和步骤
  14. 数据分析学习总结笔记07:方差分析
  15. 数据分析学习总结笔记07:回归分析概述
  16. 数据分析学习总结笔记08:数据分类典型方法及其R语言实现
  17. 数据分析学习总结笔记09:文本分析
  18. 数据分析学习总结笔记10:网络分析

本文主要根据个人学习(媒体大数据挖掘与案例实战MOOC),并搜集部分网络上的优质资源总结而成,如有不足之处敬请谅解,欢迎批评指正、交流学习!


  1. 媒体大数据挖掘与案例实战MOOC ↩︎

  2. 社会网络分析(Social Network Analysis) ↩︎

发布了30 篇原创文章 · 获赞 0 · 访问量 542

猜你喜欢

转载自blog.csdn.net/weixin_41961559/article/details/105306033
今日推荐