中文

Research Focus

[1]  

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

 

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》   中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。


大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 


随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。


[2]  

深度学习是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法: 

(1)基于卷积运算的神经网络系统,即卷积神经网络(CNN)。

(2)基于多层神经元的自编码神经网络,包括自编码( Auto encoder)以及近年来受到广泛关注的稀疏编码两类( Sparse Coding)。 

(3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”(feature learning)或“表示学习”(representation learning)。

以往在机器学习用于现实任务时,描述样本的特征通常需由人类专家来设计,这成为“特征工程”(feature engineering)。众所周知,特征的好坏对泛化性能有至关重要的影响,人类专家设计出好特征也并非易事;特征学习(表征学习)则通过机器学习技术自身来产生好特征,这使机器学习向“全自动数据分析”又前进了一步。

近年来,研究人员也逐渐将这几类方法结合起来,如对原本是以有监督学习为基础的卷积神经网络结合自编码神经网络进行无监督的预训练,进而利用鉴别信息微调网络参数形成的卷积深度置信网络。与传统的学习方法相比,深度学习方法预设了更多的模型参数,因此模型训练难度更大,根据统计学习的一般规律知道,模型参数越多,需要参与训练的数据量也越大。

20世纪八九十年代由于计算机计算能力有限和相关技术的限制,可用于分析的数据量太小,深度学习在模式分析中并没有表现出优异的识别性能。自从2006年, Hinton等提出快速计算受限玻耳兹曼机(RBM)网络权值及偏差的CD-K算法以后,RBM就成了增加神经网络深度的有力工具,导致后面使用广泛的DBN(由 Hinton等开发并已被微软等公司用于语音识别中)等深度网络的出现。与此同时,稀疏编码等由于能自动从数据中提取特征也被应用于深度学习中。基于局部数据区域的卷积神经网络方法今年来也被大量研究。


[3]  随着近几年关于复杂网络(Complex network)理论及其应用研究的不断深入,已有大量关于复杂网络的文章发表在Science,ature,RL,NAS等国际一流的刊物上,侧面反映了复杂网络已经成为物理界的一个新兴的研究热点。人们开始尝试应用这种新的理论工具来研究现实世界中的各种大型复杂系统,其中复杂系统的结构以及系统结构与系统功能之间的关系是人们关注的热点问题。[1] 在自然界中存在的大量复杂系统都可以通过形形色色的网络加以描述。一个典型的网络是由许多节点与节点之间的连边组成,其中节点用来代表真实系统中不同的个体,而边则用来表示个体间的关系,往往是两个节点之间具有某种特定的关系则连一条边,反之则不连边,有边相连的两个节点在网络中被看作是相邻的。例如,神经系统可以看作大量神经细胞通过神经纤维相互连接形成的网络[2];计算机网络可以看作是自主工作的计算机通过通信介质如光缆、双绞线、同轴电缆等相互连接形成的网络[2]。类似的还有电力网络[3]、社会关系网络[2,4-5]、交通网络[6]、调度网络[7]等等。 复杂网络的研究由于其学科交叉性和复杂性的特点,涉及了众多学科的知识和理论基础,尤其是系统科学、统计物理、数学、计算机与信息科学等,常用的分析方法和工具包括图论、组合数学、矩阵理论、概率论、随机过程、优化理论和遗传算法等。复杂网络的主要研究方法都是基于图论的理论和方法开展的,并已经取得了可喜的成果。但近几年,统计物理的许多概念和方法也已成功地用于复杂网络的建模和计算,如统计力学、自组织理论、临界和相变理论、渗流理论等[8],如网络结构熵的概念,并用它来定量地度量复杂网络的“序”。复杂网络模型在很多科学领域都得到广泛的应用。 参考文献: [1] 孙玺菁, 司守奎. 复杂网络算法与应用[M]. 国防工业出版社, 2015. [2] Watts D J, Strogatz S H. Collective dynamics of 'small-world' networks.[J]. Nature, 1998, 393(6684):440. [3] Faloutsos M, Faloutsos P, Faloutsos C. On power-law relationships of the Internet topology[J]. Acm Sigcomm Computer Communication Review, 1997, 29(4):251-262. [4] Hofman J M, Sharma A, Watts D J. Prediction and explanation in social systems.[J]. Science, 2017, 355. [5] Ebel H, Mielsch L I, Bornholdt S. Scale-free topology of e-mail networks[J]. Phys Rev E Stat Nonlin Soft Matter Phys, 2002, 66(3 Pt 2A):035103. [6] 吴...

  • 张成军
    • Telephone:

    • Email:

Copyright©2019 Nanjing University of Information Science and Technology·Network Information Center Click:
  MOBILE Version

The Last Update Time:..