2018年10月8日,国际著名综合类科学期刊《美国科学院院刊》(PNAS)在线发表了best365网页版登录系统生物学研究中心马欢飞副教授研究课题组的题为“Randomly Distributed Embedding Making Short-termHigh-dimensional Data Predictable”的最新研究论文(自由投稿渠道),马欢飞副教授是该论文第一作者,best365网页版登录是唯一第一作者单位。PNAS与Cell,Nature,Science被公认为世界四大著名科学期刊,这是我校首次在PNAS发表数学类论文。
该项研究成果提出了基于非线性动力学的全新随机嵌入理论和方法——随机嵌入分布方法(RDE: Randomly Distributed Embedding),通过大量随机低维嵌入映射的构造获得目标变量预测值的分布,最终使得高维短序列时间序列数据的预测成为可能,从而建立了由短时间观测的高维数据,预测目标变量动态行为的全新理论和方法。
在时间序列分析中,一般认为在获得低维系统的大量时间样本(时间序列数据)后,系统的重构或者预测是可行的,而短的时间样本数据一般是不可预测。但是在大数据时代,在研究复杂系统时,我们往往获得大量的变量和有限的时间样本(如影像数据或组学数据)。一方面高维变量使得系统的拟合所需要的参数快速增长带来维度灾难,另一方面相对较短的时间域样本往往不能获得完整的系统动力学行为统计规律,这就对数据分析方法提出了新的挑战。
图1:即使学习数据只是吸引子的一部分样本,但RDE可以预测那些没有学习过的动态行为。放大图:基于分布的预测过程。
基于这个问题,该项研究使用非线性动力系统的嵌入理论(embedding theory)设计了全新的复杂系统预测框架,使用大量低维嵌入映射来构造弱预测器,在大量弱预测器的基础上构造强预测器,从而避免了维度灾难,并由高维系统中不同变量间的交互作用构建目标变量的动态信息,弥补了短时间样本的信息不足。该项研究从理论上给出了该框架的可行性分析,并通过基因表达数据、空气污染、疾病数据与气象数据等实际数据的预测进一步验证了该方法的可行性和优越性。
该工作对于大数据的分析,特别是高维短序列的时间序列数据分析提供了全新的概念和理论,不仅可用于时间序列的预测,也可应用于人工智能及脑科学中的大样本数据构建和全新学习建立等。
马欢飞老师2010年于复旦大学获得博士学位后入职best365网页版登录,2012年赴东京大学从事博士后研究,近年来主要从事非线性科学和系统生物学的研究,在数据的因果检测、预测和系统重构方面取得了一系列研究成果。该研究获得了国家自然科学基金重大研究计划和面上项目的经费支持。
论文信息:“Randomlydistributed embedding making short-term high-dimensional data predictable” Huanfei Ma, Siyang Leng, Kazuyuki Aihara, Wei Lin, Luonan Chen,Proceedingsof the National Academy of Sciences, Oct 2018, 201802987; DOI:10.1073/pnas.1802987115
论文链接:http://www.pnas.org/content/early/2018/10/04/1802987115