读《复杂数据统计方法》之初见

书的第一章讲到,统计可以定义为‘收集、分析、展示和解释数据的科学’,也称‘数据科学’。

书题中提及的‘复杂数据’并没有确切的定义,但是却与统计学发展的不同阶段有密切联系。早期人们获取的数据的量和复杂程度要远逊于big data盛行的今天,加上计算资源的限制,人们更倾向于采用基于诸如独立同正态分布之类的数学假设的数据分析方法,即‘模型驱动’的研究方法;后来随着计算机的发展,科学家可以接触到的计算资源也不断增加(比如我们实验室自己搞的SGE并行计算平台,以前哪有想过心理学家会需要用这个呢,哈哈),更多的科学家开始接受以数据为主导的研究方式,特别是决策树、boosting、随机森林和SVM等大量算法模型的相继出现基本宣告了传统模型主导的数据分析时代的终结。

Read More

虽然苦了点,至少还活着

(下面是一次主题讨论上的讲稿,不喜可以绕行了微笑)

这次主题讨论活动的主题是‘树立坚定的理想信念与促进研究生成长的关系’。

这里有一个猛一看貌似‘假大空’的词,也就是‘理想信念’。这个理想信念到底是指什么呢?弄不清这个概念,很难谈它与研究生成长的关系。

Google告诉我,在当代中国,共产党人的理想信念是:坚持与实践党的基本理论(马克思列宁主义、毛泽东思想、邓小平理论和“三个代表”重要思想);坚定共产主义远大理想;坚定不移地走中国特色社会主义道路;坚持党的基本路线和基本纲领不动摇。

Read More

关于Replication的一点思考

时下,关于心理学研究的Replication的问题讨论得正是火热,也引发了众多‘方舟子’们打假的热情。

目前讨论主要集中在,心理学研究的可重复性有多大、打假必要性以及科学是否可以自修正等方面。当然,也有研究者已经开始着手重复别人的研究,看是否可以重复。突然想起网上传的一句貌似很能支持Replication大潮的一句话,即Replication is the best statistics。这句话看上很有道理,俨然成为推崇Replication一波人的信条,也不怪乎广泛流传。

Read More

Seeing is Believing, Binned Scatter Plot

“Seeing is believing” is an idiom meaning “only physical or concrete evidence is convincing”. According to the Wikipedia, it leads to a sophistry that “seen evidence” can be easily and correctly interpreted, when in fact, interpretation may be difficult. It is in the same way when drawing scatter plots with your correlation data.

Read More

Correlation, p-value, CI, and Sampe Size

Lately in my research, I have been focusing on correlations between behavioral data from a large dataset. As is known, correlation is an expression of how well the linear relationship between two sets of data, that is to say, how they are related under the simple linear model. To give an example, for researchers, number of papers and their salary are well correlated. Thus, you can use a researcher’ number of papers to predict his/her salary. It is important to note that ‘correlation does NOT imply causation‘.

Read More

Movement Matters, neural and psychological correlation of head motion during MRI scanning

In MRI experiments, we usually ask our participants to keep still in the scanner because head movement may affect the data quality. Meanwhile, we always do the motion correction before fMRI/rfMRI data preprocessing, aiming to reduce the potential influence of this unwanted noise. However, recent studies showed that there were motion effects even after the motion correction with the standard algorithms. For example, the artifact of participant motion affects the functional connectivity analysis of rfMRI data. In addition, head motion can also result in a bias for the calculation of both FA and MD in DTI data analysis.

Read More

配准位移有信息么?

今天看发布TBSS的2006的一篇文章,看到一个很有意思的参数,nonlinear displacement。看上去配准的时候位移应该是没有什么意义的,但是这其中似乎真的有一些信息等着我们挖掘。

Smith et al., 2006 为了identify the target for alignment,考查了summary nonlinear displacement scores (Fig. 7)。For each target subject, a column of scores is shown; each score represents the root mean square displacement (across all brain voxels) for the nonlinear component of the alignment of any given subject to the target subject.

Read More

大连之行

过去的一周里老板安排我们几个做影像数据处理的到大连参加一个学术会议,昨天凌晨回到北京,时隔近一周时间,今天早晨起来又见到了北京晴朗的天空。

既然是开会,当然要先说一个这个会。这是一个神经影像处理的会,叫什么名就不指明了。参会的大多是医生,然而主题是神经影像数据处理,就可以预期到会议的质量了。这次会议的报告可以分几类:第一类是概述类,比如会议请来了BNU认知所的3位老师,在所里听过内容基本一样的报告,没什么新东西,不过算是前沿,对医生可能有用,对我们没学到什么新东西,另外数字人等医学相关的报告,还是长了一些见识;会议请了local承办方的两个老师讲了他们的成果,分子和细胞水平的,虽然和这个会议的主题有点不搭边,但是研究成果确实很有显示度,加上两位老师讲东西的水平很高,逻辑清晰,外行也能跟着逻辑听个大意,个人觉得这两位应该是承办方代表性的人物吧,不过对参会者没有什么太多借鉴的地方,这是第二类;第三类是成果报告类,基本内容是自己近期的研究成果报告出来,主流是connectome相关的报告,如病人正常人脑网络的比较以及不同基因型脑网络的比较等,还是connectome的传统研究套路,方法上没有突破;最后一类是请了一些所谓‘计算机领域’的专家,讲自己所谓的‘方法创新’‘工具开发’,很难理解他们是如何做到的(此处省去200字)。另外,这次参会最主要的收获,没有之一,是见到了蒋田仔老师的真人,他主要讲他提出的brainnetome(其实和美国的connectome大同小异了),虽然没有新内容,但是头一次见到真人还是有点小激动。

Read More

0.05,一个神奇的数字

0.05是一个神奇的数字,它可以让你high,也会让你很焦虑。

p value

另外附一则见闻

Read More

将基于volume的atlas图谱map到surface

之前提到如何使用caret将volume的统计结果map到surface上显示,在实际科研生活中我们有时会需要将准备好的几个ROI(每个ROI中voxel的值为该ROI的编号/atlas)投射到surface上。下面简单截的动画就是完成将volume的atlas投射到surface上的工作。

Read More

Correlation versus Prediction

从相关到因果,中间隔着十万八千里,之间存在质的区别。google一下”correlation does not imply causation”,我们可以看到太多的类似的陈述。但是在学术论文的发表中,如果能够得到’因果’的研究结果无疑是向前迈进了一大步,这是人类科学研究的一大进步(至少相对于’相关’),同时也更容易被高分杂志接收。当然,’因果’相对于’相关’总是来之不易的。在’相关’和’因果’之外,存在另一个关键词’预测’。学术报告中经常出现’prediction’或’A predicts B’,给人的感觉比’相关’确实向前走了一步。无疑地,如果我们得到了A与B相关,我们可以说A可以预测B,因为B和A存在一定的共变。文章中correlation和prediction之间存在什么差异呢?下面谈一下个人对’相关’和’预测’的关系。

Read More

volume的统计结果mapping到surface

前一段折腾了一下用caret将基于volume的统计结果mapping到surface上显示的事情,虽然当时查了一堆材料,流程走通了其实很简单。

surface显示相对于volume的好处就不说了,mapping到surface这个活儿也可以用tksurfer来做(大家之前用过的),不过视觉效果真心不如caret。

Read More

从相关到因果

接着前面的写,首先补充一个计算公式,即Fisher’s z变换Z= (ln (1+r) - ln (1-r)) / 2。用于相关系数r不服从正态分布时,将r转换成正态分布的z,然后就可以用常用的t检验进行比较检验。

上次提到关于r和p的作用,用一句话总结一下上次的观点是:r是对样本的描述,p是对该r能推广到总体的程度的描述。r越大固然越好,但是样本量不能太小,否者就不能代表总体,即不显著;同样地,显著性越大固然也越好,因为这说明你的相关系数更可能表示了总体的相关,于是在相关系数很小的情况下,我们可以通过增加样本量以达到显著。这里就存在一个让人纠结的地方:因为只要样本量足够大,研究者总可以得到一个显著的结果。

Read More

从相关到因果2

相关在日常的研究中常涉及到,‘相关correlation’是指一大类统计两个随机变量或两组数据之间关系的方法。常用的计算相关的方法有Pearson correlation, Spearman correlation以及partial correlation,Kendall’s Tau等多种。其中,相关系数r (Pearson correlation coefficient)尤为常用,r从-1到1,r越接近于-1或1,表示两个变量越相关related;当r靠近0时,表示两个变量之间没有关系。因此,相关系数表示两个变量共变的程度。另外,相关系数还有一种理解,即r的平方与一个变量与另一变量相关related的变异占该变量变异的百分比相等。

Read More

Difference between subprocess.Popen and os.system

os.system is equivalent to Unix system command, while subprocess was a helper module created to provide many of the facilities provided by the Popen commands with an easier and controllable interface. Those were designed similar to the Unix Popen command.

Read More