일반적인 데이터 분석에 관련된 기술을 포스팅하고 싶었지만, 데이터 분석은 data specific한 부분들이 있기 때문에 일반적인 데이터 분석 및 시각화 기법에 대한 강의는 어려울것 같고, 뇌영상 데이터와 트위터 데이터 수집 및 분석과 관련된 포스팅을 연재하고자 합니다.

일단 뇌영상 데이터 분석 기법으로 강의를 시작하는 이유는 최근 5년 동안 제가 연구해온 분야로 expert까지는 아니어도 intermediate 이상의 실력은 된다고 생각하고 있기에, 지금까지 습득한 노하우를 관련 분야에 계신 분들께 나누고 싶은 생각이 들었고, 병역특례가 끝나는 2014년 8월 26일까지는 뇌연구를 계속 할 것이지만 그 이후에는 현재의 연구소에서 계약을 연장하기 어려운 상황이고 월급 100만원도 안되는 학생 신분으로는 더더욱 돌아갈 수 없는 상황이기 때문에 하루라도 빨리 이 작업을 수행해야 겠다는 생각이 들었습니다. 아무데도 취직하지 못하면 시골에 가서 아버지랑 같이 소 키우는 일을 할 수도 있고요^^ ㅋㅋ

이제 각설하고 뇌영상 데이터 분석에 대한 이야기를 해볼까요? 

뇌영상 분석에 사용되는 툴은 여러가지가 있지만, 보통은 MATLAB 기반의 SPM8, linux 기반에서 작동하는 AFNI 또는 FSL 등이 가장 많이 이용되고 있습니다.어떤 소프트웨어가 가장 좋은가? 라는 질문의 대한 답은... 내가 사용하기 편한 소프트웨어. 가 아닐까? 생각됩니다. 우수한 프로그램은 고성능의 알고리즘으로 무장하여 계산속도를 극대화 하는 것도 중요하지만, 사용자가 얼마나 편하게 접근할 수 있는가?에도 많은 노력을 기울여야 한다고 생각합니다. 

필자는 MATLAB이 사용하기 편하고, engineering 기반이 아닌 사람들과 소통하기에 (뇌연구는 심리학, 정신의학, 물리학, 통계학, 전자공학, 의공학 등 다양한 전공을 가진 연구자들이 있기 때문에 공동연구와 연구자들간의 소통이 중요함) 가장 적합한 프로그램이라 생각하고, MATLAB을 사용하기 시작했습니다. 앞으로 'Data Analysis (for neuroscientist)'라는 주제로 한글 인터넷 강좌를 연재하고, MATLAB 뿐만이 아니라 python 및 linux script에 대한 내용도 다룰 예정입니다. 뇌영상 데이터를 연구 재료로 사용하고 계신 연구자들 중에서, GUI 환경의 분석에서 벗어나고자 하시는 분들께 조금이라도 도움이 되었으면 좋겠네요^^ 오늘은 그 첫번째 강좌로 "Data loading and writing using SPM8 toolbox"에 대한 강의를 하고자 합니다.

SPM8은 프로그래밍을 잘 몰라도 사용할 수 있는 막강한 GUI환경을 제공합니다. 이 GUI를 이용하면 뇌영상 데이터(fMRI, EEG, PET 등)의 전처리를 수행할 수 있습니다. 물론 GUI를 사용하지 않고, MATLAB command line을 통해서 더욱 편리하게 전처리를 할 수도 있지만, 그러기 위해서는 프로그래밍에 대한 기초 지식이 있어야 해요. 하지만 겁먹을 필요는 없고요, 앞으로 하나하나 배워나가면 됩니다.

일단 MATLAB에서 SPM8의 툴발스를 이용하여 뇌영상 데이터를 불러들이고, 또 어떤 연산 결과를 새로운 이름의 영상으로 저장하고자 한다면,

(1) SPM8 toolbox를 다운로드 받아야 합니다.

(2) 예제로 사용할 뇌영상 데이터가 필요합니다. 데이터가 없다면 SPM 홈페이지에 있는 auditory fMRI data를 사용하실 수 있습니다. (MoAEpilot.zip)


이제 다운로드 받은 영상 데이터를 matrix 형태로 불러들이기 위해서는 MATLAB을 실행시키고, 다음과 같이 명령어를 순서대로 입력하면 됩니다.

>addpath /Users/skyeong/spm8; % spm8에서 제공하는 모든 함수를 어떠한 경로에서도 사용할 수 있도록 설정. >data_path = '/Users/skyeong/Downloads/MoAEpilot/fM00223' ; % fMRI 데이터 위치의 절대경로 >fns = spm_select('FPList',fullfile(data_path),'^fM.*\.img$'); % 파일 이름이 fM으로 시작하고, 확장자가 .img인 모든 파일을 선택. >vs = spm_vol(fns); % 뇌영상의 header 정보 불러오기. >IMG = spm_read_vols(vs); % 뇌영상 데이터를 matrix 형태로 불러오기.

vs 변수에는 뇌영상 데이터의 header 정보가 저장되어 있습니다. 다음과 같이 MATLAB command line에서  vs(1) 이라고 입력하면, 첫번째 뇌영상 볼륨의 정보를 볼 수 있어요. 

>vs(1) ans = fname: '/Users/skyeong/Downloads/MoAEpilot/fM00223/fM00223_004.img' dim: [64 64 64] mat: [4x4 double] pinfo: [3x1 double] dt: [4 1] n: [1 1] descrip: 'SPM compatible' private: [1x1 nifti]

여기서 fname은 첫번째 볼륨vs(1)이 위치한 full file path를 의미하고, dim은 뇌영상 데이터의 dimension정보, dt(=data type)는 뇌영상 데이터의 저장 형태입니다. 보통 프로그래밍 언어에서는 boolean, integer, float 에 따라서 데이터를 저장하는 용량이 다른데, [4 1]은 복셀 하나에 저장되는 숫자가 4 bytes로 표현된다는 의미이고, 보통 4 bytes 이면 양의 정수를 표현하기에 적합하다고 생각하면 됩니다. 만약 어떤 연산의 결과가 소수점을 동반한다면 vs(1).dt=[16 1]로 설정해야 하고, 이렇게 하면 한 복셀당 16 bytes의 용량이 필요하기 때문에, 4 bytes로 저장될때보다 뇌영상 데이터의 용량이 4배로 늘어나게 되요. data type이  높다고 좋은것은 아니고, 계산결과가 소수형인지, 양의 정수형인지, 음의 정수를 포함하는지를 잘 판단하여 설정하는 것이 하드디스크의 용량을 적게 사용할 수 있는 노하우입니다. MATLAB의 Numeric Types에 대해서는 MathWorks의 홈페이지를 참고하면 자세히 알아볼 수 있어요.

이제 IMG 변수에 담긴 숫자들은 뭘 의미하는지 알아 볼까요? IMG변수에는 뇌의 활동에 따른 BOLD signal이 숫자의 형태로 각 볼셀에 저장되어 있습니다.

>size(IMG) ans = 64 64 64 96

MATLAB command line에 size(IMG)를 입력하면 IMG 변수가 4차원 형태로 되어 있음을 알 수 있다. 처음 3개 숫자는 x, y, z 축의 복셀 숫자를 의미하고, 네번째 숫자인 96은 시간축 정보를 의미합니다. 즉, 실험을 통해서 96개의 volumes을 획득한 것이고, 만약 repetition time (TR)이 2초 였다면, 96x2 sec = 192 sec 동안 fMRI 영상을 획득한 셈이겠죠? 

이제 첫번째 볼륨vs(1)의 intensity 값의 분표를 MATLAB의 hist() 함수를 이용하여 확인해 볼께요.

>figure; >data = IMG(:,:,:,1); % 첫번째 volume의 intensity 정보를 data라는 변수에 저장. >hist(data(:)); % 모든 복셀의 intensity 값의 분포를 확인. >figure; >hist(data(:),100); % 모든 볼셀의 intensity 값의 100개의 bins으로 나눠서 분포를 확인.


강좌를 올리는게 쉽지는 않네요, 몇줄 안되는 코드이지만 프로그래밍은 직접 실습해보는게 중요합니다. 관심 있으신 분들은, 꼭 집접 확인해 보시길. 다음 강좌에서는 MATLAB을 이용한 regression analysis, bandpass filtering, network analysis 등을 소개할 예정입니다. 질문은 다른 분들도 함께 공유할 수 있도록 블로그나 패이스북의 덧글로 부탁드립니다.

파이썬에서 한글을 다루다 보면, 인코딩에 대한 이슈를 그냥 지나칠 수 없다. 파이썬의 장점은 methods의 입력 데이터 형식을 지정하지 않아도 된다는 것이다.

C/C++에 익숙했던 분들은 아주 생소하게 느껴질 수 있는 부분이다.

가령 덧셈 함수를 만든다고 하면,

def sum(a,b):
    return a+b

로 간단하게 할 수 있다. 여기서 a, b는 정수, 실수 모두 가능하게 된다. 

하지만, a와 b가 리스트list 또는 사전dict 형태의 데이터라면 어떻게 처리해야 할까?

리스트 형식의 데이터라면, 각 i 번째 element끼리 더해서 결과를 반환하도록 하면되고,

사전 형식의 데이터라면, 같은 key 값을 갖는 데이터끼리 더해서 결과를 반환하도록 하면 될 것이다.


이제 원래 이슈로 돌아가서, 입력 데이터가 string, list, dict 중 어느 것이 든지 상관없이 데이터 값을 unicode로 변환하는 프로그램을 만들어 보자.

instance라는 함수를 통해서, 데이터가 string의 instance인지,

아니면, mutable sequence (i.e. list)의 instance인지,

아니면  mutable mapping (i.e. dict)의 instance인지.. 판단할 수 있다.

from collections import MutableMapping
from collections import MutableSequence

def convert_to_unicode(data, encoding='utf-8'):
    if isinstance(data, basestring):
        if not isinstance(data, unicode):
            return unicode(data, encoding)
        else:
            return data.encode(encoding)

    elif isinstance(data, MutableSequence):
        # list-like object                                                                   
        unidata = list()
        for item in data:
            unidataList = convert_to_unicode(item)
            unidata.append(unidataList)
        return unidata

    elif isinstance(data, MutableMapping):
        # dict-like object                                                                   
        unidata = dict()
        for key, value in data.items():
            unidata.update([(key, convert_to_unicode(value))])
        return unidata

    else:
        return data


블로그 관리자 모드에서 <HTML/CSS 편집>을 선택한 다음

아래에 첨부된 텍스트 파일에 있는 코드 전체를 복사해서 

skin.html의 <head>와 </head> 사이에 추가하면 된다.


latex_script.txt