28 Jun
예전에 잠깐 정보 검색 연구를 소개한 적이 있지만, 앞으로 정보검색론(Information Retrieval이하 IR)에 대해 써볼 생각입니다. 아직 풋내기 대학원생이지만, 지난 1년간의 공부를 정리하고 앞으로의 방향을 잡아보는 차원에서 시작합니다.
IR은 웹 검색이다?
제 연구분야를 간단히 소개할 때 검색엔진을 연구한다고 말하곤 합니다. 그러면 보통 ‘검색엔진? 그거 다 연구된거 아냐?’ 라는 반응을 봅니다. 사실 저도 구글 등 상업용 검색엔진을 쓰면서 불편함을 많이 느끼지 못했기에 비슷한 의문을 가졌습니다.
하지만 IR은 단순히 웹 문서의 검색을 연구하는 것이 아닙니다. IR은 좀더 넓은 의미에서 사용자의 정보 욕구(information needs)를 만족시키는 정보물(information object)를 찾아주는 것을 목표로 하기 때문입니다. 웹 문서 검색이 가장 잘 알려진 분야인 것은 사실이지만, 우리가 ‘아 그게 뭐지?’, 혹은 ‘아 그것이 어디 있을까?’라고 궁금해 하는 순간순간이 모두 IR연구자들이 해결하고자 하는 문제인 것입니다. 실제 세상의 모든 유무형의 사물은 정보의 형태로 표현될 수 있으며, 이들 정보물의 양에 비해 사람의 인지능력은 항상 턱없이 부족하기에 검색 연구는 앞으로도 계속될 것입니다.
흔히 우리가 보는 웹 검색, 질문과 답변을 찾는 지식 검색, 뉴스 검색, 이미지와 비디오 검색, 지도와 전화번호 검색 이외에도 어떤 분야의 전문가를 찾아주는 전문가 검색, 도서 검색, 음악 검색, 제품 검색 등 검색의 대상에는 제한이 없습니다. 또한 현재 연구중인 RFID 기술 등이 보편화되어 세상의 모든 물체에 센서가 달리게 되면 실제 사물역시 검색의 대상이 될 수 있겠습니다.
검색의 방식 측면에서도 한국어로 검색어를 입력했을 떄 적절한 영어 문서를 찾아주는 교차어 검색(cross-language IR)이나 키워드가 아닌 질문 형태의 검색어를 받아 적절한 답(문서가 아닌)을 구해주는 질의 응답(question answering – 컴퓨터가 답변해주는 지식인이라고 생각하시면 됩니다.), 여러 곳에 나누어진 정보를 모아서 검색해주는 분산 검색(distributed IR) 역시 검색의 세부 분야로 연구되고 있습니다.
무엇을 어떻게 연구하나?
검색을 연구한다면 정확히 뭘 하는지 궁금하실 겁니다. 우선 사용자의 정보욕구는 검색어(query) 형태로 표현되기 때문에, 질의어를 분석하는 것이 필요합니다. 질의어에서 어구(phrase)나 사람 이름 등의 고유명사를 추출하기도 하고, 질의어에서 단어를 빼거나 추가하면 검색 결과가 좋아지는 경우가 많은데 관련된 기술을 질의어 확장(query expansion)이라고 합니다.
질의어가 분석되었다면 정보물(여기서는 문서를 가정)을 분석해야 할 것입니다. 문서는 미리 색인화(indexing)를 거쳐 속성 집합(feature set) 형태로 표현되는데, 이 속성에는 문서에 포함된 단어나 어구, 문서의 인기도나 최선성 등의 관련 정보가 모두 포함됩니다. 어떤 속성(feature)를 검색에 사용하느냐가 검색 성능을 좌우하기 때문에 검색회사나 연구자들은 검색에 도움이 되는 속성을 개발하느라 열심입니다. 상업용 검색엔진에는 수천개의 속성이 사용되고 있으며, 지금도 계속 추가된다고 하는군요!
질의어와 문서가 분석되고 나면 이를 비교해서 관련성(relevance)이 높은 문서 순으로 정렬해야 할 것입니다. 이를 위해 각 문서에 점수를 매기는데, 이때 사용되는 수식이 검색 모델입니다. 검색모델은 기본적으로 검색어와 문서의 유사성(textual similarity) 및 문서의 품질 등을 종합적으로 고려하여 순위를 매기는데, 검색어와 문서를 벡터로 놓고 비교하는 방법, 문서를 확률 변수로 보는 방법 등이 있지만 어느 모델이 더 우월한지는 결론이 나지 않은 상황입니다. 최근에는 각 속성간의 중요도를 자동으로 결정하는 기계학습 기반의 방법이 개발되어 널리 사용되고 있습니다.
검색 결과가 나온 다음에는 이를 평가해야 할 것입니다. 제가 검색 연구를 시작하기 전에 가장 궁금했던 부분인데, 결국에는 사람이 판단해준 결과를 바탕으로 검색 품질을 점수화하는 것이었습니다. 예컨데, 상위 10개 문서중 7개가 관련성이 있다면 0.7점을 주는 식이죠. 언뜻 간단하게 보이지만, 이 과정에는 비용도 많이 들어가고 고려해야 할 점이 많기에 검색 결과의 평가는 검색 연구의 중요한 축을 형성하고 있습니다.
아직 궁금하다면…
검색을 다루는 글이니만큼 참고자료도 ‘정보검색’ 이라는 키워드를 사용한 검색결과로 제공하겠습니다;) 목록을 보시면 위키피디아 페이지, 책 등의 자료가 첫페이지에 있는 것을 보실 수 있습니다. 저희학교 정보검색 수업 홈페이지도 있군요.
Tags :
정보검색,
Tutorial
Print
Comments
Trackback
19 May
왜 선형대수인가?
확률/통계 책을 잡고 반쯤 읽다보면 어느 페이지를 펴도 나와서 저를 괴롭히는 존재가 있었으니, 바로 행렬과 벡터였습니다. 처음에는 고등학교때 배운 (얼마 남지 않은) 수학 실력으로 어떻게 해 보려다가, 앞으로의 공부를 제대로 하려면 선형대수를 산수하듯이 할 수 있어야 한다고 느꼈기에, 선형대수 책을 다시 사서 공부해야 한다는 결론에 도달했습니다. ‘다시 배우는 확률론 – 확률 과정’편을 제대로 쓰기 위해서는 선형대수를 알아야 하는 사정도 있었습니다. 그도 그럴것이 실제 세계의 문제를 수학적으로 모델링하다보면 한두개의 숫자로는 어림도 없고, 대개는 여러 수의 집합(벡터)나 벡터의 집합(행렬)을 사용해야 하기 때문입니다. 또한 선형대수의 중심 주제가 백터와 행렬의 연산이다 보니 자연스럽게 선형대수는 현대 과학 및 공학의 기본이 되는 것입니다.
대수(Algebra)가 수를 다루듯 선형대수(Linear Algebra)는 선형 시스템의 기본 요소인 벡터와 행렬의 특성 및 그들간의 관계 및 연산을 다룹니다. 선형 시스템을 다룬다지만 실제로 대부분의 비선형 시스템이 선형으로 근사될 수 있기 때문에 선형대수의 활용범위는 훨씬 넓습니다. 모든 공학분야에 걸쳐 사용되는 매트랩(MatLab)의 기본 자료구조(Data Structure)가 행렬(벡터 역시 행렬로 표현)이 된것은 우연이 아닙니다.
이처럼 쓸모가 많은 (사실, 모르고서는 아무것도 할 수 없는) 선형대수이지만, 막상 학교에서는 이유도 모른채 수많은 정의와 정리를 암기하고 이를 바탕으로 기계적인 문제풀이 요령을 암기하는 교육(고문?)이 이루어지는 것이 대부분입니다. 왜 배워야 하는지를 모르니 동기부여가 안되고, 추상적인 설명만 들으니 감이 오지 않습니다. 원리를 알아야 방법을 이해할 수 있을텐데 이것이 안되니 무작정 외워야 합니다. 공학 교육에서 수학을 가르치는 목적은 사건과 현상을 바라보는 수학적 직관을 키워주기 위함일진데, 그자리에 공포와 회의가 들어섭니다. (저는 효과적인 교육을 위해서 Why – What – How가 결합되어야 한다고 봅니다.)
저도 학부 3학년때 선형대수를 분명 수강했지만 그 당시 왜 이것을 배워야 하는지 몰랐으며, 최근에 다시 책을 보았을때 한가지도 제대로 기억이 나지 않는 아픔을 겪었습니다. 하지만 선형대수가 정보검색 및 머신러닝 이론의 대부분의 근간이 되는 탓에 물러설 수도, 돌아갈 수도 없었기에 좋은 교재와 자료부터 수소문하여 처음부터 다시 공부했습니다. 막히는 곳도, 시행착오도 많이 겪었으나 벡터와 행렬의 세계가 조금은 눈에 들어오는 느낌이었습니다.
앞으로 몇회에 걸쳐 선형대수를 다루려 합니다. 어깨에 힘이 잔뜩 들어간 기존 자료와는 달리,
지난번 확률론과 마찬가지로 실용적 관점에서 수학적 직관 배양을 목표로 합니다. 다행인 것은 선형대수의 개념 대부분이 우리에게 친숙하다는 점입니다. 대수(Algebra)를 확장하다보니 선형대수는 마치 행렬과 벡터에 대한 산수와 같습니다. 기본적인 가감승제 연산은 행렬과 백터에 대해서도 그대로 존재하고, 수의 닫힌집합은 벡터 공간(Vector Space)의 개념에 대응되며, 절대값은 행렬값(Determinant)에, 양수는 양정치(Positive-definite Matrix)에 대응됩니다.
선형대수를 공부하면서 느낀점은 참으로 ‘아름다운’ 학문이라는 겁니다. ‘공부가 힘들어서 살짝 맛이 갔구나’고 생각하시겠지만, 여러분도 예전에 공부를 하며 어떤 복잡한 현상이 단순하게 설명될 때 표현하기 힘든 희열을 맛보신 적이 있을 겁니다. 마치 매우 정교한 기계가 한치의 오차도 없이 동작하는 식으로, 선형대수에는 이처럼 ‘뭔가 맞아 들어가는’ 느낌을 주는 무언가가 있습니다. 모든 현상의 이면에 이런 질서가 숨어있다니, 신은 진정 존재하나 봅니다. 선형대수의 세계로 오신 것을 환영합니다!
(공부하면서 쓰는 내용이다보니, 부정확한 내용이 있을 수 있습니다. 발견하시는 대로 알려주시면 감사하겠습니다.)
선형(Linear)이란?
앞에서 대수는 산수라고 밝혔는데, ’선형’이라는 말이 궁금하실 겁니다. ‘<A title=선형 href=“http://en.wikipedia.org/wiki/Linear_%28disambiguation%29”>선형’이라는 말은 다양한 의미를 지니나, 선형대수에서는 어떤 대상의
요소 각각에 대해(piecewise) 연산을 수행하여 조합하면 전체적인 결과가 나온다고 이해하시면 될 것 같습니다. 별 것 아닌듯 하지만 이처럼 전체를 부분으로 우아하게 쪼갤 수 있는 특성은 복잡도를 극명하게 낮추고 이에 따라 결과를 예측할 수 있게 합니다. 공학에서의 선형성이 어떤 시스템에서 입력에 대응하는 출력이 나온다는 의미로 사용되는 것은 이와 무관하지 많습니다. 사실 선형대수는 벡터 및 행렬에 대해 배우는 것으로 이해하셔도 되는데, 이들이 선형성을 갖기에 선형대수라는 표현을 쓰는 것 같습니다.
Vector & Matrix
<A title=벡터 href=“http://en.wikipedia.org/wiki/Vector_%28spatial%29”>벡터와 <A title=행렬 href=“http://en.wikipedia.org/wiki/Matrix_%28mathematics%29”>행렬을 모른다고 생각하는 분은 별로 없을 겁니다. 하지만 우리가 일상생활에서 항상 벡터와 행렬을 접한다는 점을 인식하는 분은 많지 않습니다. 이는 벡터의 정의가 대부분의 자료에서 ‘방향과 크기를 갖는 물리량’으로 되어있는 것과 무관하지 않습니다. 물론 맞는 이야기지만 여기서는 벡터를 일정한 순서를 갖는 수의 집합으로 봅시다. 그러면 우리가 하루에도 수없이 벡터를 접한다는 말에 공감하실 겁니다. 이번달 쓴 용돈의 항목별 지출 상황, 내가 산 주식들의 오늘 종가, 우리 가족의 오늘 기상시각 등이 모두 벡터로 표현가능한 것입니다.
벡터를 이렇게 정의하면 크기 및 방향도 생각해 볼 수 있습니다. 앞서 살펴본 용돈 벡터(과자:1000원, 책:2000원)를 보면 용돈은 얼마만큼, 어떤 방향으로 쓰는지가 나옵니다. 100명의 학생에 대해 과자와 책 지출액을 조사하여 각각을 X,Y축으로 갖는 평면에 나타내보면 요즘 학생의 용돈 사용의 경향이 나타날 것입니다. 이처럼 벡터는 우리 생활 가까이 있습니다.
벡터는 쉬운데 행렬은 어렵다고 하는 분이 많습니다. 행렬은 단지 벡터를 굴비 엮듯이 여러 개 붙인 것입니다. 붙여서 된 결과물이 사각형이기에, 이를 가로(행 – row) 및 세로(열 – column) 벡터의 배열로 볼 수 있습니다. 이처럼 행렬을 벡터의 배열로 보는 관점은 매우 중요한데, 행렬에 대한 모든 연산이 벡터 연산의 조합으로 환원될 수 있으며, 이것이 선형대수를 이해하는 열쇠가 되기 때문입니다. 반대로 벡터는 행/열 방향의 원소가 하나인 행렬의 특수한 형태로 볼 수 있기에, 실제 컴퓨터 프로그램으로는 벡터를 따로 구현하지 않는 경우도 많습니다.
Inner Product(내적) & Matrix Multiplication(행렬 곱)
’수’를 알아보았으니, 이제 연산을 알아봅시다.
덧샘 뺄샘은 행렬이나 벡터나 각 요소끼리 하면 됩니다. (여기서 선형성이 드러납니다.) 곱샘은 좀 다른데, 벡터의 경우 요소끼리 곱하여 그 결과를 더합니다. 즉, 벡터 A(a,b,c)와 B(d,e,f)의 곱은 (a,b,c)*(d,e,f)=ad+be+cf가 됩니다. 즉, 벡터끼리 곱한 결과는 ‘<A title=내적 href=“http://en.wikipedia.org/wiki/Dot_product”>내적’이라고 불리는 수이며, 이는 기하학적으로 A, B벡터 각각의 크기에 A와 B사이의 각도K의 코사인 값의 곱 – |A||B|cos(K) – 이 됩니다. 따라서 벡터의 곱은 각 벡터의 크기 및 두 벡터 방향의 유사성에 비례합니다. (90도의 코사인 값이 0이므로, 직각을 이루는 두 벡터의 곱은 0이 됩니다.) 이 모두가 곱샘에 대한 직관적인 이해와 일치합니다.
행렬의 곱샘은 어렵게 느끼는 경우가 많습니다만 벡터의 곱으로 풀어보면 간단합니다. 오른쪽 그림과 같이 행렬 A와 B를 곱할때 A를 가로방향, B를 세로방향으로 쪼개 요소끼리 곱한다고 기억하실 텐데, 이를 다른말로 하면 A행렬의 행백터와 B행렬의 열백터의 곱(내적)이 됩니다.
첫 연재를 마치며…
공대생이면서도 수학에 대한 막연한 두려움을 떨쳐버리기는 쉽지 않았습니다. 하지만 나이들어 혼자 다시 공부를 하며, 수학이 원래 그런 것이라기보다는 그동안 우리가 수학을 그렇게 보도록 길들여지지 않았나하는 생각을 했습니다. 이제 막 학문의 길에 들어선 사람으로서 학문이 현실과 유리되는 것이 안타까웠습니다. 이 글만으로 선형대수 공부를 끝낼수는 없겠으나, 수학에 대한 거부감과 불편함을 조금이나마 덜어줄 수 있기를 기원해봅니다.
다음 번에는 벡터와 행렬의 생활 터전이라고 할 수 있는
벡터 공간에 대해 알아보도록 하겠습니다.
참고자료
(선형대수 교재와 참고자료 목록입니다.)
Introduction to Linear Algebra – TextBook HomepageMIT Course 18.06: Linear Algebra (Spring 2007)<A title=http://en.wikipedia.org/wiki/Linear_algebra href=“http://en.wikipedia.org/wiki/Linear_algebra”>http://en.wikipedia.org/wiki/Linear_algebra
벡터 & 행렬
<A title=http://ko.wikipedia.org/wiki/벡터_공간 href=“http://ko.wikipedia.org/wiki/%EB%B2%A1%ED%84%B0_%EA%B3%B5%EA%B0%84”>http://ko.wikipedia.org/wiki/벡터_공간
Tags :
Tutorial,
Math,
선형대수
Print
Comments
Trackback
6 May
지난회까지 확률의 기본 개념 및 확률과 관련하여 범하기 쉬운 오류에 대해 알아보았습니다. 이번에는 확률 지식을 실전에 응용하는데 기본이 되는 확률분포를 알아보겠습니다. 확률의 개념을 이해하면 됬지 왜 여러 종류의 확률분포를 또 공부해야 되냐구요?
이렇게 생각해봅시다. 객체지향 설계에서 복잡한 요구사항을 디자인 패턴의 조합으로 해결하듯이, 확률분포는 복잡한 실제 현상을 단순한 확률모형의 조합으로 이해하기 위한 도구입니다. 현상을 확률적인 특성에 따라 몇 가지로 구분하고 각각에 대해 필요한 값(확률분포함수, 평균, 분산 등)을 미리 계산해 놓았으니 고맙기 이를데 없습니다.
복잡한 현상을 확률분포 몇가지의 조합으로 분석할 수 있다는 사실도 놀랍거니와, 임의의 확률분포에서 추출한 표본이 정규분포를 따른다는 신비로운 특성도 보입니다.
이항분포(Binomial Distribution)
가장 단순한 확률분포로, 앞면이 p의 확률로 나오는 동전을 N번 던졌을 때 나오는 앞면의 개수가 이루는 확률분포입니다. 앞면 혹은 뒷면으로 결과를 구분할때와는 달리 결과가 숫자이므로, 이를 좌표평면에 표시할 수 있습니다. 기본 조건인 동전의 성질(p)와 시행 횟수만 알면 평균은 Np, 분산은 Np(1-p)로 구해집니다.
포아송분포(Poisson Distribution)
시간당 5명의 손님이 오는 가게에서 일한다고 생각해 봅시다. 바로 이 순간에 손님이 도착할 확률은 0에 가까우나, 순간이 무한히 모여 이루어지는 기간(1시간)에 대해서는 일정한 확률(5명)이 정의됩니다. 이를 표현하는 확률분포가 포아송분포로서, 앞서 살펴본 이항분포에서 성공률이 극히 작은(p->0) 대신 시행횟수가 매우 큰(N->무한대) 경우라고 생각하면 편합니다.
실제 시/공간에서 벌어지는 일은 대부분 여기에 해당되기에, 포아송분포는 쓸모가 많습니다. 예를 들어 일정한 횟수와 분포로 발생하는 사건을 다루는 대기행렬 이론(Queueing Theory)의 기초가 되기도 합니다. 큐잉 이론은 다음 회에서 다시 다루도록 하겠습니다.
k : 사건의 실제 발생 횟수
λ : 단위 기간동안 예상 발생 횟수
위와 같은 포아송분포를 k를 x축으로 갖는 확률분포 그래프로 그리면 위와 같습니다. 그림에서처럼 λ가 4인 경우 4에서 가장 높은 확률을 보입니다. (기간 당 예상 발생 횟수가 4이니 당연합니다.)
지수분포(Exponential Distribution)
사건의 발생 확률이 지수적(exponential)으로 감소하는 분포를 지수분포라고 합니다. 예컨데 단위 길이를 뚫을 확률(강성)이 λ인 금속판을 어떤 입자가 a보다 깊게 뚫는 사건을 생각해봅시다. 이를 두께가 1/n으로 무한히 얇은 금속판을 n*a번 뚫는 사건으로 볼 수 있으며, 이에 따른 확률분포는 아래와 같습니다.
지수분포는 무기억성(Memoryless)이라는 고유의 특성을 갖는데, 이는 과거의 사건이 미래에 영향을 끼치지 못한다는 의미입니다. 예를들어 전구가 켜져있는 시간이 지수분포에 따른다면, 10(s)시간동안 켜져있던 전구가 11(s+t)시까지 켜져있을 확률이 새 전구가 1(t)시간 켜져있을 확률과 같다는 뜻입니다. 이를 식으로 정리하면 아래와 같습니다.
이 성질은 지수분포가 다양한 현상을 모델링하는데 사용되는 이유가 되니, 잘 알아둡시다.
정규분포와 중심극한정리(Central Limit Theorem)
이공계 대학생이라면 누구나 배우는 것이 중심극한정리입니다. 요약하면 임의의 서로 독립적인 확률분포(모분포)에서 추출된 값들의 합(표본 평균)은 원래 모분포의 종류와 관계없이 정규분포를 이룬다는 겁니다.
다음 웹페이지에는 다양한 모분포에 대해 표본 평균이 정규분포가 됨을 애니메이션으로 보입니다. 이때 정규분포의 평균은 모분포의 평균과 동일하나, 분산은 모분포의 분산을 추출한 횟수(표본 크기)로 나눈 값입니다. (여러번 추출하여 평균한 값에 대한 분포이니 당연히 분산이 줄어들게 됩니다.)
중심극한정리를 모집단과 표본집단의 관계를 설명하는 것으로 이해할 수 있는데, 모집단을 모두 조사하기 힘든 경우 표본 조사를 수행하고 이를 통해 모집단의 평균 및 분산을 역으로 추정할 수 있는 것입니다.
중심극한정리를 이해하면 정규분포가 왜 그렇게 광범위하게 나타나며, 또한 활용되는지 알 수 있습니다. 많은 현상이 단일 확률분포를 따른다기보다 확률분포에서 추출된 여러 값의 합으로 묘사될 수 있는데, 이 합은 어김없이 정규분포를 따르기 때문입니다. 따라서 자연계의 현상(예:신호의 노이즈) 분석 및 표본추출에 근거한 사회현상 분석에는 대부분 정규분포가 사용됩니다.
참고자료
강의자료
통계 정보 홈페이지 (전북대 통계정보학과 / 친절한 설명이 인상적입니다.)
확률론과 확률분포
표본이론과 중심극한이론
확률분포
<A title=http://en.wikipedia.org/wiki/Probability_distribution href=“http://en.wikipedia.org/wiki/Probability_distribution”>http://en.wikipedia.org/wiki/Probability_distribution
<A title=http://en.wikipedia.org/wiki/Binomial_distribution href=“http://en.wikipedia.org/wiki/Binomial_distribution”>http://en.wikipedia.org/wiki/Binomial_distribution
<A title=http://en.wikipedia.org/wiki/Poisson_distribution href=“http://en.wikipedia.org/wiki/Poisson_distribution”>http://en.wikipedia.org/wikiPoisson_distribution
<A title=http://en.wikipedia.org/wiki/Exponential_distribution href=“http://en.wikipedia.org/wiki/Exponential_distribution”>http://en.wikipedia.org/wiki/Exponential_distribution
중심극한정리
<A title=http://en.wikipedia.org/wiki/Illustration_of_the_central_limit_theorem href=“http://en.wikipedia.org/wiki/Illustration_of_the_central_limit_theorem”>http://en.wikipedia.org/wiki/Illustration_of_the_central_limit_theorem
<A title=http://en.wikipedia.org/wiki/Concrete_illustration_of_the_central_limit_theorem href=“http://en.wikipedia.org/wiki/Concrete_illustration_of_the_central_limit_theorem”>http://en.wikipedia.org/wiki/Concrete_illustration_of_the_central_limit_theorem
중심극한정리 컴퓨터 시뮬레이션
(모든 그림은 <A title=위키피디아 href=“http://en.wikipedia.org/”>위키피디아에서 차용하였습니다.)
Tags :
Tutorial,
Math,
확률론
Print
Comments
Trackback
24 Apr
교과서를 가지고 씨름하다 혹시나 해서 도서관에 가 보았는데, 역시 쓸만한 책이 많더군요. 교과서보다 훨씬 생생한 사례를
가지고 알기쉽게 설명한 책을 찾았습니다. 지난 시간에 소개한 ‘통계는 성공의 나침반’이라는 책을 추천합니다. 다음 구절이
인상적이어서 옮겨 보았습니다.
“인간의 두뇌는 확률문제를 푸는 데 별로 적합하지 않다.” – 책 ‘확률의 함정’에서
위 말처럼 인간의 사고 및 판단의 대부분을 차지하는 휴리스틱(Heuristic)은
오류투성이여서, 정신이 온전한 상태에서도 수많은 실수를 범하게 됩니다. 오늘은 확률과 관련하여 자주 범하는 오류를 살펴보도록 합시다.
부분의 합은 전체가 아니다? – 심슨의 역설
직관과 어긋나는 사례로 자주 언급되는 것이 ‘심슨의 역설(Simpson’s Paradox)’입니다. 이는 유명한
O.J.심슨 사건 변호사의 궤변에서 비롯된 이름으로, 통계 조사에서 부분적인 결과와 이를 합친 전체의 결과가 어긋나는 결과나
종종 관찰된다는 것입니다. 다음 기사는
어떤 대학의 남학생 합격률이 더 높았는데, 단과대별로는 여학생의 합격률이 높다는 모순적인 현상을 다룬 것입니다. 원인은 남학생은
대부분 합격률이 높은 단과대에 지원했으며, 여학생은 그 반대이기 때문입니다. 전체 합격자 비율은 단대별 합격률의 단순 평균이
아니라 전체 합격자 수를 전체 지원자 수로 나눈 것이므로, 합격자 절대수가 많으면 합격률이 높아지는 겁니다.
또 어떤 블로그에는 이를 빌어 한의학과 서양 의학을 비교하는 사례가 있군요. 과학자가 아니더라도 직관을 맹신하는 것은 위험합니다.
암검사 결과를 믿을 수 없다? – 베이즈 룰
많은 기계학습 이론의 기초가 되는 베이즈 규칙(Bayes’ Rule)도 직관의 함정을 피하도록 도와줍니다. 다음 웹페이지는
어떤 암 발병확률이 1%이고, 발병자 80%가 양성 반응을, 비 발병자 9.6%가 양성 반응을 보이는 암검사에서 양성판정을 받은
환자가 암을 가졌을 확률이 몇%인지 묻고 있습니다. 실제 의사들에게 질문을 했을때도 대부분이 80%로 대답했다고 합니다만, 위
페이지의 계산결과를 보면 실제 확률은 7.8%라고 합니다. 이처럼 베이즈 규칙은 결과적인 사건(암검사)이 주어졌을 때 원인이
되는 사건의 확률을 추론할 수 있는 수단을 제공한다는 데 의의가 있습니다.
베이즈 규칙에서는 아래 식처럼 사건의 원래 발생확률(A – prior)과 그 사건이 발생을 가정할때 현상이 나타날 조건부
확률(B|A likelihood – 해당 사건이 현상을 설명하는 정도)를 곱해서, 현상이 주어졌을때 예측하고자 하는 사건의 발생
확률(A|B posterior)을 계산합니다. 앞의 사례로 돌아가면, 암(사건)의 발병확률이 1%로 워낙 낮기 때문에,
양성판정(현상)으로 높아진 확률도 7.8%에 머무는 것입니다.
기계학습의 주제인 분류(classification)작업에서는 현상에 대한 학습자의 가설(hypothesis)이 사용되기에, 주어진 현상(B)을 가장 잘 설명하는 가설(A)을 찾는데 베이즈 규칙을 사용합니다. 베이즈 룰을 사용한 스팸 필터를 생각해보면 메일에 포함된 단어(B)를 종합하여 스펨인지 아닌지(A)를 판단해 내는 것입니다.
마치며
베이즈 규칙은 기계학습 알고리즘 대부분의 이론적 기초를 제공하는 중요한 이론이지만 그 함의를 완전히 이해하는 것은 쉬운
일이 아닙니다. 제 이해가 부족한 모양인지, 이 부분을 보통 대학생이 이해할 수 있을 정도로 설명했다는 확신이 서지 않네요.
공부를 더 쌓으며 보충하도록 하겠습니다. 다음에는 확률 분포를 다룰까 합니다.
참고자료
심프슨의 역설
심프슨의 역설 관련 기사
http://en.wikipedia.org/wiki/Simpson’s_paradox
베이즈룰
http://en.wikipedia.org/wiki/Bayes_rule
An Intuitive Explanation of Bayesian Reasoning
Tags :
Tutorial,
Math
Print
Comments
Trackback
22 Apr
지난 1년을 회상하며, 대학원 유학 준비 과정의 본질을 드러내는 은유(Metaphor)가 뭘까 생각해 보았습니다. 며칠
생각한 끝에 불현듯 떠오른 단어는 ‘세일즈’ 였습니다. 그렇습니다. 유학 준비는 불특정 다수에게 뿌리는 광고가 아니라, 고객의
기호를 파악하고 이에 맞추기 위해 발로 뛰는 방문 판매입니다. 정형화된 기준에 맞추는 자격시험이 아니라, 사람의 마음을 움직이는
설득입니다.
구체적인 준비 단계는 세가지입니다. 우선 자신에게 팔아야 하며, 그 후 추천서를 써주실 분들에게 팔아야 하며, 최종적으로는
입학사정위원회(Admission Committee)에 팔아야 합니다. 이 과정 하나하나가 필수적이며, 순서대로 이루어져야 성공할
수 있다고 봅니다.
Sell To Yourself
유학 준비는 최소 1년이 걸리는 오랜 여정입니다. 전공 결정, 영어 시험, 추천서, 자기소개서, 관련 장학금 지원까지 준비할
것이 끝도 없습니다. 왜 유학이 최선의 대안인지, 왜 그 분야를 공부하고 싶은지, 가서는 어떻게 할 것인지에 대한 확신이 없다면
이 모든 관문을 통과하기는 매우 어렵습니다.
유학 준비의 많은 과정은 지원자의 확신을 평가하는 과정이기도 합니다. 스스로 확신이 없다면 어떻게 자신있게 추천서를 부탁드릴
것이며, 어떻게 설득력있는 에세이를 쓸 수 있겠습니까? 하지만 아직도 충분한 확신없이 준비하는 지원자가 대부분입니다. 이것이
유학 준비에 중도 포기가 많은 이유이기도 합니다.
확신이 있는지 판단하는 것도 쉬운 일은 아닙니다. 자신에게 충분한 확신이 있는지를 어떻게 알 수 있을까요?
재수할 각오가 되어 있다면 하세요.
후배들에게 하는 이야기입니다. 안되면 1년 더 해서라도 원하는 프로그램에 진학하겠다는 정도의 확신이 필요하다고 봅니다. 유학
준비나 고시 공부나 인생에서 차지하는 비중은 마찬가지인데, 왜 유학은 한번 해보고 안되면 포기하는지 모르겠습니다.
어떤 일이든 임하는 태도가 결과물을 바꿉니다. 이길밖에는 없다는 생각을 하면 집중력도 생기고, 아이디어도 샘솟습니다. 이 정도로 정신 무장이 되어 있는지 자문해볼 일입니다.
Sell To Recommenders
스스로 확신을 얻은 후에 할 일이 추천서를 써 주실 분들을 설득하는 일입니다. 나중에 자세히 밝히겠지만, 제대로 된 추천서
한장이면 다른 조건에 관계없이 합격될 정도로 중요한 것이 추천서입니다. 또한 미국에서의 추천서는 전문가로서 개인의 신용을 담보한
것이며, 대부분 추천서를 써주시는 교수님들도 이를 잘 아시는 까닭에 ‘의미있는’ 추천서를 받기는 매우 어렵습니다.
추천서를 써 주실 분과의 첫 면담, 그리고 최종적으로 추천서를 부탁드리리는 과정은 스스로가 그 분야의 전문가로서 성장할 수
있다는 것을 그분에게 설득시키는 과정입니다. 평소의 노력에 더하여 철저한 준비가 필요하지만 역시 기본은 자기 확신입니다. 스스로
믿지 못하는 제품을 판매하는 세일즈맨이 어떻게 성공할 수 있겠습니까?
Sell To Admission Committee
대학원 프로그램에서 최종적인 심사는 입학사정위원회가 합니다. 이 위원회는 해당 학과의 교수로 이루어지며, 그해 지원자에 대해
토론을 하고, 투표를 하기도 하는 식으로 합격자를 선발합니다. 즉, 유학 준비의 성패는 이 ’위원회’의 관점에서 누가 더
매력적인 지원자로 보이느냐가 결정합니다. 이처럼 사람(들)이 사람(들)을 뽑는 과정인 만큼 다음 명제가 성립합니다.
대학원 유학 준비에 일반론은 없습니다.
대학원 입학사정은 모든 지원자를 한줄로 세우는 고시가 아닙니다. 학교 및 학과, 그리고 그해
입학사정위원회 교수들의 성향에 따라 선발기준의 항목 및 가중치는 상당히 다릅니다. 따라서 ‘일반적으로 어떻다’는 주장을 맹신하는
것은 위험합니다. 시험점수부터 에세이까지 자신의 지원학과에 맞게 준비하는것이 필요합니다. 예를 들면 아카데믹한 성격이 강한
프로그램에 실용적인 성향을 드러낸 에세이를 보내는 일은 피하자는 겁니다.
물론 뭐가 ‘맞는지’ 알려면 정보가 필요합니다. 해당 학과에 재학중인 학생에게 직접 문의하는 등 정보를 얻는 방법도 여러 가지가
있습니다. 입학 사정의 기준에 중요한 부분이 ‘프로그램의 성격과 지원자의 적합성’이므로 이정도 수고는 가치있는 일입니다.
Differentiate or Fail
또한 한가지 더 염두에 둘 것이 차별화입니다. 좋은 프로그램의 경쟁률은 대부분 몇십대 일을 넘습니다. (즉, Acceptance Ratio가 5%가 안됩니다.) 준비과정에
추천서 등이 포함되는 것을 감안하면 허수 지원자의 비율도 높지 않습니다. 객관적인 조건을 다 갖춘 학생도 안심할수 없습니다. 뭔가 심사위원의 시선을 확 잠아끌 무언가가 더 필요한 것입니다.
Ask Yourself : 수천명의 다른 지원자와 나를 다르게 만드는 것이 무엇인가?
남들이 다 하는 일을 더 잘하는 것 보다, 남이 안하는 일을 하는 것이 쉽습니다. 객관적인 조건이
불리할수록 자신의 강점을 최대한 살려, 다른 지원자와 다른 그 무언가를 제공해야 합니다. 예컨데, 학부때 수업보다는 개인적인
탐구 활동으로 바빴다면 이를 증빙할 자료를 만들어 제출하는 것입니다. 위원회의 누군가가 이 자료에서 연구자로서 성장할 가능성을
발견해 준다면 성공입니다.
차별화의 수단은 생각보다 많습니다. 대부분의 학교에서 중요시되는 ’다양성’도 차별화를 이루는 방법입니다. 자신이 지원자 풀에서
충분히 소수자(minority)에 속한다면 확률은 높아지는 것입니다. 인문계 학생이 대부분인 프로그램에 이공계 백그라운드를
가지고 지원한다면 그만큼 강점이 됩니다. 공대에 지원한 여학생이 유리한 것도 이 때문입니다.
마치며
이번 글은 제가 생각하는 유학 준비의 총론에 해당하는 것으로, 요령보다는 원칙을 담았습니다. 다음에는 각 단계 – 전공 결정, 영어 시험, 추천서, 자기소개서 – 에 대한 각론이 이어집니다.
Tags :
유학,
Tutorial
Print
Comments
Trackback
21 Apr
학문 연구는 결국 현실 세계의 문제를 푸는데 그 목적이 있을진데, 대부분 사람에게는 멀게만 느껴집니다. 지식 자체의 복잡성보다도 이를 전달하는
방식에 대한 고민이 부족하지 않았나 합니다. 교과서는 딱딱한데다 현재 추세에는 한참 뒤쳐지며, 신선한 연구결과를 담은 논문은 그 분야 전문가 몇몇을
제외하고는 읽어볼 엄두조차 못내는 것이 우리의 현실입니다.
운영
계획에서 밝힌 대로 이론적 지식을 대중의 눈높이에 맞추어 소개하려고 합니다. 학문적 엄밀함보다는 활용가능성에 초점을 맞추어, 상식보다
한걸음 나아가는 앎의 전달을 목표로 합니다. 쉽게 설명하기 위해서는 제대로 알아야 하므로, 저의 공부에도 도움이 되지 않을까 합니다.
첫번째로 확률론을 다루겠습니다. 고등학교 졸업한지 몇년이상 되신 분들은 거의 기억나지 않으시겠으나, 확률론은 생각보다 쓸모가 많습니다. 세상
대부분이 비결정적인 확률적 현상이기에, 확률에 대한 지식은 좀더 정확한 예측 및 판단을 가능케하며, 자칫 범하기 쉬운 오류도 막아줍니다. 좀더
섬세하고 정확한 직관을 주는 것입니다.
또한 확률론은 많은 학문의 기초가 됩니다. 기계학습(Machine Learning)은 확률론을 계산모델로 표현한 것이며,
자연어처리(Natural Language Processing) 및 정보검색(Information Retrieval)분야에서도 최근에는 확률론을
적용하여 정확도를 높이고, 예외 상황에 강한 이론 및 시스템을 만들고 있습니다.
확률을 아십니까
자주 쓰는 용어의 엄밀한 정의를 내리기 힘든 경우가 많은데, ’확률’도 만만한 개념은 아닙니다. 확률은 결국 정보의 정확성에 대한 개념일진데
최근에 읽은 책에서는 이를 다음과 같이 구분합니다.
- 확실 : 결과가 결정된 경우
- 리스크 : 결과의 종류 및 각각의 확률을 아는 경우
- 불확실 : 결과의 종류 혹은 각각의 확률이 불확실한 경우
- 무지 : 결과에 대해 전혀 모르는 경우
실제로 사용되는 확률은 2, 3번의 정의를 포괄합니다. 또한 2번에서 언급된 ’앎’의 객관성에 따라 객관적 / 주관적 확률로
구분되기도 합니다. 이중 ‘객관적 확률’은 주사위의 각 면이 나올 확률처럼 실험에 의해 검증가능한 것이며, ‘주관적 확률’은
내가 이번학기에 여자친구를 사귈 확률처럼 현상에 대한 개인의 확신의 정도를 나타냅니다. 이는 당연히 같은 현상에 대해 사람마다
다를 수 있습니다.
여기서 ‘직접 실험해볼 수 없는 확률은 모두 주관적이란 말이냐’는 의심을 가지실 수 있습니다. 만약 그렇다면 확률 공부하는
사람은 앉아서 숫자 세는 것 이외에는 할 일이 없겠지만 그렇지는 않습니다. 실제로는 알려진 사건에 법칙을 적용하여 알려지지 않은
사건의 확률을 추론해낼 수 있으며, 이렇게 구한 확률을 ‘논리적 확률’이라고 합니다. 이는 실제로 객관화될 수 있는 값이나,
검증되지 않았다는 측면에서는 객관적 확률은 아닌 듯 합니다.
확률론의 세계관
다른 학문이 그렇듯이 확률론에서도 세계를 바라보는 고유한 관점을 갖습니다. 확률론의 세계는 발생가능한 모든 사건을 포함하는
‘표본공간’(Sample Space)입니다. 표본공간이 사건 전체의 집합이라면 ’사건’은 표본공간의 부분집합이며, 각각 고유의 발생 가능성 -
‘확률’ – 을 가집니다. 확률론에서 가장 많이 사용되는 동전 던지기를 생각해봅시다. 여기서 표본공간은 앞면과 뒷면이며, 보통 동전이라면 앞면
혹은 뒷면이 나올 확률이 각각 1/2입니다. 표본공간 전체의 확률은 1이겠죠.
너무 시시하다구요? 하지만 옛부터 튼튼한 개념이 학습의 지름길이라고 했습니다. 확률론의 다른 개념은 모두 여기에서 파생되며, 좀더 복잡한 현상을
확률론으로 설명하다보면 표본공간과 사건의 개념이 흔들리기 일쑤입니다. 동전을 N번 던져 앞면이 나오는 횟수를 조사할 경우 표본공간은 무엇일까요?
서로 구별가능한 동전을 N개 같이 던질때는 어떻게 될까요?
사건간의 관계
표본공간과 사건을 정의한 후에 생각해볼 것이 사건 간의 관계입니다. 예방접종을 맞으면 질병에 걸릴 확률이 낮아지는 것처럼 사건 간에는 다양한
의존관계가 존재합니다. 여기서 조건부 확률의 개념이 등장합니다. 특정 사건 B(조건)의 발생 여부가 원래 사건 A의 발생 확률에 영향을 끼치는
것입니다. B의 발생을 아는 상태에서의 확률은 원래 알던 A의 확률 P(A)와 구분지어 P(A|B)로 표시합니다.
이와 관련하여 생각해 볼수있는 것이 사건 간의 독립성입니다. 독립적으로 발생하는 두 사건간의 관계는 어떤 특성을 지닐까요? 직관적으로는 한
사건의 발생 확률이 다른 사건의 확률에 영향을 끼치지 않아야 합니다. 조건부 확률을 이용해 표시하면 P(A) = P(A|B)가 되겠군요.
주의할 점은 셋 이상의 사건이 있을때 두 사건씩 쌍으로 독립인 것과, 세 사건이 서로 득립인 것은 구분해 주어야 한다는 것입니다. 즉,
A,B,C에 대해 생각해보면 A와 B각각은 C와 독립이지만, A와 B가 동시에 발생하는 사건은 C에 영향을 줄 수 있다는 겁니다. 슬슬 직관이
어긋나기 시작하시나요?
복잡한 확률 문제 풀기
실 세계의 사건은 대부분 단순한 규칙 적용으로 풀리지 않습니다. 어디서부터 손대야 할지도 막막한 경우가 대부분입니다. 이럴때 전가의 보도처럼
사용되는 방식이 Divide & Conquer입니다. 확률론에도 이처럼 복잡한 현상을 나누어 해결하도록 도와주는 도구가 있는데, 이것이
전확률법칙(Law
of total probability)입니다.
전확률법칙은 위 식처럼 복잡한 사건 A의 확률을 바로 구하기보다 사건 B1~Bn에 대한 조건부 확률의 가중평균으로 구하는
겁니다. 여기서, 사건 B1~Bn은 표본공간 전체에 대한 분할이어야 합니다. 전교에서 어떤 혈액형을 가진 학생의 비율을
구할때, 반별로 구한 비율을 반별 학생수로 가중평균하여 구하는 방식입니다. 물론 실제 사건에 대한 적절한 분할을 찾는 문제는
이처럼 단순하지는 않겠죠.
다음에는…
저의 연구분야 – 머신러닝 / 정보검색 – 가 대부분 확률론에 기반하기에, 이 글은 앞으로 다룰 많은 주제의 기반이 될 듯 합니다. 다음에는
확률 현상과 관련된 흔한 오류를 다룰까 합니다.
참고자료
위 자료는 ‘확률의 개념 및 응용 – 전종우/손건태’에 기초하며, 아래 자료는 추가로 읽어보시기 바랍니다.
Stanford
Univ. Probabillity Theory Textbook (PDF)
Java
Applets on Probability Theory
통계학
관련 블로그
류근관 교수님의 통계학
홈페이지
http://en.wikipedia.org/wiki/Probability_theory
http://en.wikipedia.org/wiki/Probability_interpretations
http://en.wikipedia.org/wiki/List_of_probability_topics
http://en.wikipedia.org/wiki/Law_of_total_probability
Tags :
Tutorial,
Math
Print
Comments(1)
Trackback
9 Apr
1편에 이어 입학사정과 관련된 오해와 진실을 소개합니다. 역시 대부분 제가 읽은 자료 및 직접 경험에 근거합니다.
유학은 명문대생만 갈 수 있다.
흔한 오해중 하나입니다. 해명은 ‘강릉대 아이들 미국 명문대학원을 정복하다’
라는 책을 소개하는 것으로 대신합니다. 다시 강조하자면 출신학부 이름은 지원자를 평가하는 수많은 기준 가운데 하나일 뿐입니다.
그나마 명문대 출신에게 유리한 요소였던 ‘선배 네트워크를 통한 정보력’ 역시 인터넷의 등장으로 거의 희석된 상태입니다.
영어를 잘 하지 못하면 유학은 꿈도 꾸지 말아야 한다.
유학의 본질을 망각한데서 오는 오해입니다. 영어가 입학사정에서 중요한 요소라면 비영어권 학생들은 모두 낙방해야 정상입니다.
하지만 실제로 영어에 대한 요구사항은 전공별로 판이하며, 특히 언어 구사력의 비중이 낮은 자연계 입학사정에서 영어는
Minimum Requirement만 넘으면 별 관계없는 것으로 알고 있습니다.
오히려 영어는 입학허가를 받은후에 더 중요한 문제입니다. 실제로 제가 아는 대부분의 유학생들이 – 그중 상당수가 토플 만점에
가까운 – 영어가 유학 초기에 최대의 장애였다고 말합니다. 시험 점수를 올리기위한 요령 습득에 실제 구사력 향상을 위한 ‘진짜
공부’가 외면당한 결과라고 생각합니다.
유학은 준비과정부터 마칠때까지 엄청난 비용이 든다.
미국 대학원, 특히 박사과정의 장학금 혜택이 알려지면서 없어져가는 오해입니다. 저는 유학 준비비용과 관련하여 다음과 같은 trade-off가 존재한다고 생각합니다.
유학 준비비용의 trade-off : 돈은 시행착오를 줄이나 능력개발을 해친다.
유학은 준비과정에서부터 돈쓸 기회가 많습니다. ’토탈케어’를 약속하는 유학원 및 시험 준비를 위한 학원에서부터 에세이 대필 및
첨삭까지 다양합니다. 하지만 유학생은 가서도 생소한 환경에서 문제를 스스로 해결해야하는데, 준비과정부터 시행착오를 줄이기위해
수백만원의 돈을 쓰는것은 안타깝습니다.
우선 ‘원스톱’ 서비스를 제공한다는 유학원에 돈을 쓰는 것은 말리고 싶습니다. 비용은 차치하고라도 정확한 정보를 얻을수 있는지도
의문입니다. 작년에 유학관련 스터디를 서너개 하면서 수많은 분들을 만났는데, 이중 유학원 등에서 제공한 부정확한 정보를 사실인듯
믿고계신 분이 상당수였습니다. 앞서 밝힌대로 미국 대학원 과정의 영어 요구사항은 생각만큼 높지 않기에, 지망 프로그램의 요구
점수를 알아보지도 않고 무작정 GRE 및 토플에서 높은 점수를 얻기 위해 시험준비 요령을 가르쳐준다는 학원에 다니는 것도 말리고
싶습니다. 나중에 밝힐 기회가 있겠지만 저는 주로 스터디를 짜서 시험공부를 했는데, 시험 공부는 물론 좋은분을 많이 만나는
기회였습니다. (팀원중 ‘우주인’ 고산 님도 있었다는 ;)
입학사정의 중요요소인 학업계획서(SOP) 경우에도 초벌은 스스로 써보는것이 좋습니다. 토플과 GRE 에세이는 외워서,
학업계획서는 업체에 맡기다보니 서류상으로는 완벽한 영어실력의 소유자가 실제로 가서 애를 먹는 경우가 많다고 들었습니다. 제게
추천서를 써주신 교수님께서는 심지어 ‘비영어권 학생으로서 지나치게 완벽한 문장은 오히려 스스로의 힘으로 하지 않았다는 인상을 줄
수 있다’며 그냥 에세이를 낼 것을 권유하시기도 했습니다. 일면의 진실이기는 하나 고려해볼 부분입니다.
학점이 나쁘면 좋은 학교 절대 못간다.
많은 사람을 괴롭히는 오해입니다. 물론 학점이 대부분의 입학사정에서 차지하는 비중을 감안하면 전혀 틀린말은 아닙니다. 하지만
본질적으로 입학사정의 초점은 ‘성공적인 연구자’를 뽑는 것이며, 학점은 이에 대한 부분적인 증거만을 제공할 뿐입니다.
연구실적 및 계획이 불충분하다면 학점이 중요합니다.
학점을 고민하는 후배들에게 하는 이야기입니다. 학점이 그렇게 중요해보이는 이유는, 연구자로서의 잠재력을 보일수 있는 다른 증거를
보일수 없는 유학준비생이 대부분이기 때문입니다. 반대로 다른 증거를 보일수록 선발기준으로 학점의 중요성은 낮아지며, 대부분의
분야에서 최상위권 프로그램에는 학점이 아무리 좋아도 입학허가를 보장받을 수 없습니다.
연구자로서의 잠재력을 보이려면 저널 등에 출판된 논문이 필요하지 않냐구요? 그것이 최선이긴 하나 차선이 없는것은 아닙니다.
기본적으로 어떤식으로든 자신을 다른 지원자와 차별화할수 있으면 된다고 생각합니다. 그리고 차별점(selling point)는
생각하기에 따라 얼마든지 만들수 있습니다. 이에 대해서는 추후에 자세히 논하겠습니다.
마치며
인터넷은 정보의 양적인 폭발과 함께 질적인 빈곤도 가져왔습니다. 상당한 시간을 투자해서라도 시중에 확산된 오해를 해명하는 작업이
제가 생각하는 효과적인 유학준비 방법을 논하기 앞서 필요하다고 생각했습니다. 다음회부터 본론이 이어집니다.
참고자료
콜린박의 유학파일 : 매년 개정되며, 유학준비에 대한 ’일반론’이 잘 정리된 책입니다.
(저자 웹사이트 :
http://colinpak.com )
Tags :
유학,
Tutorial
Print
Comments
Trackback
5 Apr
입학허가를 받은 지 며칠 안된 풋내기가 쓰기에는 식은땀나는 제목의 글입니다. ‘내용보다 껍데기’가 우선시되는 우리나라 풍토가 안타까웠습니다. 주관적인 견해임을 밝힙니다.
오해1 : 유학은 억대연봉의 지름길이다.
’재테크’가 화두인 세상입니다. ’부자아빠’가 아니면 대접받지 못하고 ‘20대부터 미치지’않으면 평생을 후회할 것 같습니다. 그래서인지 유학 준비도 금전적인 것을 기대하고 하는 분이 많은 듯 합니다. 이에 대해 저는 이렇게 정리하고 싶습니다.
You simply can’t become an accomplished researcher,
if you’re not starting for the sheer pleasure of learning and discovering the truth.
And you can’t get wealthy or famous unless you become one.
간단합니다. MBA등의 전문대학원이 아닌 다음에야 유학은 학문연구를 외국에서 하는것이며, 연구자로서 성공하지 못하면 남는 것이 별로 없습니다. 일단 외국 석박사학위만 받아오면 우리나라에서 알아주지 않냐구요? 제가 보기에 세상이 그렇게 만만한 것 같지는 않습니다. 얼마전 아는분을 통해 연락받아 찾아간 Google Korea인사담당자의 말에 따르면 그 회사는 입사기준에서 학위가 차지하는 비중이 미미하다고 합니다. 수차례의 심층면접을 통해 지원자의 면면을 다 밝힐수 있는데 왜 다른 증거에 의지해야 되냐는 거죠.
그렇습니다. 대학원 유학을 ‘국제 공인 고급 자격증’ 취득을 위한 관문 정도로 생각하는 경우가 많은데,
자격은 실력 검증이 힘든 경우에나 가치있는 것입니다. 그리고, 심층 면접을 비롯하여 학교든 기업이든 지원자의 실력을 검증하는 방법은 날로 정교해지고 있습니다. 학벌로 대표되는 자격은 점점 설자리를 잃고 있는 것입니다.
백번 양보하여 유학을 통해 억대연봉을 받을 수 있다고 가정하더라도 그것이 ’지름길’이 될수는 없습니다.
ROI 측면에서 최소 수년이 걸리는 석박사학위는, 기본적으로 관련 분야의 광범위한 배움과 연구를 통해 인류에 지적 자산에 기여하는 독창적인 성과를 도출해 내는 과정입니다. 그리고 이는 당연히 해당 분야에 대한 열정과 뼈를 깎는 노력을 전제하는 일입니다. 직업 활동에 대한 준비로서, 개인의 역량 향상이 주 목적인 전문대학원과 근본 및 지향점이 전혀 다른 것입니다.
TV드라마에서나 봄직한 성공에 대한 장밋빛 환상만으로 유학준비를 시작하는 분이 계시다면 말리고 싶습니다. 대학원 유학은 수단이 되어서는 안된다고 생각합니다. 단순히 공부를 잘하고, 영어점수도 받혀주니까 시작하신다면 뭔가 오해하고 계신겁니다.
유학은 ’할수있다’의 문제가 아니라 ’하고싶다’의 문제가 되어야 합니다. 몇년을 하면 연구결과가 나온다는 보장은 어디에도 없는데, 능력만 믿고 시작한 일이 결과를 맺지 못한다면 초조해지고 ‘대충 해서 졸업해야지’하는 식의 생각이 들기 시작하는 겁니다.
오해2 : 랭킹 높은 학교 못갈 바에야 안 가는 편이 낫다.
우리나라 사람들은 숫자놀이를 좋아합니다. 서른살에는 30평, 마흔살에는 40평 아파트에 살아야한다는 무시무시한 법칙(?)부터 시작해서 모든 것을 서열화하고 자신의 ’서열’에 따라 울고웃고합니다. (저도 어쩔수없는 토종 한국인이라 별반 다르지 않습니다.) 유학도 US News 통계로 대표되는 잘 알려진 ‘학교 및 학과 랭킹’이 있으니, 여기서 몇위하는 학교냐를 절대적인 기준으로 믿는 분이 많습니다.
하지만 조금 더 생각해보면, 대학원의 과별 순위는 결국 교육 및 연구의 질을 순위화한다는 것인데 사실 이것은 말이 안됩니다. 학교의 연간 예산 및 논문 발표 건수, 그리고 졸업생 평균 연봉이 주된 평가항목인데 사실 이는 학교의 전통 및 규모와 많은 상관관계가 있는 것이라 실질적인 교육의 및 연구의 질과는 많은 편차가 있다고 느껴집니다. (물론 랭킹이 높은 학교가 일반적으로 더 나은 기회를 제공하는 것은 사실입니다.)
랭킹의 효용이라는 것이 결국 랭킹 스스로가 만들어내는 정서적 측면이 큰데
- ‘나는 랭킹 OO위 학교에 나왔단 말이지’ 등등, 발표논문 및 인용횟수라는 객관적인 평가지표가 엄연히 존재하는 국제 학계에서 그런 피상적인 만족감은 큰 의미가 없습니다. 정작 의미있는 부분은 우수한 학생 및 교수진과 일할 수 있느냐인데, 이런 부분은 랭킹에 잘 잡히지 않습니다. (오히려 관련 분야의 권위있는 학회의 Chair나 논문 발표자를 찾아보는것이 정확하겠죠.)
랭킹의 가치를 어느정도 인정하더라도, 대학원 유학은 교수 및 연구자 몇명과 일하러가는 것이지 학부처럼 학교에 다니러 가는 것이 아닙니다. US News에서 학과별 세부전공까지 나누어 랭킹을 산정해 놓았지만 여전히 지나치게 큰 단위이며 빠진 분야도 많습니다. 예를들어 컴퓨터 분야의 세부전공으로 소개된 Artificial Intelligence는 Machine Learning, Knowledge Representation, Intelligent Agent등의 분야로 다시 나누어지는 굉장히 큰 주제입니다. 그리고 실제 연구는 이러한 세부 분야에서도 특정 주제만을 잡아서 몇년간 탐구하는 일입니다. A.I. 랭킹이 높은 학교지만 Machine Learning에 관심있는 교수가 별로 안계시다면, Machine Learning을 연구하기 위해 그학교를 가야될까요?
지금 손에 US News랭킹표가 들려있다면 대신 관심 분야 논문이나 학회지를 찾아보는 것이 어떨까요.
다음에는…
이에지는 글에서는 유학 지원요건과 관련된 다양한 오해 – 출신학부, 학점, 영어성적 등 – 를 다루겠습니다. 내용이 궁금하신 분은 %EC%9C%A0%ED%95%99-%EC%A4%80%EB%B9%84-%EA%B0%80%EC%9D%B4%EB%93%9C-%EC%8B%9C%EB%A6%AC%EC%A6%88-%EC%8B%9C%EC%9E%91%ED%95%A9%EB%8B%88%EB%8B%A4">전체 내용의 Outline을 다운받아 미리 보시면 좋겠습니다.
Tags :
유학,
Tutorial
Print
Comments
Trackback
5 Apr
지난 1년간 컴퓨터/정보학 전공으로 미국 박사과정 유학을 준비하였습니다. 많은 사람들이 유학을 준비하며 자료 역시 많지만 대부분 정리된 형태는 아닙니다. 지난 1년간 느낀 점은 제대로된 가이드가 없는 유학 준비는 정말 많은 시행착오를 수반한다는 점입니다. 준비 과정에서 시중의 자료는 대부분 섭렵했고, 거기에 제 경험을 더했기에 충분히 가치있는 컨텐츠가 되리라 생각합니다.
준비과정내내 뭔가 다른 방법을 시도해보려 노력했던 것 같습니다. 제 모토가 ‘줄 설 필요없는 인생’인점도 있지만,학점이 아주 좋은 것도 논문이 있었던것도 아니었기에
다른 지원자와 뭔가 다르게 하지 않으면 도저히 승산이 없다고 생각했습니다. 어쨌든 이제 결과를 맺었으니, 조금은 편한 마음으로 제가 시도한 방법을 공개합니다.
계획하고 있는 순서는 다음과 같습니다.
- 개요
- 유학, 내게 맞는 길인가?
- 학교 및 프로그램 알아보기
- 시험 준비
- 영어 공부
- GRE 준비
- 에세이 작성
- 추천서 받기
- 원서 작성
- 지원 결과에 따라
- 1년 더 할것인가?
- 진학 학교 선정하기
- 출국 전 준비
연재에 앞서 앞으로 올라갈 내용의 개요(Draft V3)를 먼저 올립니다.
(최종 수정 : 4/6, 2007)
[##
1C|ck0.pdf||##]
Tags :
Tutorial,
유학
Print
Comments
Trackback
17 Mar
Overview
첫번째 Tutorial로 예전에 GRE Writing 시험에 대해 정리했던 내용을 공개합니다. GRE Writing에서 고득점을 하는 글을 쓰기 위한 방법이지만 주제에 대해 자신의 의견을 피력해야 하는 글쓰기에 적용가능한 내용이 많습니다.
지금 준비중인 제 유학 준비기에서 밝히겠지만, 저는 유학 준비 초기 단계부터 GRE시험을 그다지 중요하게 생각하지 않았으며 준비과정에서 이에 대한 확신을 가질 수 있었습니다. GRE시험은 기본적인 수학능력을 평가하는 정도의 의의를 지니므로, 높은 GRE점수가 절대 당락을 좌우하는 요소가 되지는 못합니다. 또한 아시아권 학생들의 ‘후기 열풍’과 이에 따른 점수 인플레는 학교측에도 잘 알려진 사실이라 아시아권 학생들의 GRE점수는 더욱이 평가절하되는 분위기입니다. 따라서 GRE등의 관련 시험에는 최대한 적은 노력으로 필요한 점수를 확보하겠다는 자세가 필요한 듯 합니다.
어쨌든 GRE Writing시험에서도 필요한 점수는 받아야겠죠. 필요한 점수는 학교마다 큰 편차를 보이지만, 전반적으로 이공계 대학원 진학을 위해 필요한 점수는 3~4점 정도인 것 같습니다. 아래 문서는 가장 많은 학생이 선택하는 Peterson에서 나온 GRE Writing 관련 참고서 요약입니다.
[##1C|dk0.pdf||##]
Tags :
Essay,
Tutorial
Print
Comments
Trackback