머신러닝, 모델과 모델링

모델은 현실 세계의 사물이나 사건의 본질적인 구조를 나타내는 모형이다. 현실 세계의 복잡한 현상을 추상화하고 단순 화하여 모델로 표현한다. 물리적 표현일 수도 있고, 자연어 분장, 컴퓨터 프로그램, 수학 방정식처럼 기호적일 수도 있다. 모 델을 만드는 작업을 모델링이라고 한다. 모델을 이용하여 관계자끼리 소통하거나, 수학 계산을 적용하여 해결책을 도출한다. 그렇게 하기 위하여 문제 풀이에 필요한 것만 추상적으로 표현하고, 적절한 수준으로 단순화시키는 것이 필요하다. 단순화를 적게 하면 복잡해서 수학적으로 해결할 수가 없게 되고, 반대로 지나치게 단순화시키면 해결한 문제가 현실과는 동떨어진 것 이라서 효용성이 없다. 따라서 가급적 현실을 제대로 표현하면서도 문제 해결이 가능하도록 복잡도를 낮추는 것이 필요하다. 기계 학습이란 훈련데이터집합을 잘 표현하는 모델을 만드는 작업이다. 즉, 모델의 틀을 설정하고 훈련데이터집합을 잘 표현하는 파라미터(매개변수 값을 구하는 작업이다. 기계 학습에서 특히 관심 있는 것은 입력과 출력 간 함수 관계의 모델이 다. 전통적인 기계 학습 기법에서는 모델의 틀로써 수식을 주로 사용했다. 선형함수 또는 간단한 비선형함수가 많이 쓰였다. 수식 모델은 독립변수, 종속변수, 파라미터 등으로 구성된 방정식이 일반적이다. 확률적인 현상을 모델링할 때는 확률함수를 사용한다. 인공신경망 기법에서는 노드와 연결선으로 구성된 망구조를 모델의 틀로 사용한다. 주어진 망구조에서 훈련데이터집합 을 가장 잘 표현하는 파라미터값을 구하는 것이 모델링이다. 단순한 수식을 사용하는 것보다 훨씬 표현력이 좋다. 그래서 요 즘 다양한 문제를 인공 신경망을 이용하여 해결한다. 과거에는 망구조를 개발자의 경험과 직관에 의하여 미리 설정하는 것이 일반적이었다. 그러나 요즘은 적합한 망구조를 찾는 과정도 자동화되었다. 다양한 망구조와 파라미터 최적화를 시도한 후에 가장 바람직한 모델을 선택하는 것이다. 오토엠엘AutoM, Automated Machine Learning이 이런 목적의 도구다. 모델이 만들어지면 입력을 변화시켜가면서 출력의 변화를 관찰할 수 있다. 이를 모의실험 Simulation이라고 한다. 모의실험 을 통해서 복잡한 현실의 현상을 이해하고자 한다. 실세계 구조나 개체의 행동 등을 컴퓨터 프로그램으로 구축한 것을 컴퓨터 모의실험 모델이라고 한다. 복잡한 전투 상황에서 전술을 평가할 목적으로 개발한 워게임 모델이나 여러 사람이 참여하는 온 라인 게임이 대표적인 컴퓨터 모의실험 모델이다. 다양하고 복잡한 상황 분석을 위해서는 수천만 라인의 소스코드가 필요하 기도 하다.

머신러닝 알고리즘의 분류

기계 학습 알고리즘은 지도 학습, 비지도 학습, 강화 학습 등으로 분류된다. 이 분류는 학습 데이터에 포함된 정보와 그 정보의 사용 방법에 따른 것이다. 지도 학습은 입력과 원하는 출력의 쌍이 모두 주어진 상태에서 학습하는 방법이다.

학습 후에는 새로운 입력에 해당하는 출력을 예측하는 데 사용할 수 있다. 비지도 학습은 입력에 해당하는 바람직한 출력 의 정보는 주어지지 않는다. 유사성을 기준으로 입력집합을 군집화한다. 강화 학습은 성공과 실패의 정보로부터 바람직한 행 동패턴을 학습한다. 지도 학습Superised Teaming은 입력과 출력 간의 관계를 학습하는 데 사용된다. 입력과 그에 해당하는 출력이 쌍으로 주어진 훈련 데이터집합에서 입력과 출력 간의 함수관계를 배운다. 이렇게 얻어진 함수를 모델이라고 한다. 모델은 새로운 입력에 해 당하는 출력을 예측하는 데 사용한다. 지도 학습으로 수행하는 대표적 문제는 패턴 분류와 회귀분석이다.

패턴 분류 문제

패턴 분류ratem classification 문제에서 입력은 패턴의 표현이고 출력은 라벨, 즉 패턴 범주의 명칭이다. 개와 고양이 사진을 구분하는 문제를 생각해보자. 정확하게 개, 혹은 고양이라고 라벨이 주어진 사진의 데이터집합이 훈련에 사용된다고 가정하 자. 이 데이터집합으로 개와 고양이의 모양을 구분하는 알고리즘을 만드는 것이 기계 학습의 목적이다. 전통적인 패턴 분류 기계 학습 방법론에서는 시스템 개발자가 분류에 사용할 특성을 지정해주었다. 그러면 기계 학습 알 고리즘이 훈련 데이터를 이용하여 범주를 나누는 특성의 경계값을 찾았다. 인공신경망에서는 패턴 분류에 사용할 특성과 그 경계값을 학습 알고리즘이 스스로 찾는다. 그런 의미에서 인공신경망 학습은 패턴 분류 알고리즘을 시작부터 끝까지 자동으로 만드는 능력이 있다고 할 수 있다. 이런 능력이 인공 신경망 기법의 가장 두드러진 장점이라고 할 수 있다. 아마도 그림의 예제로 훈련시킨 인공 신경망은 개와 고양이를 분류하는 데 있어서 귀 끝 방향을 특성으로 보았을 것이다. 훈련데이터를 자세히 보면 고양이는 귀가 서 있지만, 개는 귀가 아래로 처져 있다. 그 특성은 인공 신경망이 학습과정에서 스 스로 찾아내어 분류하는 데 사용했을 것이다. 지도 학습을 완료한 시스템은 처음 보는 사진이더라도 개와 고양이를 구분할 수 있을 것이다. 즉, 지도 학습으로 개와 고 양이를 식별하는 알고리즘이 만들어진 것이다. 물론 훈련에 사용된 사진과 많이 다른 입력은 판단을 하지 못한다.

될때까지

머신러닝, 모델과 모델링

머신러닝 알고리즘의 분류

패턴 분류 문제

티스토리툴바