티스토리 뷰

반응형

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

요즘 핫한 인공지능 머신러닝 시리즈도 시작한다 

 

최고의 주제들을 모아놨으니 위짤을 참조하도록. 

 

사실 지도 학습 비지도 학습 준지도 학습 강화 학습도 

 

글자를 보는순간 무슨뜻인지 알거같긴하지만 정확하게 모르는 여러분의 특성상, 여기서부터 시작하도록 하자. 

 

 

입력 데이터와 정답 데이터 쌍을 사용한다 

 

예측과 범주를 결정할 수 있다 

 

 

 

목표 부분이 좀 생소할 것이다. 목표를 잘 파악할 수 있는 것은 인간다움이다. 

 

분류와 회귀는 읽으면 이해가 간다 .

 

예시를 보면 스팸 메일 필터링이 나오는데, 아주 기초적이고 옛날부터 사용되던 방식이다. 

 

훈련과 평가도 읽으면 이해가 간다 

 

중요한것은 코드다!

 

 

파이썬으로 가보자. 사이킷런 라이브러리를 사용한다. 

 

자주 사용하게 될 라이브러리다. 

 

첫줄은 아이리스 데이터셋을 사용한다는 뜻이다, 아이리스 데이터셋은 꽃의 품종을 분류한다

 

둘째줄은 트레인 테스트 스플릿 함수를 사용한다는 것이다. 이 함수는 분할하려는 데이터 배열, 입력 데이터 x 와 레이블 데이터 y 를 받을 수 있다. (레이블 데이터라는 말이 갑자기 나오는데, 정답이라거나 출력 값을 의미한다. 메일 x 가 왔을때 출력되는 y 는 스팸 이나 정상 이 있을 수 있다 ) 

 

 

 

이런 식으로 사용하게 되는데, 지루하니까 빠르게 넘어가자. 완벽해질 사람만 짚고 넘어가자. 

 

사실 지루해도 집중해서 보고 지나가야한다. 재밌는것만 해가지고는 구멍투성이가 된다. 

 

test size 는 테스트 세트의 비율이다. 0.2 정도를 보통 쓰는데, 전체 데이터 중 20% 를 테스트 세트로 쓴다는 것이다 

 

끝부분이 잘렸는데 random_state 는 데이터를 섞기 위한 값으로 42 를 사용했다

 

엑스 트레인은 훈련 데이터, 엑스 테스트는 테스트 데이터인데 

 

훈련 데이터는 학습할때 쓰는 것이고, 테스트 데이터는 학습 하고 난 이후, 테스트를 할 때 쓰는 데이터다. 

 

다시 라이브러리 사용부터 짚어보자면

 

 

셋째줄은 사이킷 라이브러리에서 선형 모델로 로지스틱 회귀 모델을 불러온다는 것이다. 

 

로지스틱 회귀 모델이 무엇이냐? 입력과 출력을 학습하고, 새 입력에 대해 두개의 분류를 만든다. 

 

선형 결합을 시그모이드 함수에 적용한다는 어려운 얘기를 하는데 

 

입력들의 가중치 합을 계산하고, 시그모이드함수에 넣어서 0과 1 사이의 값으로 변형하는 것이다.

 

로지스틱 회귀 모델에서 선형 결합은 위와 같이 계산된다. 

 

선형 결합의 결과값이 제트고, 더블유는 입력 특성들의 가중치 웨이트 값이다 

 

엑스원 엑스투 이건 입력 데이터의 특성 값이고 

 

비는 편향값이다 

 

이거는 조금 복잡해도 이해하기 어렵지 않다. 곱연산을 해가며 더한다는 것. 편향이나 절편을 더한다는것. 선형 결합의 결과물이 나온다는 것.

 

 

 

아주 재밌는 모양이 튀어나온다. 이걸 다른 친구들은 예전부터 안다는듯이 넘어가는데, 나는 샅샅히 파헤쳐 주겠다. 

 

저 동그라미 괄호 제트는 시그마 제트라고 읽어주면 된다. 이것도 모르는데 교수님이 선생님이 이거 읽어보라하면 오 지 는 일플러스 이 마이너스 제트제곱분의 일 이라고 읽으면 모두가 잘 알지도 못하면서 비웃을 것이다. 기억하자 시그마 제트다. 어려울게 없다 . 

 

이는 자연 상수다. 대체 자연 상수가 뭔데 튀어나오느냐! 

 

자연 상수는 2.71828... 이런건데, 이상한 모양의 무한급수를 통해 만들어졌다

 

 

팩토리얼! 은 알 겁니다. (갑자기 존댓말이 좋다고 해서 존댓말 쓰기로 함) 3! 이면 3 곱하기 2 곱하기 1 곱하기 으로 6 이지요. 4! 이면 4 3 2 1  곱으로 24 이지요. 

 

이 유래와 역사와 의도까지 저는 다 짚어드립니다. 

 

오일러가 발견한건데, 이런 식으로 만들어 봤더니, 

 

자연상수의 지수 함수의 미분이 자연 상수와 같다는 관계가 있고 이게 중요하다고 합니다!

 

무슨소리냐구요?

 

 

자연상수는 이렇게 정의가되는데

 

 

이것이 테일러 급수라고도 하는 모습인데,  자연상수와 모습이 비슷하고 자연상수의 지수함수 입니다. 위에서 말했던.

 

이걸 미분해봅시다. 미분이 어렵다해도 설명해드릴게요. 

 

 

이렇게 미분을 하면 

 

미분 공식이 어렴풋이라도 기억나시는분은 이해하겠지요 

 

미분은 순간순간마다 엑스가 순간변화할때 어떻게 변화하는지를 알려줍니다 

 

이걸 붙이면서 미분을 한다는것을 알려줍니다. 엑스가 순간변화할때 어떤 변화가 있느냐 를 나타내주는 분수 기호입니다 

 

디는 델타를 줄인 말입니다. 변수의 작은 변화량을 의미합니다 

 

그 작은 변화량을 엑스의 작은 변화량으로 나눠주니까, 엑스의 작은 변화할때 얼마만큼의 변화가 있는지를 나타내는 기호인 것입니다. 

 

1/4 라고 하면 4 마다 1이 얼만큼 나눠지는지를 계산하게되지요? 

 

델타엑스분의 델타도 마찬가지입니다 

 

 

 

이런 얘기도 있는데 글이 길어지니 다음에 적겠습니다. 

 

실용성을 중시하는 우리 컴퓨터공학자들답게(비전공자라도 지금 여기 왔으면 컴공학자라고 합시다) 

 

 

이 자연상수를 어디 쓸수 있느냐? 위와 같이 쓸 수 있습니다. 

 

복리이자가 만만해보이지요? 

 

 

자연상수를 사용하면 엑스가 증가하면서 지수적으로 커지는 성질을 보여줄 수 있습니다. 그래서 사용하는 것입니다 

 

글이 길어지므로 2편으로 넘어가겠습니다 

 

자주 오세요! 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함