IT 알아가기

PCA와 T-SNE 차이점 쉽게 정리!

성공하는 그날까지 2025. 4. 13. 06:21
728x90
반응형

PCA와 T-SNE 차이점 쉽게 정리!

 

 

 

 

요즘 인공지능이나 데이터 분석 이야기를 들으면 "PCA"나 "T-SNE" 같은 어려운 용어가 자주 등장합니다.

이 용어들은 '차원 축소'라는 작업에서 아주 중요한 도구인데요. 쉽게 이해할 수 있도록, 이 두 가지가 어떤 점이 같고 어떤 점이 다른지 아주 쉽게 설명해드리겠습니다.

특히 데이터 시각화나 머신러닝 공부를 시작하신 분들께 도움이 될 수 있도록 친근하게 풀어드릴게요.

 


목차

  1. 차원 축소란 무엇인가요?
  2. PCA는 어떤 방식인가요?
  3. T-SNE는 어떤 방식인가요?
  4. PCA와 T-SNE는 어떻게 다를까요?
  5. 언제 PCA를 쓰고 언제 T-SNE를 쓰면 좋을까요?

 


 

1. 차원 축소란 무엇인가요?

데이터를 다룰 때, 어떤 정보들은 너무 많아서 머리가 아플 수 있어요.

예를 들어, 사람에 대해 키, 몸무게, 나이, 성별, 좋아하는 색, 좋아하는 음식, 사용하는 앱 등등 여러 가지 정보가 있을 수 있어요.

이런 정보를 '특성(Feature)'이라고 부르는데, 이게 많아지면 분석이 어려워져요.

그래서 우리는 '차원을 줄이는' 작업, 즉 ‘중요한 정보만 뽑아내서 단순하게 만드는 방법’을 써요. 이게 바로 **차원 축소(Dimensionality Reduction)**예요.

 


2. PCA는 어떤 방식인가요?

 

PCA는 영어로 Principal Component Analysis라고 해요. 우리말로는 주성분 분석이라고 부릅니다. 이름은 어렵지만 하는 일은 단순합니다.

PCA는 마치 수학 시간에 직선이나 평면 위에 점들을 가장 잘 맞추는 ‘선’을 찾는 것과 비슷해요. 여러 정보 중에서 가장 중요한 방향을 찾아서 그 방향으로 데이터를 줄여주는 방식이에요.

쉽게 말해, 많은 특성이 있는 데이터를 수학적으로 계산해서 가장 설명력이 높은 방향으로 요약해주는 거예요.

PCA의 특징

  • 빠르고 계산이 간단해요.
  • 데이터의 전체적인 구조를 잘 유지해요.
  • 주로 선형 구조(일직선처럼 펼쳐진 데이터)에 잘 맞아요.

 


3. T-SNE는 어떤 방식인가요?

 

 

T-SNE는 t-Distributed Stochastic Neighbor Embedding의 줄임말이에요. 이름만 봐도 복잡하죠? 하지만 하는 일은 생각보다 재밌어요.

T-SNE는 PCA처럼 데이터를 줄이긴 하지만, 방식이 아주 달라요. 마치 사람들이 친구들끼리 모여 있는 모습을 상상해보세요. 가까이 있는 친구들은 그대로 가깝게, 멀리 있는 사람들은 멀리 떨어지게 배치해주는 게 T-SNE예요.

즉, 데이터들 사이의 '거리'나 '관계'를 최대한 비슷하게 유지하면서 시각화하는 데 초점을 맞춘 방법이에요.

T-SNE의 특징

  • 복잡한 구조도 잘 표현해요.
  • 데이터의 클러스터(덩어리) 구조를 보기 좋게 만들어줘요.
  • 계산이 오래 걸리고, 매번 결과가 조금씩 달라질 수 있어요.

 


4. PCA와 T-SNE는 어떻게 다를까요?

 

비교 항목 PCA T-SNE
목적 전체적인 구조 유지 국소적인 구조(이웃 관계) 유지
계산 속도 빠름 느림
선형/비선형 선형만 처리 가능 비선형 구조도 표현 가능
시각화 전체 흐름 파악에 적합 데이터 군집 시각화에 적합
결과의 안정성 매번 결과 같음 매번 결과 다를 수 있음
사용 용도 데이터 압축, 특징 추출 시각화, 패턴 인식

PCA는 수학적으로 깔끔한 방식이라 안정적이고 빠릅니다. 하지만 복잡한 관계를 잘 표현하지 못해요. 반면 T-SNE는 사람 눈으로 보기에 이해하기 쉬운 형태로 데이터를 바꿔줘요. 특히 데이터가 덩어리처럼 나눠질 때 아주 유용합니다.

 


 

5. 언제 PCA를 쓰고 언제 T-SNE를 쓰면 좋을까요?

  • PCA를 사용하기 좋은 상황
    • 데이터가 너무 많아서 줄여야 할 때
    • 기계학습 모델에 넣기 전에 차원을 줄이고 싶을 때
    • 계산 속도가 중요한 경우
  • T-SNE를 사용하기 좋은 상황
    • 데이터 시각화를 할 때
    • 복잡한 관계를 파악하고 싶을 때
    • 데이터 안에 그룹이나 패턴이 있는지 알고 싶을 때

두 방법 모두 장단점이 있기 때문에 상황에 따라 적절히 선택하시는 게 중요합니다.

 

PCA와 T-SNE는 모두 데이터를 줄이는 데 쓰이는 멋진 도구입니다. 하지만 PCA는 빠르고 안정적이지만 단순한 구조만 처리 가능하고, T-SNE는 더 느리지만 복잡한 구조를 더 잘 표현할 수 있는 장점이 있습니다.

어떤 방법이 더 좋은지는 없어요. 사용하는 목적에 따라 적절하게 선택하는 것이 중요합니다.

두 방법의 차이점을 쉽게 이해하셨길 바랍니다. 앞으로 데이터 분석이나 인공지능을 공부하실 때 많은 도움이 되시기를 바랍니다.

 

 

이 글이 도움이 되셨다면 공감을 클릭해주세요 ^^

 

728x90
반응형