728x90

머신러닝 8

K-Means Clustering 실습 및 이론 정리

K-Means Clustering은 비지도 학습(Unsupervised Learning)의 대표적인 기법으로, 데이터를 군집화하여 비슷한 특성을 가진 데이터를 묶는 데 사용됩니다. 이 알고리즘은 특히 고객 데이터를 분석하거나 특정 패턴을 찾을 때 유용하며, 실습 과정을 통해 데이터 군집화를 직접 수행해볼 수 있습니다.K-Means Clustering의 원리초기 중심점 설정: K값(클러스터 개수)을 설정하고, 초기 중심점을 랜덤으로 선택합니다.클러스터 할당: 각 데이터 포인트에 대해 가장 가까운 중심점에 해당하는 클러스터로 할당합니다. 거리는 일반적으로 유클리드 거리(Euclidean Distance)로 계산됩니다.중심점 업데이트: 각 클러스터에 속한 데이터의 평균을 계산하여 새로운 중심점을 설정합니다.반..

🐍 Python 2025.02.01

Unsupervised Learning과 K-Means Clustering

2025.02.01 - [🐍 Python] - K-Means Clustering 실습 및 이론 정리 K-Means Clustering 실습 및 이론 정리K-Means Clustering은 비지도 학습(Unsupervised Learning)의 대표적인 기법으로, 데이터를 군집화하여 비슷한 특성을 가진 데이터를 묶는 데 사용됩니다. 이 알고리즘은 특히 고객 데이터를 분석하거나 특boohoday.com안녕하세요, 여러분. 오늘은 인공지능에서 중요한 개념 중 하나인 Unsupervised Learning(비지도 학습)에 대해 알아보겠습니다.1. 비지도 학습이란?먼저, 우리가 흔히 접하는 인공지능 모델은 크게 두 가지로 나뉩니다. 하나는 정답이 있는 데이터를 가지고 학습하는 Supervised Learning..

🐍 Python 2025.01.31

디시전 트리(Decision Tree) 개념과 데이터 분할

데이터를 분류하는 첫 번째 선데이터를 효과적으로 분류하기 위해 우리는 특정 기준을 설정하고 이를 바탕으로 데이터를 나눠야 합니다. 디시전 트리는 이러한 분류 과정을 시각적으로 표현하는 가장 직관적인 방법 중 하나입니다.우리는 데이터를 분류할 때, 가장 먼저 첫 번째 분할 기준을 결정해야 합니다. 예를 들어, 아래와 같은 데이터가 있다고 가정해 봅시다.특정 데이터의 값을 기준으로 그룹을 나눈다.첫 번째 기준을 설정하여 데이터를 상위 그룹과 하위 그룹으로 분할한다.이제 이 과정을 단계별로 살펴보겠습니다.첫 번째 선: 데이터의 첫 번째 분할먼저, 데이터를 분석하여 어떤 기준으로 분할할 것인지 결정해야 합니다. 일반적으로 Y축 값(예: 특정 값이 60보다 큰가 작은가?)**을 기준으로 데이터를 나누어볼 수 있습..

🐍 Python 2025.01.31

서포트 벡터 머신 (SVM, Support Vector Machine): 개념부터 실습까지

1️⃣ SVM이란?서포트 벡터 머신(SVM, Support Vector Machine)은 지도 학습(Supervised Learning) 기반의 강력한 분류(Classification) 알고리즘입니다. SVM은 결정 초평면(Hyperplane)을 학습하여 데이터를 두 개 이상의 클래스로 나누는 방식으로 작동합니다.📌 SVM의 핵심 개념마진(Margin) 최대화: SVM은 데이터를 가장 잘 분리하는 결정 초평면을 찾고, 마진을 최대화합니다.서포트 벡터(Support Vectors): 결정 초평면과 가장 가까운 데이터 포인트들.커널 트릭(Kernel Trick): 데이터를 고차원으로 변환하여 선형적으로 구분할 수 있도록 함.📌 SVM의 활용 사례얼굴 인식 (Face Recognition)스팸 필터링 (S..

🐍 Python 2025.01.31

KK-최근접 이웃 (KNN, K-Nearest Neighbors) 알고리즘: 개념부터 실습까지

1️⃣ K-최근접 이웃(KNN)이란?📌 KNN의 핵심 개념비모수적(Non-parametric) 모델: 사전에 학습을 하지 않고, 데이터가 들어올 때마다 계산하여 예측.거리 기반 분류: 새로운 데이터가 들어왔을 때, 가장 가까운 K개의 데이터 포인트를 찾아 다수결 투표로 분류 결정.K 값의 설정: K 값이 크면 과적합(overfitting)을 방지하지만, 너무 크면 정확도가 떨어질 수 있음.📌 KNN의 활용 사례질병 예측 (환자의 증상이 기존 환자와 얼마나 유사한가?)추천 시스템 (비슷한 취향의 사용자가 좋아하는 콘텐츠 추천)이미지 분류 (손글씨 숫자 인식 등)2️⃣ KNN의 동작 원리데이터 포인트 간의 거리 계산가장 일반적으로 사용되는 거리는 유클리드 거리(Euclidean Distance)유클리드 ..

🐍 Python 2025.01.31

리니어리그레션 (Linear Regression) 완벽 이해: 경력과 연봉의 관계 예측하기- Prediction (예측)

2025.01.30 - [🐍 Python] - 머신러닝과 데이터 전처리 - 초보자를 위한 친절한 가이드 머신러닝과 데이터 전처리 - 초보자를 위한 친절한 가이드1. 머신러닝이란?머신러닝(Machine Learning)은 데이터를 이용하여 패턴을 학습하고, 이를 통해 예측을 수행하는 인공지능 기술입니다. 우리가 실생활에서 머신러닝을 만나는 사례는 다음과 같습니boohoday.com 1. 리니어 리그레션이란?우리는 종종 데이터를 통해 미래를 예측하고자 합니다. 예를 들어, 경력이 많을수록 연봉이 높아질까? 이런 질문을 데이터로 분석할 수 있습니다. 이를 위해 리니어 리그레션 (Linear Regression) 이라는 기법을 사용합니다.리니어 리그레션은 데이터를 분석하여 가장 잘 맞는 직선을 찾고, 이를 이..

🐍 Python 2025.01.30

머신러닝과 데이터 전처리 - 초보자를 위한 친절한 가이드

1. 머신러닝이란?머신러닝(Machine Learning)은 데이터를 이용하여 패턴을 학습하고, 이를 통해 예측을 수행하는 인공지능 기술입니다. 우리가 실생활에서 머신러닝을 만나는 사례는 다음과 같습니다.손으로 쓴 우편번호 자동 인식 (우체국 자동 시스템)의료 영상에서 종양 여부 판단 (AI 진단)신용카드 부정 사용 감지 (이상 거래 탐지)블로그 글의 주제 자동 분류 (텍스트 분류)고객을 취향이 비슷한 그룹으로 묶기 (추천 시스템)이처럼 머신러닝은 다양한 분야에서 활용되고 있으며, 우리가 해결하고자 하는 문제를 정의하고 적절한 데이터를 확보하는 것이 가장 중요합니다.2. 문제와 데이터 이해하기머신러닝을 적용하기 전에 다음과 같은 질문을 던져야 합니다.가지고 있는 데이터가 문제를 해결하는 데 충분한 정보를..

🐍 Python 2025.01.30

로지스틱 회귀 (Logistic Regression): 머신러닝 이진 분류 알고리즘의 이해와 실습

1️⃣ 로지스틱 회귀란?로지스틱 회귀(Logistic Regression)는 머신러닝에서 이진 분류(Binary Classification) 문제를 해결하는 지도 학습(Supervised Learning) 알고리즘입니다.📌 로지스틱 회귀의 핵심 개념분류(Classification) 모델: 데이터를 두 개의 클래스로 나누는 모델.확률 예측: 특정 사건(예: 광고 클릭 여부)이 발생할 확률을 0과 1 사이의 값으로 예측.시그모이드 함수(Sigmoid Function) 사용: 로지스틱 회귀는 선형 회귀와 다르게 예측값을 0~1 사이의 확률값으로 변환.📌 로지스틱 회귀의 활용 사례이메일이 스팸인지 아닌지 분류암 진단(양성 또는 음성)은행 대출 승인 여부 예측광고 클릭 예측2️⃣ 로지스틱 회귀의 원리로지스틱 ..

🐍 Python 2025.01.27
728x90