일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 엘라스틱넷
- bargraph
- 프로그래머스
- docker
- MaskRCNN_colab
- bcss
- flask모델서빙
- 기사단원의무기
- MSLE
- MaskRCNN환경구축
- stratified k-fold
- 회귀 평가 지표
- MaskRCNN코랩
- PyQt5
- seaborn.barplot
- spleeter
- mmdetection
- Python
- mask2coco
- rogistic regression
- 청산원함
- 다중 회귀
- 피처 스케일링
- 로지스틱 회귀
- 객체 성능 평가 지표
- mask2cocojson
- RMSLE
- 모델 성능 최적화
- stacking
- MaskRCNN환경구성
- Today
- Total
목록Machine Learning & DeepLearning (14)
노트와 노트

최근 하루가 멀다하고 고성능의 LLM이 쏟아져 나오는 세상에서, 계속해서 대형 언어 모델의 한계점으로 제기되고 있는 문제가 있다. 바로 ‘Hallucination(환각)’ 문제이다. 이번 포스팅에서는 할루시네이션이 무엇이고 주요 발생 원인은 무엇인지, 그리고 할루시네이션 완화를 위한 방안에는 어떤 것이 있고 실제 완화 방안을 도입한 사례까지 정리하려고 한다. <hr contenteditable="false" data-ke-type="horizontalRule" data-ke-sty..

해당 글은 MMDetection의 Swin Mask R-CNN Model을 사용하여 유방암 세그멘테이션 모델 학습 중 발생한 문제의 해결 방안을 정리해둔 글입니다. (참고) MMDetectionOpenMMLab의 computer vision 프로젝트 중 하나로 Pytorch 기반의 open source object detection/segmentation toolbox이다.이미지 인식 작업에 사용되는 다양한 모델들을 간편하게 갈아 끼우며 train/test 할 수 있는 것이 주요 특징이다.https://github.com/open-mmlab/mmdetection GitHub - open-mmlab/mmdetection: OpenMMLab Detection Toolbox and BenchmarkOpenM..

Spleeter Spleeter는 Python 음원 분리 라이브러리로, 보컬 및 여러 악기로 이루어진 혼합 음원에서 보컬 및 각각의 악기를 분리할 수 있다. 2stems, 4stems, 5stems의 3가지 분리 방식을 제공하며 각 분리 방식별 사전 훈련된 모델을 제공한다. 2stems: Vocals (singing voice) / accompaniment separation 4stems: Vocals / drums / bass / other separation (※2stems, 4stems 모델은 musdb dataset에서 높은 성능을 보임) 5stems: Vocals / drums / bass / piano / other separation ※github link: https://github.com..

1. GAN(Generative Adversarial Networks)이란? GAN은 Generative Adversarial Networks의 약자로 우리말로는 '적대적 생성 신경망'이라고 한다. GAN은 Generative AI의 한 종류로 사람이 쓴 것 같은 글, 사진 등 실제에 가까운 가짜 데이터들을 생성하는 모델이며, '적대적 생성' 이라는 이름에서 알 수 있듯 서로 다른 두 개의 네트워크를 적대적으로(Adversarial) 학습시키며 실제와 비슷한 데이터를 생성(Generative)한다. 2. 개념(Concept)과 구조(Architecture) GAN은 확률 분포를 학습하며 끊임없이 실제에 가까운 거짓 데이터를 생성하는 Generator(이하 G)와 데이터가 Generator에 의해 생성된 ..
1. 데이터 조작 1-1. 데이터 정제(Data Cleansing) 데이터 정제란 데이터셋에 존재하는 결측값 및 이상값을 처리하여 데이터의 신뢰도를 높이는 작업이다. 낮은 신뢰도를 가진 데이터로는 높은 성능을 기대하기 어렵다. 모델이 결측값, 이상값을 학습하며 제대로 된 예측 결과를 도출할 확률이 낮아지기 때문이다. 따라서 데이터 정제를 통해 이러한 데이터들을 적절히 처리하여 데이터의 신뢰도를 높여야 한다. 데이터 정제 절차 1) 데이터의 오류 원인 분석 원인 설명 오류 처리 방법 결측값(Missing Value) 데이터가 입력되지않고 누락된 값 -경향값으로 대체(평균값, 중앙값, 최빈값 등) -확률 분포 기반 랜덤값으로 대체 잡음(Noise) 실제는 입력되지 않았지만 입력되었다고 잘못 판단한 값 -일정..

※ 이 글은 책을 공부한 내용&개인적으로 공부한 내용을 정리한 글입니다! 회귀(Regression) 머신러닝에서 회귀란, 주어진 피처와 결정 값 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것을 의미한다. ※ 같은 지도학습 유형인 분류와의 차이점 분류: 예측값이 카테고리와 같은 이산형 클래스 값 회귀: 연속형 숫자 값 회귀의 유형 독립변수 개수 회귀 계수의 결합 1개: 단일 회귀 선형: 선형 회귀 여러 개: 다중 회귀 비선형: 비선형 회귀 선형 회귀는 실제 값과 예측값의 차이(오류의 제곱 값)를 최소화하는 직선형 회귀선을 최적화하는 방식이다. 선형 회귀의 유형은 아래와 같이 나눠진다. 일반 선형 회귀 릿지(Ridge) 라쏘(Lasso) 엘라스틱넷(ElasticNet) 로지스틱 회귀(Logis..

회귀 평가 지표 회귀의 평가를 위한 지표는 실제 값과 회귀 모델의 예측 값의 차이를 기반으로 한 지표가 중심이다. 이 차이 값은 단순 더하기, 빼기로는 +, -가 섞여 오류가 상쇄되므로 보통 절댓값 평균, 제곱, 루트 등을 이용한다. 숫자가 작을수록(0에 가까울수록) 좋은 성능 지표 MAE, MSE, RMSE, MSLE, RMSLE 숫자가 클수록(1에 가까울수록) 좋은 성능 지표 R^2 회귀 평가 지표 사이킷런 API 평가 방법 사이킷런 평가 지표 API scoring 함수 적용 값 MAE metrics.mean_absolute_error 'neg_mean_absolute_error' MSE metrics.mean_squared_error 'neg_mean_squared_error' R^2 metrics..

※ 이 글은 책 공부한 내용&개인적으로 공부한 내용을 정리한 글입니다. 앙상블 학습(Ensemble Learning) 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법. 이미지, 영상, 음성 등의 비정형 데이터의 분류는 딥러닝이 뛰어난 성능을 보이고 있으나, 대부분의 정형 데이터 분류 시에는 앙상블이 뛰어난 성능을 나타내고 있음. 앙상블 학습의 유형 보팅(Voting) 배깅(Bagging) 부스팅(Boosting) 스태킹(Stacking) 보팅(Voting) 서로 다른 알고리즘을 가진 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식. 보팅 유형 ① 하드 보팅(Hard Voting): 다수결. 예측한 결과값들 중 다수의 분류기가 결정한 예측값을 최종..

※ 이 글은 책 공부한 내용&혼자 공부한 내용을 정리한 글입니다! 난 딥러닝 기반의 분류 모델 위주로 공부했어서 서포트 벡터 머신 외의 머신러닝 알고리즘은 잘 몰랐었는데, 이 책을 통해서 다양한 분류 관련 머신러닝 알고리즘을 공부할 수 있어서 좋았다~!! 설명도 자세하고, 실습 내용도 그냥 데이터셋 불러와서 학습시켜보고 예측해보고 끝! 이 아니라 무척이나 상세해서 정말 너무 좋았다... 나같은 초보한텐 이런 상세한 책이 꼭 필요했다!! 책에서 언급된 내용 중에 이미지, 영상, 음성, NLP 영역에서는 딥러닝이 머신러닝계를 압도하고 있으나 이를 제외한 정형 데이터의 예측 분석에는 여러 머신러닝 알고리즘을 결합한 앙상블 기법이 애용되고 있다고 한다. 책에선 언급된 머신러닝 분류 기법들에 대해서 복습할 겸 정..

※ 이 글은 책 공부한 내용&개인적으로 공부한 내용을 정리한 글입니다! 오버피팅(Overfitting)과 언더피팅(Underfitting) 오버피팅: 모델이 학습 데이터셋에 대해 과하게 학습된 상태. 노이즈(noise, 잡음)를 지나치게 반영하여 학습 데이터 외의 다른 데이터에 대해선 예측 성능이 과도하게 떨어짐. 오버피팅이 발생했을 때 일반적인 해결책은 아래와 같다. 1. 모델의 복잡도 낮추기: 모델의 layer 개수를 낮춰 학습 데이터에 비해 과하게 학습되지 않도록 조절 2. Dropout: 학습 시 일부 뉴런의 연결을 끊기 3. L1/L2 정규화 L1 정규화 - 예측 영향력이 작은 피처를 0으로 만들어 예측 시 해당 피처가 선택되지 않도록 하는 것 L2 정규화 - 상대적으로 큰 가중치의 값을 작게 ..