데이터셋 확인 사용할 데이터셋 : MNIST 데이터셋 (70,000개의 작은 숫자 이미지, 각 이미지마다 숫자 레이블 존재) sklearn.datasets 패키지의 함수 3가지 종류 1) fetch_*() : fetch_openml()과 같이 실전 데이터셋을 다운로드하기 위한 함수. fetch_openml() 함수는 기본적으로 입력을 pandas dataframe, 레이블을 pandas series로 반환. 2) load_*() : scikit_learn에 번들로 포함된 소규모 데이터셋을 로드하기 위한 함수(다운로드 불필요) 3) make_*() : 테스트에 유용한 가짜 데이터셋을 생성하기 위한 함수 → 생성된 데이터셋은 일반적으로 numpy 배열이고 (X,y) 튜플로 반환된다. sklearn.utils..
최근 'The Effect of Resampling on Data-imbalanced Conditions for Prediction towards Nuclear Receptor Profiling Using Deep Learning(molecular informatics, 2020)' 논문을 읽으며 화합물 데이터셋 중 불균형한 데이터셋을 다룰 때 성능을 높일 수 있는 방법을 연구하고 있다. 예를 들어, Tox21 데이터셋과 같은 경우, toxic 데이터 수가 nontoxic 데이터 수에 비해 월등히 많아 예측 정확도가 낮기 때문에 성능을 높일 방안이 필요하다. 이와 관련하여 classification task에 사용되는 성능 평가 지표를 정리하고 가는 것이 좋을 것 같아 이 글을 작성하게 되었다. 조만간 ..