본문 바로가기

Code States AI

(4)
[코드스테이츠/개인프로젝트] 알라딘 베스트셀러 데이터를 사용한 콘텐츠 기반 책 추천 웹 애플리케이션 제작📚 드디어 프로젝트가 끝이 났다(이주 전 프로젝트를 앞둔 심정은 여기서 확인). 끝이 난 기념으로 오늘은 간단한 프로젝트 소개글과 회고를 적어보려 한다. 우선 결과물을 보자. 제목에서 언급한 것처럼 프로젝트 주제는 알라딘 베스트셀러 데이터를 사용한 콘텐츠 기반 책 추천 웹 애플리케이션 제작이었다. 🙋‍♂️진행 과정 1) 데이터 선정 및 전처리 데이터는 온라인 서점 사이트 알라딘의 Open API를 활용했다(메뉴얼 바로가기). 제공하는 것 중에서 상품 리스트 API를 사용했고, 국내 베스트셀러 도서 데이터 약 1만 건을 제이슨 형식으로 추출했다. 속성은 도서의 고유한 식별자라 할 수 있는 국제 표준 도서번호 ISBN, 제목, 지은이, 세부 카테고리, 가격, 출간일, 상품설명, 책 표지 URL, 상품 URL 그..
[코드스테이츠/개인프로젝트] 2주 프로젝트를 앞둔 심정과 계획들😇 9월부터 시작한 코드스테이츠 AI 부트캠프의 교육 세션이 끝이 났다. 내일부터는 Code States Project 1 이라는 이름으로 2주간 개인 프로젝트가 진행된다. 주제에 대해서는 큰 고민 없이 SECTION 3 프로젝트를 발전시키는 방향으로 가기로 했다. SECTION 3에서는 알라딘 베스트셀러 데이터를 사용한 콘텐츠 기반 책 추천 웹 애플리케이션을 만들었었다. 하지만 일주일은 주제와 데이터를 정하고 분석을 하기에, 추천 서비스를 만들고 배포하기에 촉박한 시간이었다. 나는 마지막 날 배포 단계에서 메모리 문제를 해결하지 못했고 결국 미완성인 채로 프로젝트를 제출했다. 어디까지나 내 기준이고 욕심이었지만, 완성하지 못한 프로젝트는 SECTION 5가 끝나도 마음에 계속 남아있었다. 앞으로 2주 간은..
[PYTHON/파이썬] KoBERT를 사용한 온라인 뉴스 악성 댓글 데이터 이진 분류 KoBERT 모델을 사용해 뉴스 댓글을 분류하는 작은 프로젝트를 진행해보았다. *프로젝트는 코랩 환경에서 진행했다 1. 주제 선정 이유🙋‍♂️ 프로젝트의 주제는 KoBERT를 사용한 온라인 뉴스 악성 댓글 데이터 이진 분류이다. 주제 선정 이유는 다음과 같다. 유튜브, 개인방송, SNS, 게임 채팅 등 온라인 공간 확장 특정 집단뿐만 아니라 일반인을 대상으로 한 악성 댓글 증가 피해자의 경우 외상 후 스트레스 장애 및 대인관계 기피, 공포로의 발전 가능성 존재 큰 사회적 문제인 악성 댓글 문제를 기업 차원에서 어떻게 대응할 수 있을지에 대해 고민한 결과 딥러닝을 사용해 이를 분류해보기로 했다. 2. 데이터 선정🙋‍♂️ 한국어로 된 데이터셋을 조사하였고, 최종적으로 Korean HateSpeech Data..
[PYTHON/파이썬] 워드 클라우드(Word Cloud)로 한글 데이터 시각화하기 자연어 처리 글에서 꼭 한 번씩 보이는 워드 클라우드(Word Cloud) * 워드 클라우드 또는 태그 클라우드란 데이터의 중요도나 인기도를 고려하여 2차원으로 시각화한 것을 말한다(출처 위키백과). 프로젝트에서 한글 데이터를 다루면서 처음으로 사용해봤다. 우선 결과물부터 보자. 사용한 데이터는 Korean HateSpeech Dataset으로 편견, 혐오 표현, 모욕에 대한 한국어 온라인 뉴스 댓글 데이터셋이다. 시각화에는 데이터셋 중에서도 Gender-related bias 특성이 True로 라벨링 된 데이터를 사용했다. 시각화 *모든 코드는 코랩 환경에서 실행했다. 사용한 데이터셋이 문장으로 되어 있었기 때문에, 시각화에 앞서 형태소 분석기로 명사만 추출했다. 형태소 분석기로는 Mecab을 사용했다..