🟪 Imbalanced datasets불균형 데이터셋은 특정 클래스(예: 사기, 청구 등)가 전체 데이터에서 매우 희귀한 경우를 말한다.대부분의 모델은 다수 클래스를 위주로 학습해서, 소수 클래스(이상치)를 제대로 예측하지 못한다.아래에서 예시로 사용될 Porto Seguro의 안전 운전자 예측 대회는 불균형한 클래스 문제의 대표적 예시이다.전체 고객 중 보험금 청구는 드문 사건이기 때문이다. 이 외에도 대표적인 불균형 클래스 문제로는 금융 사기 탐지나 컴퓨터 네트워크 공격 탐지 등이 있다. 🟪 The metric trap(평가지표의 함정)불균형 데이터셋을 다룰 때 초보자들이 자주 빠지는 큰 함정 중 하나는 평가지표 선택에 있다.예를 들어, accuracy_score(정확도) 같은 단순한 지표만을 사..
🟪 개요OCR AI 가 인식한 텍스트의 좌표 값이 반환됨을 알게 되었다.이를 이용해 관리자 입장에서 텍스트를 인식할 영역 좌표를 미리 저장해 둔뒤,OCR AI가 인식한 테스트의 좌표 값들의 중앙 값을 계산하여미리 저장된 좌표들 중 어느 좌표 중앙 값에 있는지 계산하면자동 맵핑이 가능할 것 같았다.위는 Google Vision API를 돌렸을 때 결과 값이다.이렇게 접수번호로 추출할 영역(초록색 좌표 값)을 미리 "접수번호" 필드로 저장해놓고,Google Vision API가 인식한 텍스트 좌표값의 중앙 값(보라색 좌표 값)이 추출할 영역 안에 들어 있으면자동으로 "접수번호"필드에 저장이 될 것이다. 아래는 구현 코드이다.🟪 좌표 추출 코드(Python GUI tkinter 라이브러리 사용)import..
요즘 소비자들은 디지털 콘텐츠와 서비스를 이용할 때, 웹을 중심으로 점점 더 많이 움직이고 있습니다.여러분이 직접 웹사이트 분석 데이터를 들여다봐도 방문자들이 웹에 얼마나 의존하는지 확인할 수 있을 겁니다. 하지만 여기서 주목해야 할 점이 하나 있습니다.소비자들의 기대 수준이 과거보다 훨씬 높아졌다는 것!단순히 경쟁자 웹사이트와 비교하는게 아니라 그들이 매일 사용하는 최고 수준(best-in-class)의 서비스들, 예를 들어 구글, 아마존, 인스타그램 같은 곳과도 비교합니다. 이번 챕터에서는 "웹사이트 퍼포먼스(성능)이 비즈니스 성공에 어떤 영향을 미치는지에 대한 여러 연구 결과를 소개하고,왜 웹사이트 속도가 성공을 좌우하는 핵심 요인이 되는지"에 대해 살펴봅니다.✅ 웹 퍼포먼스는 사용자를 붙잡는 힘이..
✅ 웹 퍼포먼스란 무엇인가?Web Performance는 웹 개발에서 가장 중요한 요소 중 하나입니다. 웹 페이지가 얼마나 빠르게 로드되는지, 그리고 사용자의 입력에 얼마나 빠르게 반응하는지를 다룹니다. 웹 사이트의 퍼포먼스를 최적화한다는 것은, 사용자에게 더 나은 경험을 제공하는 것과 직결됩니다.좋은 사용자 경험은 결국, 우리가 웹 사이트를 만들면서 세웠던 목표를 달성하는데 큰 도움이 됩니다. ✅ 웹 퍼포먼스는 왜 중요할까?웹 퍼포먼스는 겉으로 보면 조금 전문적인 주제처럼 느껴질 수 있지만, 실제로는 폭넓고 또 깊이 있는 분야입니다.그래서 웹 퍼포먼스를 배울 때는, 누구나 쉽게 다가갈 수 있으면서도, 동시에 중요한 내용은 놓치지 않는 방향으로 배워야 합니다.이번에 소개하는 이 강좌는, 퍼포먼스의 기본 ..
https://school.programmers.co.kr/learn/courses/30/lessons/214289 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr너무너무 어려웠는데 GPT 선생님도 명쾌한 답을 주시지 않았다 문제 해설보고 풀었는데.. 다음에 꼭 다시 풀어보기🤙def solution(temperature, t1, t2, a, b, onboard): k = 1000*100 t1 += 10 t2 += 10 temperature += 10 dp = [[k for _ in range(51)] for _ in range(len(onboard))] # 초기값..
https://school.programmers.co.kr/learn/courses/30/lessons/214288# 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr사실 너무너무 어려워서 GPT 선생님과 함께 했다.. 다음에 꼭 다시 풀어보기🤙🚩 풀이 과정(1) 상담 유형별 멘토 배정 조합 생성상담 유형 별로 유형별 멘토가 몇 명씩 배정될 것인지 경우의 수를 조합으로 모두 고려하였다.예를 들어 1번 유형의 경우 1. 5명의 멘토를 3가지 유형에 배정해야 하고2. 한 유형에 반드시 1명의 멘토는 배정되어야 한다.따라서 아래와 같은 조합이 나온다.# k=3, n=5 일 경우[[3, 1, 1], [2, 2..
https://school.programmers.co.kr/learn/courses/30/lessons/159993# 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr📌 BFS로 푼 코드from collections import dequedef bfs(maps, x, y, n,m, target, time): visited = [[False for _ in range(m)] for _ in range(n)] queue = deque([(x,y,time)]) visited[x][y] = True direction = [(-1,0), (0,1), (1,0), (0,-1)] w..
💻 포스팅을 하게 된 계기회사에서 일하는 중 우연히 커리어톡으로 신한 DS 금융 SW 아카데미 5기 모집글을 보게 되었습니다. 생각해보니 벌써 졸업 후 2년의 세월이 흘렀는데 바쁘고 피곤한 일상들을 보내다 보니 열심히 한 만큼 제대로 된 후기 하나 남겨놓지 못한 것이 아쉬움으로 남아있었고, 시간이 지나도 다른 후기가 많지 않아 보여서 조금이나마 도움이 되었으면 하는 마음이 생겨 해당 포스트를 작성하게 되었습니다😀📃 아카데미 후기어쩌다 신한 DS 금융 SW 아카데미에 가게 되었나!저는 컴공 졸업생이지만 COVID-19 때문에 3,4학년 전공 수업을 주로 온라인으로 듣게 되었습니다.때문에 졸업 프로젝트 수업을 제외하고는 실습 수업보단 이론 + 혼자 코딩 시간이 많은 것이 아쉬웠습니다.또한, 전공수업..
1️⃣ 언어 모델(Language Modelling)에서 다음 토큰의 확률 예측언어 모델링(Language Modelling)에서 다음 토큰의 예측은 단어 집합(Vocabulary)에 존재하는 단어들에 대한 Softmax Regression 값이 된다.Softmax Regression: 언어 모델이 단어 집합(Vocabulary)에서 다음 단어를 선택할 때 확률을 계산하는 방식, 모델이 각 단어에 대한 점수를 계산한 후, Softmax를 적용해 확률이 가장 높은 단어를 예측함.이를 수식으로 나타내면 아래와 같다.온도(Temperature)는 Softmax Regression의 각 다음 토큰이 샘플링시에 뽑힐 확률을 뾰족하게 만들어 주거나 평평하게 만들어준다.온도(Temperature) 값이 작을 경우 →..
창발 능력(Emergent Abilites)1️⃣ Emergent Abilities Paper Emergent Abilities of Large Language Models (2022) 2️⃣ OverviewEmergent abilities of large language models의 핵심 idea큰 LLM 모델 학습 과정에서 특정 임계치를 넘으면 기존의 작은 LLM 모델에서 발생하지 않았던 새로운 능력이 발현됨. 3️⃣ Abstract언어 모델의 확장은 다양한 하위 작업에서의 성능과 샘플 효율성을 예측 가능하게 향상시키는 것으로 나타났다.그러나 이 논문에서는 큰 언어 모델(large language models)의 창발 능력(emergent abilities)라는 예측 불가능한 현상(unpredict..