본문 바로가기
728x90
반응형
SMALL

인공지능18

(궁금) 클릭률(CTR, Click-Through Rate) 이란? 클릭률(CTR, Click-Through Rate)은 디지털 마케팅과 검색 엔진 최적화(SEO)에서 핵심 성과 지표(Key Performance Indicator, KPI) 중 하나로, 특정 광고나 검색 결과가 사용자에게 노출된 후 실제 클릭된 비율을 나타낸다. CTR은 온라인 광고, 검색 엔진, 이메일 마케팅, 웹사이트 최적화 등 다양한 분야에서 성과를 측정하는 지표로 활용된다.1. 클릭률(CTR)의 정의 및 공식CTR은 특정 링크(광고, 검색 결과, 이메일 등)가 사용자에게 노출(Impression)된 후 클릭(Click)된 비율을 의미하며, 다음과 같이 계산된다.클릭 수(Clicks): 사용자가 특정 광고나 링크를 클릭한 횟수노출 수(Impressions): 해당 광고나 링크가 사용자에게 노출된 총.. 2025. 4. 2.
(궁금) 페이지 랭크(PageRank) 알고리즘에 대해서 알아보자! 1. PageRank란?PageRank는 구글(Google)의 검색 엔진이 웹 페이지의 중요도를 평가하는 알고리즘으로, 링크 분석(Link Analysis) 기법을 활용하여 웹 페이지의 상대적인 가치를 결정한다.1996년 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)이 스탠퍼드 대학에서 연구한 논문 *"The Anatomy of a Large-Scale Hypertextual Web Search Engine"*에서 처음 제안되었으며, 이후 구글 검색 엔진의 핵심 요소로 발전했다.2. PageRank의 기본 개념(1) 링크 기반 중요도 평가웹 페이지는 서로 하이퍼링크(🔗)로 연결되어 있다.A 페이지가 B 페이지에 링크를 건다면, A 페이지는 B 페이지에 추천(Vote)을 준 것.. 2025. 4. 2.
4. Retrieval-Augmented Generation (RAG): 대규모 언어 모델(LLM)과 정보 검색의 결합 1. RAG 개념 및 필요성1.1. 기존 LLM의 한계기존 대규모 언어 모델(LLM, Large Language Model)은 훈련된 데이터 내에서만 답변을 생성하는 폐쇄형(Closed-book) 모델입니다. 이는 최신 정보 반영이 어렵고, 훈련 데이터 외부의 새로운 사실을 포함하지 못하는 한계를 가집니다.1.2. RAG의 역할Retrieval-Augmented Generation(RAG)은 이러한 한계를 극복하기 위해 외부 정보 검색(Retrieval)과 생성(Generation) 단계를 결합한 프레임워크입니다. 이를 통해 LLM은 대규모 문서 데이터베이스나 인터넷과 같은 정보 원천에서 정확하고 최신의 데이터를 검색한 후, 이를 기반으로 응답을 생성할 수 있습니다.✅ 핵심 개념:Retrieval(정보 .. 2025. 4. 2.
(궁금) 시맨틱 검색(Semantic Search)와 코사인 유사도(Cosine Similarity)이란 뭘까? 시맨틱 검색은 문장의 의미적 유사성(Semantic Similarity)을 기반으로 검색을 수행하는 기법이다. 이는 전통적인 키워드 검색과 달리 단순한 단어 일치(matching) 방식이 아닌 문맥과 의미를 고려하는 방식이다. 이 과정에서 문장 임베딩(Sentence Embedding)을 생성하고, 이를 기반으로 벡터 검색(Vector Search)을 수행한다.이러한 시맨틱 검색의 핵심 요소 중 하나가 코사인 유사도(Cosine Similarity)이다. 코사인 유사도는 두 개의 벡터가 이루는 각도를 기반으로 유사성을 측정하는 방식으로, 텍스트 검색, 추천 시스템, 클러스터링, 정보 검색 등에 널리 활용된다.1. 코사인 유사도(Cosine Similarity)의 정의코사인 유사도는 두 벡터 사이의 각도를.. 2025. 4. 2.
(궁금) BM25 (Best Matching 25) 이란 무엇일까? 1. BM25 개요BM25(Best Matching 25)는 정보 검색(Information Retrieval, IR) 및 자연어 처리(NLP, Natural Language Processing) 분야에서 문서와 쿼리(Query) 간의 관련성을 평가하는 대표적인 랭킹 함수입니다.📌 핵심 개념BM25는 TF-IDF의 개선된 형태로, 문서 길이 보정(Length Normalization)과 비선형적인 빈도 반영을 수행검색 엔진, 챗봇, QA 시스템 등에서 문서의 랭킹을 결정하는 핵심 알고리즘2. BM25 공식 및 수학적 해석BM25는 쿼리 q와 문서 d가 주어졌을 때, 해당 문서가 쿼리에 얼마나 관련이 있는지를 측정하는 점수를 반환합니다.2.1. 수식 요소 설명q: 사용자 입력 쿼리 (Query)d: 검색.. 2025. 4. 1.
(궁금) TF-IDF (Term Frequency-Inverse Document Frequency)가 뭘까 1. TF-IDF 개요TF-IDF(Term Frequency-Inverse Document Frequency)는 텍스트 마이닝(text mining) 및 자연어 처리(NLP, Natural Language Processing)에서 문서 내 특정 단어의 중요도를 평가하는 대표적인 방법입니다.이를 통해 자연어 문서에서 중요한 단어를 추출하고, 키워드를 선별하며, 문서 간 유사도를 측정하는 등의 다양한 응용이 가능합니다.📌 핵심 개념TF(Term Frequency, 단어 빈도): 문서 내 특정 단어가 얼마나 자주 등장하는지 측정IDF(Inverse Document Frequency, 역문서 빈도): 특정 단어가 전체 문서에서 얼마나 희귀한지를 평가2. TF-IDF 공식2.1. 기본 수식TF-IDF는 아래와 .. 2025. 4. 1.
3. LLM의 활용과 학습 과정: 이론적 접근과 응용 1. LLM을 활용하는 방법LLM을 효과적으로 활용하는 방법은 여러 가지가 있으며, 각 방식은 기존 모델을 어떻게 조정하느냐에 따라 다릅니다. 대표적으로 전이 학습(Transfer Learning), 파인튜닝(Fine-Tuning), 검색 증강 생성(RAG), 그리고 Few-shot Learning이 있습니다.1-1. 전이 학습(Transfer Learning)과 파인튜닝(Fine-Tuning)LLM의 활용 방식은 크게 전이 학습과 파인튜닝으로 나뉩니다.전이 학습 (Transfer Learning)기존의 사전 훈련된 모델을 새로운 작업에 맞게 조정하는 방법.전체 모델 가중치를 유지하면서 일부 특정 계층(layer)만 조정.예제: BERT → BioBERT (의료 논문 분석용으로 학습된 모델)파인튜닝 (F.. 2025. 4. 1.
2. LLM 생성 과정 (데이터 수집, 모델설계, 모델학습, 평가 및 검증, 배포 및 유지보수) LLM(Large Language Model)의 생성 과정은 단순한 모델 훈련이 아니라, 데이터 수집 → 모델 설계 → 학습 → 평가 및 검증 → 배포 및 유지보수라는 복잡한 절차를 거칩니다.각 과정에서 고려해야 할 핵심 요소와 이를 설명하겠습니다.데이터 수집① 데이터 출처LLM의 성능은 학습 데이터의 품질에 따라 좌우됩니다.일반적으로 다음과 같은 데이터 출처를 활용합니다.웹 문서: Wikipedia, 뉴스 기사, 블로그, 논문 등책 및 논문: 학술 문헌, eBook소셜 미디어: Twitter, Reddit, Quora 등코드 리포지토리: GitHub, Stack Overflow 등이 데이터를 수집한 후 데이터 정제(Data Cleaning) 과정을 거칩니다.② 데이터 정제원본 데이터는 중복, 오탈자, .. 2025. 4. 1.
2. 딥러닝을 위한 패키지 - 판다스 예전부터 머신러닝에 대해서 깔짝 공부를 하다 보니 익숙해진 패키지중 하나가 판다스입니다. 복습차원으로 간단하게 기록형으로 작성하고 나중에 제가 다시 딥러닝을 공부하게 되면 슬쩍보고 바로 이해가 빡! 될수 있도록 작성했습니다. 0. 판다스란? 파이썬 프로그래밍 언어를 기반으로한 데이터 조작 및 분석을 위한 라이브러리입니다. 주로 데이터프레임(DataFrame)이라는 자료구조를 사용하여 데이터를 다루며, 데이터를 읽고 쓰는데 편리한 기능들을 제공합니다. 이를 통해 데이터 전처리, 분석, 시각화 등의 작업을 보다 쉽게 할 수 있습니다. 1. 설치 pip install pandas 2. 판다스 사용 1) 시리즈 import pandas as pd sr = pd.Series([17000 ,18000 ,1000 ,.. 2024. 3. 22.
1. 딥 러닝 공부를 시작하면서.. 이제는 너무 늦었단 생각이 들었지만.. 채찍피티와 LLM이 넘쳐나고 또 이제는 이미지에서 동영상 심지어 채찍피티-4를 탑재한 로봇이 나와서 사람에게 사과를 쥐어주는 세상이 왔다. 하지만 그렇다고 열중 쉬어자세료 가만히 있을 순 없으니 천천히 딥러닝을 퇴근하고 공부를 하고 그날 학습한 내용에 대해서 정리하고자 글을 작성해 보겠습니다. 이번 포스팅은 나중에 제가 설치하거나 기본적인 개념을 위해 설치과정과 기본만 넣었습니다. 1. 자연어 처리 준비 자연어란 우리가 일상생활에서 사용하는 언어를 말한다. 자연어 처리란? 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일 => 음성인식, 내용요약번역, 사용자의 감성 분석, 텍스트 분류 작업, 질의응답 시스템, 챗봇과 같은 곳에서 사용되는 분야이다... 2024. 3. 21.
9. 머신러닝 처리 - 사이킷 런을 통한 머신러닝 (유용한 라이브러리-1) 사이킷 런 파이썬에서 사용할 수 있는 머신러닝 라이브러리 중 하나로, 간결하고 효과적인 도구를 제공하여 머신러닝 모델을 구축하고 분석하는 데 사용된다. 장점 일관된 인터페이스 간단하고 일관된 API를 제공하여 여러 머신러닝 알고리즘을 쉽게 사용할 수 있게 한다. 덕분에 모델 간 전환 및 비교가 용이 다양한 머신러닝 알고리즘 사이킷런은 다양한 머신러닝 알고리즘을 포함하고있다. 지도학습, 비지도학습, 클러스터링, 차원축소, 등 다양한 작업을 수행할 수 있는 알고리즘들이 구현되어있다. 데이터 전처리 도구 데이터를 전처리하고 정제하는 데 사용할 수 있는 다양한 도구와 함수를 제공하며 데이터의 스케일 조정, 특징 추출, 결측치 처리 등을 수행할 수 있다. 효율적인 모델 평가 도구 모델의 성능을 측정하고 평가하기 .. 2023. 10. 5.
8. 데이터 결측치 시각화 - 데이터 결측치 시각화 https://www.kaggle.com/competitions/titanic/data?select=train.csv Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 위 데이터를 받아서 파이썬으로 데이터 시각화를 해보겠습니다. Kaggle에서 데이터셋 가져오기 데이터 결측치 시각화 다운로드 받은 3개의 파일을 이용해서 활용해 보곘습니다. 그리고 같은 폴더에 "ex1.py" 이렇게 파이썬 소스를 생성했습니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sbn train = pd.r.. 2023. 9. 25.
728x90
반응형
LIST