1️⃣Image-to-Text

Image-to-Text

이미지-텍스트 작업에는 주로 이미지 캡션과 광학 문자 인식(OCR)과 같은 활동이 포함되며, 가장 널리 사용되는 애플리케이션 중 하나입니다.

이미지 캡션은 딥러닝 모델을 사용하여 이미지의 내용과 맥락을 요약하는 텍스트 설명을 생성하는 프로세스입니다.

!wget https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202307/04/637e9c09-4164-41f3-b3be-e174d9989dd8.jpg -O ./dataset/photo.jpg
--2024-05-19 16:19:05--  https://pds.joongang.co.kr/news/component/htmlphoto_mmdata/202307/04/637e9c09-4164-41f3-b3be-e174d9989dd8.jpg
Resolving pds.joongang.co.kr (pds.joongang.co.kr)... 139.150.249.11, 121.78.33.182
Connecting to pds.joongang.co.kr (pds.joongang.co.kr)|139.150.249.11|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 52441 (51K) [image/jpeg]
Saving to: ‘./dataset/photo.jpg’

./dataset/photo.jpg 100%[===================>]  51.21K  --.-KB/s    in 0.008s  

2024-05-19 16:19:05 (6.27 MB/s) - ‘./dataset/photo.jpg’ saved [52441/52441]

Image Captioning

from transformers import pipeline

image_to_text = pipeline(
    "image-to-text", 
    model="nlpconnect/vit-gpt2-image-captioning"
)

response = image_to_text("dataset/photo.jpg")
print(response)

OCR

Tamil Library

Image Text to Text

멀티모달 이미지-텍스트 간 작업에는 이미지와 텍스트 입력을 모두 처리하여 텍스트 출력을 생성하는 작업이 포함됩니다. 이 작업은 시각적(이미지) 및 텍스트(단어) 데이터의 정보를 이해하고 통합하여 일관성 있고 맥락에 맞는 텍스트 응답을 생성할 수 있는 모델을 활용합니다.

Last updated