7️⃣OpenAI New GPT-4o

OpenAI GPT-4o Introduction

GPT-4o(o"는 "omni"를 의미)는 텍스트, 오디오 및 비디오 입력을 조합하여 처리하도록 설계되었으며 텍스트, 오디오 및 이미지 형식의 출력을 생성할 수 있습니다.

Background

GPT-4o 이전에는 세 가지 개별 모델로 작동하는 음성 모드를 사용하여 ChatGPT와 상호작용할 수 있었습니다. GPT-4o는 이러한 기능을 텍스트, 시각, 오디오에 걸쳐 학습된 단일 모델로 통합합니다. 이러한 통합 접근 방식은 텍스트, 시각, 청각 등 모든 입력이 동일한 신경망에 의해 일관되게 처리되도록 보장합니다.

Current API Capabilities

현재 API는 {text, image} 입력만 지원하며 {text} 출력은 gpt-4-turbo와 동일한 모달리티입니다. 오디오를 포함한 추가 모달리티는 곧 도입될 예정입니다. 이 가이드는 텍스트, 이미지 및 동영상 이해를 위한 GPT-4o 사용을 시작하는 데 도움이 될 것입니다.


Setup Environments

Chat Completion

첫 번째 요청에 대해 모델에 간단한 {text} 입력으로 시작해 보겠습니다. 첫 번째 요청에는 system 메시지와 user 메시지를 모두 사용하며, assistant 역할로부터 응답을 받겠습니다.

Image Processing

GPT-4o는 이미지를 직접 처리하고 이미지를 기반으로 지능적인 조치를 취할 수 있습니다. 두 가지 형식으로 이미지를 제공할 수 있습니다:

  1. Base64 Encoded

  2. URL

Base64 Image Processing

URL Image Processing

Video Processing

API로 동영상을 직접 전송할 수는 없지만, 프레임을 샘플링한 다음 이미지로 제공하면 GPT-4o는 동영상을 이해할 수 있습니다. 이 작업은 GPT-4 터보보다 더 잘 수행됩니다.API의 GPT-4o는 아직 오디오 인을 지원하지 않으므로(2024년 5월 기준), 제공된 비디오의 오디오와 비주얼을 모두 처리하기 위해 GPT-4o와 Whisper를 함께 사용하여 두 가지 사용 사례를 보여드리겠습니다:

  1. Summarization (요약하기)

  2. Question and Answering (질의응답)

Youtube Video Download

Setup for Video Processing

  1. 기본 동영상 처리를 위해 두 가지 파이썬 패키지인 opencv-python과 moviepy를 사용하겠습니다.

  2. 이를 위해서는 ffmpeg가 필요하므로 미리 설치하세요. MacOS의 경우 brew install ffmpeg, LinuxOS는 sudo apt install ffmpeg를 실행해야 할 수 있습니다.

Video Preprocess: Frames & Audio

Video 전처리는 두가지 Component 요소인 Frames(연속적인 이미지 프레임)과 Audio(음성)를 처리해야 합니다.

예제1. Summarization

이제 비디오 프레임과 오디오를 모두 확보했으므로 몇 가지 다른 테스트를 실행하여 비디오 요약을 생성하여 다양한 양식으로 모델을 사용한 결과를 비교해 보겠습니다. 모델이 비디오의 전체 컨텍스트를 사용할 수 있으므로 시각 및 오디오 입력의 컨텍스트를 모두 사용하여 생성된 요약이 가장 정확할 것으로 예상할 수 있습니다.

  1. Visual Summary

  2. Audio Summary

  3. Visual + Audio Summary

1. Visual Summary

Visual summary(시각적 요약)은 비디오의 프레임만 모델에 전송하여 생성됩니다. 프레임만 있으면 모델은 시각적인 측면을 포착할 수 있지만 화자가 설명한 세부 사항은 놓칠 수 있습니다.

2. Audio Summary

Audio summary(음성 요약)은 모델에 오디오 대본을 전송하여 생성됩니다. 오디오만 있으면 모델은 오디오 콘텐츠에 편향되어 프레젠테이션과 시각 자료가 제공하는 맥락을 놓칠 가능성이 높습니다.

GPT-4o에 대한 {audio} 입력은 현재 제공되지 않아 기존의 whisper-1 모델을 사용하여 오디오를 처리했습니다.

3. Audio + Visual Summary

오디오+비주얼 요약(Audio + Visual summary)은 비디오의 비주얼과 오디오를 한 번에 모델에 전송하여 생성됩니다. 이 두 가지를 모두 전송하면 모델이 전체 동영상을 한 번에 인식할 수 있으므로 요약이 더 잘 될 것으로 예상됩니다.

예제 2: Question & Answering

Q&A에서는 이전과 동일한 개념을 사용하여 처리된 동영상에 대해 질문하면서 입력 양식 결합의 이점을 보여주기 위해 동일한 3가지 테스트를 실행합니다:

  1. Visual Q&A

  2. Audio Q&A

  3. Visual + Audio Q&A

1. Visual Q&A

2. Audio Q&A

3. Visual + Audio Q&A

Last updated