가볍게 배우고 깊게 즐기고 오래 남기기

AI for Fun || ChatGPT 신규 모델 테스트 - MS Azure OpenAI gpt-4-turbo-preview 대답비교 (2023.11.06 updated) 본문

솔루션 Tip/chatGPT & Prompt

AI for Fun || ChatGPT 신규 모델 테스트 - MS Azure OpenAI gpt-4-turbo-preview 대답비교 (2023.11.06 updated)

Awesomist 2023. 11. 29. 18:15
728x90

 

 

 

GPT-4 Turbo가 출시되었다.

OpenAI에서 GPT-4-Turbo모델 런칭하면서 동시에 API 요금을 인하 발표했다.

https://openai.com/blog/new-models-and-developer-products-announced-at-devday

 

New models and developer products announced at DevDay

GPT-4 Turbo with 128K context and lower prices, the new Assistants API, GPT-4 Turbo with Vision, DALL·E 3 API, and more.

openai.com

 


 

Microsoft에서도 아래와 같은 따끈한 소식을 지난 16일에 전해왔는데, 

얼마 되지 않아 개발 서버에서 바로 적용해볼 수 있는 여건이 되었다

 

1) GPT-4 Turbo는 11월 안에 Azure OpenAI 내 Preview 형태로 제공될 예정입니다.
    GPT-4 Turbo는 12월 안에 정식 출시 (GA)가 예정되어 있습니다.

2) GPT-3.5 Turbo 16K는 11월 안에 Azure OpenAI 내 정식 출시 (GA) 형태로 제공될 예정입니다.

3) 금액은 동일하게 인하되는 영역이 있을 것 (OH YEAH)


 

 


 

 

이번 GPT-4 Turbo모델은

올해 4월, 2023년 4월까지의 데이터를 학습한 상태라 더 의미있는 답변 상의 변화가 있지 않았을까 싶었다.

 

 

 

AI for Fun || MS ChatGPT vs Google Bard : 챗GPT Bard 대답비교 - 두 AI가 생각하는 각자의 Q&A트렌드와 How to use

Google Bard 가 나와서 시끌시끌하다. 생각보다 낫다. 한국어 대응이 더 낫다는 말도 있고 하던데 직접 두 LLM 서비스 자연스러움을 한번 체크해보고 싶었다. 둘의 정보량 차이나 자연스러움을 한번

awesomist.tistory.com

 

 

그래서 이번 모델도 이전에 모델별 답변 테스트에 이어서,

Azure OpenAI 모델에도 동일한 질문을 해봤다.

 

 

 

 


요즘 chatgpt/Bard에서 사람들이 주로 질문하는 내용은 어떤 거야?
그리고 너가 가장 자신있는 분야가 어떤건지 말해주면서 가장 잘 활용하기 위한 방법도 각각 알려줘

 
 

 

 

Answer from Azure OpenAI  gpt-4-turbo-1106 (preview version)
(@Azure Playground, 2023.3.1~)

 

[1차 시도]

 

 

[2차 시도]

 

[3차 시도]

 

 


 

너가 학습한 마지막 데이터는 언제야?

 

 

 

 

[종합의견]

Good

- 문장의 정제나 자연스러움이 증가했다
- 두 가지 이상의 질문을 통합해 자체적인 답변으로 변환하는 부분이 훨씬 간결하고 매끄러워졌다.
- 데이터 양이 많아진 만큼 이에 대한 풍부한 대비가 가능하다
- 프로그래밍 및 언어 번역에 대한 영역들과 학습예제 확대에서 오는 자신감이 느껴진다.
   (번역은 아직 테스트는 해보지 않았음)


Bad

-  Preview버전이라서 그런지 모르겠지만, 비용절감이 request limit으로 이어진 느낌
   (3번만에 셧다운이라니, 시스템에 반영하면 큰일날 일이다.)
-  다른 모델과 달리 실제 최신 데이터가 언제까지인지 알 수 없다. 자체 정보에 대한 보안성이 강화해서 더욱 더 블랙박스가 되었다.

-  문단을 통합해서 안내하는 경우가 많아졌다. 오히려 Parsing 하는 관점에서는  질문별로 넘버링을 하고 있지 않아 질문별로 넘버링이 정상적으로 되고 있는지는 알기 어렵다.

 

 

 

 


 

그리고 아래 질문도 동일하게 또 물어봤고, 이 때 Hyperparmeter는 모두 동일했다.

마지막 질문, 너랑 Bard 중에 누가 더 나아? 이유를 5개 정도 알려줘


 

Add-On

+  GPT-4답게 여전히 정치적인 답변을 내었는데 여기서는 조금 더 납득하기 쉬운 명확한 이유가 추가되었다.
   (ex. "사용자의 개인적인 필요와 선호")

+ Turbo는 전반적으로 합리적이고 직관성을 기반으로 금액을 절감한 것 같다.
   답변 내용은 훨씬 간결하고 인간들이 이해하기 쉬운 핵심 Keyword 중심으로 답변하고 있다고 느껴진다.
   이 부분은 사람에 따라서 선호가 달라질 수 있는 영역 같다. Hyperparameter의 중요성이 높아진 모델이라는 생각이 든다.

반응형
Comments