For nylig prøvede jeg Claudes nye 3.5 Sonnet-model, som er den hidtil mest kraftfulde AI-model fra Anthropic, og som firmaet hævder kan overgå rivaler som OpenAIs ChatGPT. Dette er en dristig påstand, som Anthropic bakker op med nogle ret imponerende benchmarks.
Den nye model besidder også synsevner, så du kan forsyne den med billeder og dokumenter og udtrække information fra dem. Og den kan bedre forstå følelser som humor, samtidig med at den er meget hurtigere. Alle disse elementer gør Claude 3.5 til en stor konkurrent til den nye GPT-40-drevne ChatGPT, som også er en multimodal AI-model.
Ligesom Sonnet kan ChatGPT-40 bruge visionsbaserede input ud over tekstbaserede til at give svar. Den er lige så god til problemløsning og besidder lignende samtaleevner. Da begge nye modeller er så tæt på hinanden med hensyn til kapacitet og ydeevne, er spørgsmålet, der er på alles sind, hvilken af de to er bedst? For at svare på det besluttede jeg at sammenligne begge modeller i detaljer.
Udtræk information fra dokumenter
AI-værktøjer bruges ofte til at udtrække information fra dokumenter som PDF-filer og derefter opsummere det; så jeg besluttede mig for først at tjekke, hvilken af de to modeller der kunne gøre dette mere effektivt. Til det forberedte jeg et PDF-dokument om tagplader, jeg havde skrevet for noget tid siden, og uploadede det til ChatGPT og Claude.
Så gav jeg dem prompten: summarize this document and provide me with the most important points discussed in it.
Her er hvad jeg opdagede. Den nye Claude-model var meget hurtigere end ChatGPT og begyndte at generere sit svar umiddelbart efter, at jeg indsendte min anmodning. Den fulgte også prompten tættere og listede de vigtige punkter i en nummereret liste. Hvis du mangler tid og bare vil kigge på, hvad et dokument indeholder, er det det, du har brug for.
Men på trods af at jeg var langsommere end Claude, foretrak jeg ChatGPTs svar i dette tilfælde. Det oplistede ikke kun de vigtigste punkter i dokumentet, men opdelte dem også i forskellige sektioner, såsom definition og betydning, beregning osv.
Hvis du har brug for at finde specifik information om et bestemt aspekt af emnet, der diskuteres i et dokument, ser ChatGPTs måde at gøre tingene på, ud til at være mere nyttig. Du behøver ikke at gennemgå alle punkterne og kan blot se på det nødvendige afsnit. Informationen gives på en måde, der er lettere at gå igennem og fordøje.
Test af synsevner
Da et af de vigtigste højdepunkter ved både Claude 3.5 og ChatGPT-40 er deres evne til at bruge visuel input og give information baseret på det, besluttede jeg at teste det næste ved at bede dem om at følge håndskrevne instruktioner efter at have transskriberet dem. Jeg bad AI-modellerne om at skrive et kort digt, der ligner Aesops ‘Myren og krikken’.
Selvom jeg ikke specificerede det skriftligt, ville jeg have, at outputtet skulle være inspireret af digtet, men med forskellige karakterer. Claude bad mig først bekræfte min håndskrevne anmodning og fortsatte derefter med det. Resultatet var ganske godt, meget tæt på det originale digt, men indeholdt de samme karakterer. AI-chatbotten spurgte mig også, om jeg ville have en anden tilgang eller ændringer til digtet, efter at den var færdig med at skrive digtet.
ChatGPT krævede ikke, at jeg bekræftede min anmodning, men fortsatte straks med at fuldføre den. Digtet, den skrev, var også meget imponerende, og det erstattede myren og krikken fra den oprindelige skabelse med en bi og en sommerfugl, noget Claude ikke gjorde. Jeg syntes også, at ChatGPTs version var mere poetisk.
Så i transskription er der en lille forskel i resultaterne, men begge kan dechifrere og forstå håndskrevet og trykt tekst meget godt, selvom billederne ikke er særlig klare. Disse kraftfulde synsevner betyder også, at du kan bruge disse værktøjer til at indsamle information fra grafer og diagrammer, hvilket gør dem velegnede til matematiske opgaver.
Beskrivelse af billeder: Da begge modeller også kan udtrække information fra billeder, var jeg også nødt til at prøve det. Jeg forsynede Claude og ChatGPT med et billede af en tropisk ø og bad dem om at beskrive det. Som du kan se, giver Claude en levende beskrivelse af billedet, og beskriver hvert element i forgrunden og baggrunden meget tydeligt, selv dem jeg ikke selv lagde mærke til.
Claudes valg af sætninger og ord til at beskrive billedet føltes også mere virkningsfuldt og gjorde billedet retfærdigt. Det gør et fint stykke arbejde med at beskrive farverne, belysningen og formidle den overordnede følelse af sindsro og ro, som billedet genererer.
Resultaterne var mere komplicerede i tilfældet med ChatGPT, som kan beskrive billeder, dog ikke så godt som Claudes. OpenAI’s model har en tendens til at lave fejl og tilføjer elementer, der ikke er til stede, hvilket viser, at den stadig kan hallucinere. Oprindeligt blev det også ved med at prøve at beskrive billedet baseret på dets titel i stedet for det, det afbildede, og endelig fik det det rigtigt efter flere forsøg.
Selv dengang kunne beskrivelsen, jeg fik fra det, ikke holde et lys for Claudes svar. Dette var ret overraskende, da GPT-40’s visionsegenskaber var et af de største højdepunkter, som OpenAI viste ved lanceringen.
Generering og redigering af indhold
Dernæst forsøgte jeg at se, hvilken model der klarede sig bedre i indholdsgenerering. For at få en klar idé om, hvordan de præsterer, besluttede jeg at generere indhold, der kræver reelle fakta og data, såvel som fiktivt indhold, der ville stole på AI-modellens kreativitet.
Først bad jeg Claude og ChatGPT om at give mig en detaljeret artikel om forskellige Android-skin, da det er noget, som mange mennesker gerne vil vide om, men er et meget subjektivt emne, hvor hver enkelt har deres egen favorit. Jeg brugte prompten Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
I betragtning af hvor meget tid vi bruger med vores smartphones, ville jeg finde ud af, hvor nøjagtige modellerne var, og hvor meget information de kunne give om hver hud.
Som sædvanlig var Claude hurtigere til at svare. Det gav en oversigt, der forklarer, hvad Android-skin er, hvilket er rart, men fortsatte så blot med at liste de forskellige skins med de funktioner, de tilbyder, i en punktopstilling. Husk, at modellen gav dette resultat, selvom jeg specifikt angav en ‘detaljeret artikel’ i min prompt.
I modsætning hertil skabte ChatGPT en mere imponerende titel til artiklen og inkluderede en kort introduktion. Derefter forklarede den hver hud i sin egen sektion, og opdelte hver enkelt i en oversigt, nøglefunktioner, fordele og ulemper.
Dette giver ikke kun mere omfattende information, men lader dig vide præcis, hvordan de forskellige skins sammenligner med hinanden. Til sidst afsluttede det artiklen med en ordentlig konklusion. Mens antallet af skins, som ChatGPT nævnte, var mindre end dem, der er angivet af Claude, her betyder kvaliteten mere end kvantiteten.
Selvom ChatGPT klarede sig bedre end Claude i dette tilfælde, kan sidstnævnte også generere godt indhold, som jeg har fundet i min tidligere test. Det kan afhænge af emnet eller den måde, du formulerer din prompt på. Derfor gav jeg begge modeller endnu en prompt, denne gang ved at bruge prompten. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Det gav mig også en mulighed for at se, hvor godt modellerne forstår og kan formidle humor.
Denne gang var resultaterne meget tæt på hinanden, og begge modeller lavede virkelig sjove historier. Begge historier havde fælles elementer, som ironi og fysisk komedie. I fiktion er personlig præference en stærk faktor, og generelt fandt jeg, at Claudes output var lidt bedre, især den måde, den legede med ord for at skabe humor.
Men som jeg nævnte før, var ChatGPTs historie også sjov at læse og var lidt længere end Claudes. Dens slutning var også mere sund. Således var både Claude og ChatGPT i stand til at generere godt fiktivt indhold, mens de inkluderede humoristiske elementer i henhold til min prompt.
Redigering af indhold: Generering af indhold er kun en del af processen. For virkelig at finde ud af, hvad en AI-model kan gøre, når det kommer til indhold, skal du også teste dens indholdsredigeringsfunktioner, hvilket er, hvad jeg fortsatte med at gøre. Til dette formål leverede jeg et tekststykke om social handel til Claude og ChatGPT og gav dem prompten,Can you expand this article while also proofreading and improving it?
Da han forbedrede artiklen, startede Claude med en introduktion, skrev derefter om udviklingen af social handel og fulgte til sidst med andre sektioner, hvor han udvidede hver enkelt, som det så passende. Modellen brugte også nummererede lister og punktopstillinger, hvor det fandtes nødvendigt for at forbedre læsbarheden.
ChatGPTs svar lignede dets tidligere, hvor det opdelte indholdet i forskellige sektioner med forskellige underoverskrifter. Den brugte ingen lister, men opbevarede oplysningerne i form af afsnit. Hvad angår ændringerne og forbedringerne, bemærkede jeg, at Claude lavede mere drastiske ændringer i artiklen end ChatGPT, men slutresultatet var også meget bedre. I sidste ende fandt jeg, at Sonnets redigeringsmuligheder var mere kraftfulde og meget bedre egnet til min arbejdsgang.
Kodningsevne
Ingen sammenligning af AI-modeller er komplet uden at inkludere deres kodningsevner. Mens Claude er specielt udviklet til at hjælpe programmører med at skrive bedre kode hurtigt og nemt, er den nye GPT-40-drevne ChatGPT heller ikke noget at se ned på, når det kommer til kodning.
For at teste deres evne til at generere kode, bad jeg både Claude og ChatGPT om at Generate code for a simple game that can help beginners learn programming.
Mens begge skrev koden i Python, gennemførte Claude kodegenereringen hurtigere, som forventet. Den viste hele koden på højre side af skærmen, mens den forklarede elementer som funktioner og variabler til venstre.
Det, jeg kunne lide mest ved Claudes svar, er, at det også indeholdt en knap, der lader dig gå til koden med det samme, så du nemt kan tjekke den ud. Derudover informerede chatbotten mig om de nødvendige krav for at køre koden, komplet med instruktioner. Med hensyn til selve koden var den ret nem at forstå og kørte også perfekt, da jeg testede den.
Når jeg kom til ChatGPTs svar, var det også i stand til at generere en enkel, men funktionel kode, som jeg havde bedt om. Under koden leverede chatbotten de nødvendige trin for at køre spillet samt de koncepter, som koden dækker, hvilket gør det nemt for begyndere at forstå. Samlet set var resultaterne ret ens for begge modeller i dette tilfælde, selvom Claude forklarede flere elementer og havde en mulighed, hvorved du kunne bede den om at forklare enhver del af koden i detaljer.
Matematiske evner
Til sidst gav jeg både Claude og ChatGPT et matematisk spørgsmål at løse, for at se hvor godt de klarede sig, og hvilket der var hurtigere. Spørgsmålet involverede algebraiske ligninger, men var ikke særlig udfordrende. Begge modeller startede med at forklare, hvad de skulle gøre i det første trin, selvom deres tilgang var anderledes. Claude fortsatte med at udvide ligningen og fortalte mig til sidst, at det krævede fuldstændig at løse problemet ved at bruge en grafisk lommeregner eller et computeralgebrasystem.
Når det er sagt, angav den antallet af potentielle løsninger på problemet. I modsætning hertil løste ChatGPT problemet i sin helhed og gav mig alle mulige løsninger på det. Dette indikerer, at hvad angår matematiske evner, er ChatGPT-4o foran Sonnet.
Endelig dom – Claude Sonnet 3.5 eller ChatGPT-4o: Hvem vandt?
At vælge mellem Claude 3.5 og ChatGPT-4o er ikke let, men i sidste ende kan kun én være en vinder, og for mig må det være den nye Sonnet-model. Det er ikke kun væsentligt hurtigere end ChatGPT, men giver også mere præcise svar. Jeg kunne især godt lide, hvor godt det kunne beskrive billeder og foretage handlinger i forbindelse med dem.
Claude hallucinerede heller ikke en eneste gang i min tid med det, hvilket er endnu et punkt til dens fordel, og dets svar var generelt tættere på mine instruktioner. Selvom det ikke fungerede som forventet i et tilfælde, hvor jeg ønskede detaljeret indhold, var det generelt nemmere at bruge det til at få de ønskede oplysninger og krævede mindre indsats.
Ved at prøve både Claude 3.5 Sonnet og ChatGPT-40, har jeg opdaget, at begge er usædvanligt gode AI-modeller, der er meget tæt på hinanden i ydeevne. Mens Sonnet udfører nogle opgaver bedre, leverer ChatGPT bedre resultater i andre. Du bør forstå, at det afhænger af din individuelle brugssag, at afgøre, hvilken der er bedst.
Derudover er begge gratis modeller begrænset i, hvad de kan. Så hvis du vil bruge enten AI på regelmæssig basis, anbefaler jeg at få et betalt abonnement for de bedste resultater.
Skriv et svar