Claude 3.5 Sonnet udgivet af Anthropic: En ny og imponerende AI-model

For nylig har Anthropic udrullet forbedringer til sin førende model, Claude 3.5 Sonnet, som måske er smuttet under radaren på grund af andre bemærkelsesværdige opdateringer som computerbrug og analyseværktøjet. Den opdaterede Claude 3.5 Sonnet introducerer dog flere bemærkelsesværdige forbedringer.

Selvom computerbrug repræsenterer et betydeligt fremskridt, er dets vedtagelse blandt brugere stadig begrænset. Dette skyldes primært, at det er i de tidlige udviklingsstadier og mangler fuld pålidelighed. Derudover er dens tilgængelighed begrænset til API-brug, hvilket gør den mindre tilgængelig for det bredere publikum.

I modsætning hertil er den nye Claude 3.5 Sonnet tilgængelig til øjeblikkelig brug og tilbyder betydeligt forbedret ydeevne. Så hvad adskiller denne opdaterede 3.5 Sonnet?

En rapport fra Anthropic fremhæver, at den seneste Claude 3.5 Sonnet har udvist markante forbedringer i forhold til tidligere modeller og mange konkurrenter på industriens benchmarks. Fremskridtene inden for agentkodning og brug af værktøj er særligt imponerende. For eksempel har den øget sin agentkodningsnøjagtighed fra 33,4 % til 49 % på SWE-bench-verifikation, og for brug af agentværktøj på TAU-bench-testen er den steget fra 51,0 % til 69,2 % i detailhandlen og fra 22,8 % til 46,0 % i luftfartssektoren. Disse forbedringer opnås især til samme pris og hastighed som sin forgænger.

Claude 3.5 Sonnet opdatering — Kilde: Anthropic

Når den evalueres, viser Claude 3.5 Sonnet (ny), som nogle brugere refererer til som 3.6 Sonnet på grund af navneforvirring, bemærkelsesværdige fremskridt, især med hensyn til kodning, ræsonnement og kreativ skrivning.

Tidligere anerkendt som en af de bedste inden for kodning, har Claude gjort betydelige fremskridt med denne opdatering, som nu er i stand til at løse meget komplekse problemer inden for et enkelt svar. Det har også forbedret sin evne til at rette tidligere fejl.

Brugere vil opdage, at den nye Claude 3.5 Sonnet leverer svar meget hurtigere og imødekommer frustrationer oplevet med dens tidligere version, hvor ydeevnen var mærkbart faldet.

Claude har også forfinet sine evner til at ræsonnere ved at sammenligne med OpenAI’s model o1. Selvom det måske ikke matcher o1 i indviklede ræsonnementopgaver, forbliver det kompetent med enklere ræsonnementudfordringer.

For en spændende test af Claudes ræsonnement, prøv at spørge den, How many words are in your response to this prompt?. Navnlig kæmper transformatorarkitekturmodeller ofte med sådanne prompter på grund af deres behov for at forudsige efterfølgende ord. Denne prompt tilskynder dog modellen til at planlægge på forhånd.

OpenAI’s o1-model udmærker sig ved at håndtere denne prompt effektivt. Selvom den nye Claude 3.5 Sonnet ikke helt når o1’s dygtighed, overgår den markant den ældre version af Claude. Tidligere kunne Claude have lavet et kvalificeret gæt, men nu forsøger den at tælle ordene præcist – dog uden at overveje dem alle lige meget. I sidste ende, om Claudes svar anses for korrekt, vil afhænge af personlig fortolkning.

Let me count the words in my response to your question: This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8). There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

Ifølge det angivne eksempel kan nogle brugere hævde, at Claude talte de ord, hvori den betragtede sit svar nøjagtigt. Det præciserer, at eventuelle efterfølgende ord ikke udgør en del af svaret, da de blot uddyber dens ræsonnementproces. Mens nogle måske overser udeladelsen af den indledende sætning, “Lad mig tælle ordene i mit svar på dit spørgsmål”, kan andre se det anderledes. I sidste ende bliver dette et spørgsmål om personlig bedømmelse.

Ikke desto mindre illustrerer dette tilfælde, at den nye Claude 3.5 Sonnet faktisk har forbedret sine ræsonnementer. Det kan nu artikulere sine tankeprocesser eller sige, “drøvtygge på det, stå ved”, når det kræver ekstra tid at overveje – lidt svarende til o1. Nogle gange kan den endda rette sig selv og sige: “Lad mig genoverveje dette.”

Denne fremadrettede evne har også styrket Claudes kreative skrivefærdigheder. Med evnen til at tænke fremad, kan den skabe udvidede fortællinger, der byder på sammenhængende buer, foregribende elementer og fængslende karakterer.

Derudover er der gjort betydelige fremskridt i dens analytiske ydeevne. Claude konkurrerer nu tæt med Anthropics mest omfattende model, Claude 3 Opus, samt OpenAIs o1 mini vedrørende analyse.

Sammenfattende har de seneste opdateringer givet bemærkelsesværdige fremskridt på tværs af flere dimensioner. De nye kodningsfunktioner har fået stor opmærksomhed. En aktuel begrænsning for Claude er dog brugsgrænserne, som er betydeligt mere restriktive selv for Pro-brugere sammenlignet med ChatGPTs.