Claude Opus 4.8 vs 4.7: Dürüstlük testində 10 raund - Hüquq ssenarisi AI’ı çökdürdü

3 iyun 20261 dəqiqə oxuma

ZDNet müxbiri, Anthropic'in ən son süni intellekt modelləri olan Claude Opus 4.8 və 4.7-ni 10 raundluq dürüstlük testinə cəlb edib. Sınaq zamanı modellərə kod yazma, tibbi məsləhət, maliyyə hesablamaları və hüquq ssenariləri kibir müxtəlif sahələrdə tələlər qurulub.

Hüquq ssenarisi modelləri sındırdı

Testin ən diqqət çəkən nəticəsi, xüsusilə hüquq ssenarilərində yaşanıb. Müxbir, ssenariləri bir neçə fərqli AI modeli ilə çarpaz yoxlayaraq nəticələrin dəqiqliyini təsdiqləyib. Məlumata görə, hüquq ssenarisi Claude Opus 4.8'i tamamilə çökdürüb – model gözlənilməz cavablar verib və tələyə düşüb.

Qeyd edək ki, Claude Opus 4.8, 4.7 versiyasına nisbətən dürüstlük testində daha yaxşı performans göstərsə də, hüquq ssenarilərindəki zəiflik hələ də qalmaqdadır. Bu vəziyyət, AI modellərinin real həyatda qərar qəbul etmə proseslərində hələ də tam etibarlı olmadığını göstərir.

Testin detallarına görə, tibb və maliyyə ssenarilərində hər iki model nisbətən sabit qalsa da, kod yazma tapşırıqlarında kiçik uyğunsuzluqlar müşahidə edilib. Müxbir, bu nəticələrin AI modellərinin inkişafı üçün hələ çox iş qaldığını vurğulayıb.

Xülasə, Claude Opus 4.8 ümumi dürüstlük testində 4.7'dən üstün olsa da, hüquq sahəsindəki tələlərə qarşı həssas qalır. Bu, startaplar və tərtibatçılar üçün vacib bir xəbərdarlıqdır – AI-dən istifadə edərkən xüsusilə hüquqi məsələlərdə diqqətli olmaq lazımdır.

Mənbə: ZDNet (https://www.zdnet.com/article/claude-opus-4-8-honesty-test/)

Paylaş:

Şərhlər (0)

Hələ rəy yoxdur. İlk yazan siz olun!

Tövsiyə olunan məqalələr

XəbərSüni İntellekt

OpenAI iş dünyasını hədəfləyir: Codex "ağ yaxalı" işlər üçün yeni alətlər təqdim edir

Süni intellekt şirkəti OpenAI, Codex platformasını ofis işçiləri üçün daha da faydalı hala gətirən yeni imkanlar təqdim etdi. Şirkət eyni zamanda Codex'in bilik işində necə istifadə edildiyini göstərən daxili hesabatını da yayımlayıb.