ZDNet müxbiri, Anthropic'in ən son süni intellekt modelləri olan Claude Opus 4.8 və 4.7-ni 10 raundluq dürüstlük testinə cəlb edib. Sınaq zamanı modellərə kod yazma, tibbi məsləhət, maliyyə hesablamaları və hüquq ssenariləri kibir müxtəlif sahələrdə tələlər qurulub.
Hüquq ssenarisi modelləri sındırdı
Testin ən diqqət çəkən nəticəsi, xüsusilə hüquq ssenarilərində yaşanıb. Müxbir, ssenariləri bir neçə fərqli AI modeli ilə çarpaz yoxlayaraq nəticələrin dəqiqliyini təsdiqləyib. Məlumata görə, hüquq ssenarisi Claude Opus 4.8'i tamamilə çökdürüb – model gözlənilməz cavablar verib və tələyə düşüb.
Qeyd edək ki, Claude Opus 4.8, 4.7 versiyasına nisbətən dürüstlük testində daha yaxşı performans göstərsə də, hüquq ssenarilərindəki zəiflik hələ də qalmaqdadır. Bu vəziyyət, AI modellərinin real həyatda qərar qəbul etmə proseslərində hələ də tam etibarlı olmadığını göstərir.
Testin detallarına görə, tibb və maliyyə ssenarilərində hər iki model nisbətən sabit qalsa da, kod yazma tapşırıqlarında kiçik uyğunsuzluqlar müşahidə edilib. Müxbir, bu nəticələrin AI modellərinin inkişafı üçün hələ çox iş qaldığını vurğulayıb.
Xülasə, Claude Opus 4.8 ümumi dürüstlük testində 4.7'dən üstün olsa da, hüquq sahəsindəki tələlərə qarşı həssas qalır. Bu, startaplar və tərtibatçılar üçün vacib bir xəbərdarlıqdır – AI-dən istifadə edərkən xüsusilə hüquqi məsələlərdə diqqətli olmaq lazımdır.
Mənbə: ZDNet (https://www.zdnet.com/article/claude-opus-4-8-honesty-test/)


