全球速讯:研究发现ChatGPT并非可靠信源


(资料图片)

多伦多

研究发现ChatGPT并非可靠信源

加拿大科学家在日前出版的《放射学》杂志上刊登新论文称,最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误答案,表明人们仍需对其提供的答案进行核查。

为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的普通版ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。

研究人员发现,基于GPT-3.5的普通版ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高阶思维问题时表现不佳,正确率仅为60%。与此同时,基于GPT-4的加强版ChatGPT完成这些题目的正确率为81%,且在高阶思维问题上的正确率为81%,远好于普通版,但它在低阶思维问题上的正确率仅为80%,答错了12道题,而普通版ChatGPT全部答对了这些题目,这引发了研究团队对加强版ChatGPT收集信息的可靠性的担忧。

这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,那将非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。

关键词:

为您推荐

全球速讯:研究发现ChatGPT并非可靠信源

多伦多研究发现ChatGPT并非可靠信源加拿大科学家在日前出版的《放射学》杂志上刊登新论文称,最新版本的Cha

来源:东方资讯2023-05-29

【全球新要闻】天涯何处无芳草全诗儿童朗诵_天涯何处无芳草全诗

1、准确的说,这不是一首诗,而是一首词。2、是宋朝的苏轼写的,全词如下:蝶恋花花褪残红青杏小,燕子飞

来源:互联网2023-05-29

短讯!唐山31℃!

导读唐山31℃;详情如下:▼▼▼唐山31℃天气趋势24小时高空受西北气流影响,以晴到多云天气为主;48小时受

来源:唐山佰事通2023-05-29

浦发银行公积金点贷条件有哪些(浦发银行公积金点贷条件有哪些)_今日讯

来为大家解答以上问题。浦发银行公积金点贷条件有哪些,浦发银行公积金点贷条件有哪些这个很多人还不清楚,

来源:互联网2023-05-29

小寒食日仝人泛舟湖上和杨东维花游曲_关于小寒食日仝人泛舟湖上和杨东维花游曲介绍 热闻

1、《小寒食日仝人泛舟湖上和杨东维花游曲》是诗人全祖望创作的诗。2、。

来源:互联网2023-05-29

【天天播资讯】面试季,太狠了!!!

作者:沉默王二Java程序员进阶之路:https: tobebetterjavaer com大家好,我是二哥呀。上个月感觉一切都在

来源:程序员客栈2023-05-28

文心一言 VS 讯飞星火 VS chatgpt (24)-- 算法导论4.2 6题

六、用Strassen算法作为子进程来进行一个kn*n矩阵和一个n*kn矩阵相乘,最快需要花费多长时间?对两个输入

来源:博客园2023-05-28

每日快播:稳经济 促发展 强信心|当好“星级服务员” 我为企业解难题

“服务态度真好,办事效率真快!”近日,管城经济技术开发区管理委员会15名“星级服务员”分别走进辖区企业

来源:正观新闻2023-05-28