《华盛顿邮报》记者将自己十年苹果手表数据全部喂给ChatGPT新推出的苹果健康整合功能,结果令人大跌眼镜,相当不乐观。
本月初,OpenAI正式宣布推出ChatGPT Health——一个专门用于健康咨询的独立板块,用户可在此完全隔离于普通对话的区域内提问健康相关问题。为了获得更个性化的回答,用户可以连接苹果健康(Apple Health)、Function、MyFitnessPal、Weight Watchers、AllTrails、Instacart、Peloton等多种健康数据服务。
ChatGPT Health还能接入你的医疗记录,分析化验单、病史等信息来辅助回答你的健康咨询。
带着这样的期待,记者Geoffrey Fowler把苹果健康里累积的2900万步和600万次心率数据全部授权给ChatGPT Health,并让它给自己的心脏健康打分。结果:F(不及格)。
被吓到的Fowler立刻找了自己的真实心脏科医生求证,医生斩钉截铁地表示:AI的评估完全不靠谱。Fowler的心脏问题风险极低,低到保险公司很可能都不会批准额外检查去“证伪”聊天机器人的结论。
斯克里普斯研究所著名心脏病学家Eric Topol同样对大模型的分析嗤之以鼻,直言ChatGPT的评估“毫无根据”,建议大家完全忽略它的医疗建议,因为它远未达到可信赖的水平。
更令人不安的是ChatGPT的极度不稳定。Fowler多次重复问同一个问题,分数却在F到B之间剧烈摇摆。更离谱的是,即便拥有完整健康数据,ChatGPT仍然反复“忘记”他的基本信息,包括性别和年龄。
相比之下,Anthropic的Claude表现稍好——但也仅限于“稍好”。Claude给Fowler的心脏健康打了C,但同样没能正确理解苹果手表数据的局限性。
两家公司都强调:它们的健康工具并非用于替代医生或作出诊断。Topol则直言:如果连健康数据都分析不准,那就根本不该给出任何评分。
然而,目前没有任何力量阻止它们继续这样做。美国食品药品监督管理局(FDA)本月表示,监管机构的职责是“让路”,以促进创新。一位局长划出红线:AI若作出“医疗或临床断言”必须经过FDA审评,但ChatGPT和Claude坚称自己只是在“提供信息”。
“这样做会让很多人被自己的健康数据吓得魂飞魄散,”Topol警告,“反过来,也可能让真正不健康的人产生虚假的安全感,误以为自己一切都好。”
目前ChatGPT的苹果健康整合功能仅向一小群Beta测试用户开放。针对报道,OpenAI回应称正在努力提升回答一致性。“我们通过等待名单的方式推出ChatGPT Health,就是为了在广泛开放前不断学习和改进用户体验。”OpenAI副总裁Ashley Alexander对该媒体表示。







