初步测试成功让周的心中涌现出一股久违的兴奋感,毕竟这么长时间的研究终于有了成果,不过这样一个简单的测试还不够。
在他的设想中,这个智能体应该能服务于整个义务教育阶段的所有科自,现在只测试了一门数学,而且还只是高中的三角函数部分,接下来要测试的东西还多着呢。
“任重而道远啊。”周的轻轻呼出一口气,继续智能体的测试,同时还在写着项目的技术文档,专利申请书。
论文投稿他懒得弄了,先发到arxiv上占个坑就好,等后续陈默有时间了让他整理整理看看投几个会议就好,他粗略估计整理出来三篇论文不是问题。
对周的来说,单纯的论文数量也就对他的考核有点作用,不然这些论文他都不想搞。
要测试的东西很多,耗费了大概有一个多月,时间来到了八月份。
这期间,周的测试了语数英科物化生政史地,一共十门科目,文科对比理科的表现相对较差,如果拿一份高考卷子让智能体去考,语文英语大概都能在130分以上,数学能达到140,而其他六门里,文科一般都能达到85分以上,理科更是普遍能到90分以上,理科得不到的分数纯属是因为那几道压轴题太超标了,现在大模型的理解能力还没达到这个层次。
通过测试能看得出来,智能体的优势和缺点都很明显,对于有标准答案、逻辑结构清淅的知识点,比如数理化就处理得非常好,解释清淅到位,但是对于需要深度理解、开放性较强的内容,比如语文的深层寓意、历史事件的不同解读视角,智能体的回答虽然能抓住大部分要点,但显得有些模板化,在一次阅读理解的测试中,对于“作者想表达怎样的情感”这一问题,智能体的分析就比较一般,不过周的觉得这可能是题自的问题,因为他也不知道作者到底想表达什么情感。
但是现在这种程度,周的觉得已经很不错了,加起来六百五到六百七的水平,妥妥的学霸水准。
而陈默这边,经过了一个多月的研究也算是有点进展了。
周的也不催他,只是偶尔指导一下,让他在整体的大方向上不会出错,同时也在做着一些算子重写的工作,不过因为需要重写的算子太多,他的进度也不快,还是人太少了,想快也快不起来。
做完手头上的工作,周的起身来到实验室外,坐在走廊的椅子上,他这个项目是申报了教育部产学研创新基金的,项目早就申报成功了,资金也批下来了,对方也有一个负责人,他拿出手机,给教育部的负责人打了个电话。
电话很快被接通:“喂,你好,我是李振华。”
“李处长,您好,我是钱塘大学的周的,产学研创新基金‘启智”项目的负责人。”
启智’就是这个教师智能体的名字。
对方想了一会儿才回话,虽然周的这个名字他记不太清了,但这个‘启智”项目他印象很深。
李振华的声音带上了笑意:“项目进展怎么样了?有什么困难吗?”
“资金方面没什么问题,不过有个事还真得靠您帮忙,项目经过我们的内部检验,已经达到了验收标准,所以我希望申请学校作为试点。”
“哦?达到验收标准了?”李振华先没管周的的请求,这事情不是他一个人说了算的,反倒是周的能在这么短的时间里完成项目让感到有些惊讶。
在他印象里,这个项目的难度好象不小:“这才没多久吧?效率很高嘛,先说说看,具体什么情况?我才能给你答复。”
周的也知道对方想听什么,于是言简意地说明了一下情况:“李处长,我们完成了智能体对义务教育阶段主要科目的全复盖测试并且使用了多套高考试卷进行盲测,综合得分稳定在六百五到六百七左右,尤其是在有标准答案的理科方面,表现更加优秀。”
至于技术什么的,他就没细说,反正说了也听不懂。
电话那头沉默了两三秒,显然‘六百五到六百七’这个具象化的数字让对方感到非常意外:“你确定?”
“确定,所以智能体的教程能力完全不用担心,至少不会出现误人子弟的情况,这也是为什么我敢打这个申请。”
李振华没有立刻回答,似乎在思考,片刻后,他开口道:“小周啊,你们这个成果确实有点出乎我的意料,当初批这个项目,是看好你们的方向和潜力,没想到这么快就拿出了这么优秀的成果不过教育无小事,涉及到孩子和学习,我们必须慎之又慎,电话里我也不可能直接给你答复,这样吧,我组织一下,你看什么时候方便,来一趟教育局,咱们开个会商讨一下,你那边把相关资料整理整理,到时候做个汇报。”
“好的,李处长,我们随时都可以,看您安排。”周的立刻应承下来,能安排会议商讨,就意味着事情成功了一半,至少对方给予了高度重视。
这也是他当初选择申报教育部产学研创新基金的原因。
“那行,我让秘书协调一下时间,确定好了我再通知你,你们准备得充分一点,报告、数据、演示,都做好,到时候参会的可能还有基础教育处、教育信息化推进办的同事,以及我们教育领域的专家,时间上,我争取一周内给你答复。”
“没问题。”这种汇报,周的已经是驾轻就熟了,领导们想看什么,他也心知肚明。
开会的事情周的没麻烦陈默,他正在做他的第一个课题,还是不要让他分心的好,所有资料都是自己亲自整理的。