人工智能的浪潮正以前所未有的态势席卷全球,AI 大模型凭借其强大的技术爆发力与广泛的应用潜力,无疑成为当下科技领域最引人注目的焦点。除了人们熟知的ChatGPT、DeepSeek、文心一言等针对文字、图像、视频等内容的通用或垂直领域的生成式大模型,还有专门针对二进制机器语言的大模型问世。而这一全新赛道的开创者就是朱文宇和他带领的创新团队。
他们创立的华清未央(北京)科技有限公司(简称“华清未央”),技术团队脱胎于清华大学网络科学与网络空间研究院(简称“网研院”),核心聚焦“AI 赋能二进制程序”领域,以独创技术破解网络空间“二进制基因”理解难题,也是机器语言大模型(MLM)赛道的开创者与实践者。

从材料科学转向AI研究
朱文宇从小就喜欢信息技术,小时候因为游戏打得不好,就总想着能不能去改改游戏的程序。2015年,朱文宇考上清华大学,但专业是材料科学。但他对这个专业兴趣不大,所以上大一没多久,他就开始把很多的精力投入到软件、AI、计算机等方面去了。
2019年,朱文宇本科毕业后,继续在清华大学攻读博士学位(直博),并转到了更感兴趣的电子系。他的课题方向主要是用AI做软件分析、测试等,还参与了网研院的课题研究。
朱文宇坦言,上学期间他其实在AI、软件分析与检测等方面有很多想法,但因为要满足写论文及其他学业要求,所以对新想法往往浅尝辄止,并没有真正落实。
博士毕业前,朱文宇基本确定了未来创业的方向,那就是继续深耕AI、计算机等领域,并在课余时间做了不少准备。那时候各类型人工智能大模型已开始涌现,朱文宇就想着能不能结合ChatGPT大模型来做软件的分析、检测。但经过实践,他发现这类通用型大模型在垂直领域并不好用,所以决定自己设计模型找数据来训练。
2022年底,在大模型的浪潮下,朱文宇和一些志同道合的伙伴一起尝试将大模型技术应用于软件分析领域,仅仅两三个月后,他们就做出了训练模型,不久后又实现了产品化,对外开展了公测,并于2023年底创立了华清未央(北京)科技有限公司。
朱文宇说,可以说我们是国内外最早开展AI for Software(AI赋能软件)、AI for Security(AI赋能安全)、AI for Data(AI赋能数据)研究的研究团队之一,也是专注于二进制程序分析、闭源软件治理等方向,突破软件领域 “卡脖子” 技术的核心产业化载体。

首创机器语言大模型
朱文宇介绍,公司做的是机器语言大模型,它处理的对象不是文字、图片或视频,而是与人交互的各类软件,比如手机用的App、电脑用的EXE等。“目前,机器语言大模型在全球范围内还没有‘同款’。”
朱文宇表示,以前进行软件的分析检测,需要靠人工理解机器的指令,进行检测操作,效率很低,还不一定准确。但用他们的大模型,则可以更高效、更准确地分析软件的功能,检测其风险漏洞,如是否存在侵犯隐私、代码抄袭等问题。
“通俗地说,机器语言大模型能分析用户上传的各类App,查找应用是否有安全漏洞、违规风险,且支持对应用进行个性化的改造。”他说,对于软件侵权场景,可以利用机器语言大模型,检查正在使用的App是否侵权,效果类似“论文查重”。对于国家安全场景,则可以利用机器语言大模型,解决软件供应链、软件自主可控问题。
此外,这款机器语言大模型还可以对老旧软件进行二次开发。比如运用IT技术比较早的一些能源、金融行业的运营商,通常其软件较为老旧,如何把这些老旧的信息系统迁移到新的硬件上,是个迫切需要解决的问题。
因为如果要将这些老旧软件全都推倒重来,不仅成本很高,周期还很长,同时还涉及一个很关键的技术问题,那就是设计这些老旧软件的人都可能已经离职、转行,配套厂商可能也已经不存在了,靠常规手段去升级非常困难,这时候机器语言大模型就派上了用场,它可以有效实现软件的二次开发与升级。
这款大模型还有一个重要的应用领域就是信创。旨在通过自主研发和创新,建立国产化信息技术软硬件底层架构体系和全周期生态体系,实现在信息技术领域的可掌控、可研究、可发展、可生产,从而实现信息技术领域的自主可控,保障国家信息安全。当前,我国的关键信息系统无论是硬件还是软件都要求国产化,其中就涉及很多软件,特别是操作系统等基础软件的迁移问题,这都可以借助机器语言大模型,以更高的效率来达到目的。
国产软件新机遇与对“国家队”的期待
朱文宇表示,以前国外好的软件工具往往会对我们禁售或限制,而我们国产软件大多跟着别人做,难以超越。
他认为,机器语言大模型的问世,不仅打破了这种“跟随”的局面,而且本身技术上的优势也比较明显。比如说在工程能力方面,机器语言-源代码-自然语言对齐的数据在网络上极其稀缺,需要一套工具去收集,华清未央正好凭借自己的工程能力搭建了一套工具来收集相关数据,并生成所需的新数据。
朱文宇说:“这个行业未来前景还是很可观的,包括新软件的分析、检测,老旧软件的二次开发与升级,信创软件等的迁移,都有较为广阔的市场需求。”
作为人工智能领域的创业者,朱文宇也希望,政府部门、央国企及军工企业等“国家队”力量,能大胆尝试新技术,勇于做“第一个吃螃蟹的人”,从而为相关行业提供更有力的引导。他认为,现在一些行业准入标准或门槛并不适用于一些新创立的人工智能企业。“因为这些企业大多数成立时间不长,相关行业标准也尚未建立,如果行业门槛、资质要求过高,比如限定成立年限、人员规模、技术案例等,并不符合这个行业的实际情况,希望未来能够有所改变。”朱文宇说,他对此也充满信心和期待。
来源:《中关村U30》特刊