|
「整数智能」获数千万 Pre A 轮融资,AI 大模型重构数据标注生产效率36 氪获悉,AI 数据公司「整数智能」于近期完成了数千万 Pre A 轮融资,本轮由翊宙资本、藕舫天使、安益盛银、图灵启真投资,翊尚资本为独家融资顾问。 据悉,本轮融资主要用于智能数据工程平台(ABAVA Platform)的迭代升级,全新的 ABAVA 平台将集成 AI 大模型 + 小模型,实现高效自动化数据标注。此外,整数智能还将集成 RLHF(人类反馈强化学习)数据服务能力,为大语言模型(LLM)的研发与迭代提供方案。 整数智能发展于浙江大学计算机创新技术研究院,致力于为人工智能企业及科研院所提供一站式数据管理服务。其提供的智能数据工程平台(ABAVA Platform)与数据集构建服务(ACE Service),能够满足自动驾驶、AIGC、智慧医疗等数十个应用场景的数据需求。 目前,公司已合作国内外顶级科技公司与科研机构数百家,拥有知识产权数十项,多次参与人工智能领域的标准与白皮书撰写。 整数智能创始人林群书为浙江大学计算机博士生,联合创始人赵子健为浙江大学法学硕士生,目前均处于休学创业中。 林群书认为,正如人工智能公司 OpenAI 的联合创始人 Ilya Sutskever 所说,"Training data is technology",OpenAI 训练的 GPT-3 大模型,有 1750 亿参数。作为 AI 领域的基础设施,数据工程是人工智能时代绝对值得 All in 的机会。 他告诉 36 氪,当下数据标注正在从人力密集型向自动化标注过渡。以 Tesla 为例,在 2018 年,一段 clip 数据需要花费 500 小时的人工标注。随着 Tesla 通过对数据引擎及自动化标注能力的重点建设,到 2021 年,一段 clip 数据的标注只需要花费 0.5 小时的算力标注 +0.1 小时的人工标注即可。 针对人工智能行业发展的大趋势,整数智能推出了智能数据工程平台(ABAVA Platfom),对人工智能所需的数据标注工具套件进行了全域覆盖,包含图像、点云、文本、音频等多模态标注工具。 林群书表示,行业当前的自动化标注,更多依赖算法工程师打磨特定场景的自动化标注算法,通用性有限。跨行业或跨场景时,如果算法自动化标注的精度下降,会需要工程师花费额外的时间精力,对自动化标注算法进行手动升级。 而 ABAVA 平台,其内置的 AI Power 系统通过结合 AI 大模型与小模型各自的优点,能够快速在新行业或新场景进行自动化标注,并且不断提升自动化标注的精度,使得获取高质量数据的时间成本与人力成本不断降低。 简单来说就是,能够跨越不同行业、不同场景实现自动化标注;同时还能利用标注好的数据来迭代算法模型。" 使用时间越长,沉淀数据越多,自动化标注水平也就越高。" 林群书说道。 4D 标注工作界面 图源整数智能 此外,整数智能针对自动驾驶场景,推出了 4D 标注工具,即在三维空间数据的基础上叠加时间维度的序列信息进行场景重建,目前已能支持视觉重建与点云重建。据林群书介绍,其 4D 标注工具可以把原本需要数十帧的标注工作,极限压缩到一帧来进行,将数据标注的效率提升数十倍。 4D 标注工具的研发难点在于,其一需要使用算法融合多帧数据进行场景重建,重建的质量尤为重要,直接影响后续的投影精度;其二在于重建后的点云密度非常高,给 Web 端点云工具的性能优化带来巨大挑战;其三在于完成标注后的结果如何精确的投影回 2D 空间,需要做大量的算法优化。 总的来看,林群书告诉 36 氪,人工智能时代获取「数据能源」将经历人工标注、自动标注、合成数据三个发展阶段。目前整数智能能够通过自动标注大幅降低获取数据的成本。 随着 AI 大模型时代到来,整数智能也在探索合成数据的模式。比如通过 AI 合成数据,可以解决自动驾驶缺乏 Corner case 场景数据的问题。 整数智能认为,AI 大模型时代,数据消耗的速度将远远大于数据自然产生的速度,通过合成数据的技术路径,可以带来「数据能源」获取方式的一次革命。"AIGC(即 AI 生成内容,如 AI 生成图片)的技术爆炸,技术效果和效率会远远超过自动化标注。" |