小九体育在线直播官网

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

小九体育在线直播官网
小九体育在线直播官网 数据标注员揭秘:AI为何写不出好演义
发布日期:2026-05-08 07:02    点击次数:115

小九体育在线直播官网 数据标注员揭秘:AI为何写不出好演义

摘录:

昨年5月,科幻作家渊星成了别称数据标注员。责任浅易来说,就是教AI写演义。

23岁的渊星毕业于一所“211”高校,准备跨专科考研时,他找了这份过渡责任。他也想趁此机会了解AI的写稿机制,“会不会有一天,AI的确会取代东说念主类演义家?”

这是一条新时期的活水线。从数据标注员,到质检员,到方法司理,再到大厂的正编团队,东说念主们各司其职,把一篇篇爆款演义拆成各式层面的执行,动作数据喂给AI。

像剖解一头牛,他们剖解演义的每一章节,既标注各式爽点,也给东说念主物贴上“心脏”“无能废”之类的标签。之后,他们还给AI提供“规范谜底”,评测、润色AI生成的演义。

在这里责任的半年间,这位年青的写稿家很猛进度上缓解了AI惊恐。他看到了AI写演义的局限性,也在这个经由中再行阐述我方写稿的价值。

张开剩余91%

以下是渊星的论说:

文 | 卢冠秋 黄文玥

剪辑 | 周航

像AI通常写稿

昨年5月,准备第三次考研时,为了找份过渡责任,我进了一家大厂外包公司的写字楼,成了别称数据标注员。

招聘条件有写稿资历,我从高中起就写科幻演义,也拿过奖,适合它的条件。口试时,HR给了我一千字的演义章节,让我把它压缩成不到一百字的大约,也就是“细纲”。那是我头一次知说念这个成见。

其后一段时辰里,我每天的责任,就是把一篇万字操纵的爆款收罗演义,浓缩成一条条细纲。

咱们“细纲组”有十多个年青东说念主,大多来自中语、新传专科,干过编剧的相比多。有东说念主场地的剧组倒闭了,就来这里责任。公司尝试过让AI来抽细纲,但AI的概述很是干瘪,字数不到东说念主工细纲的三分之一,还会丢失巨额要津信息。

细纲有个条件:不成“类正文”。比如只可写“他感到厌烦,把杯子打碎了”,但不成写“他被气得脸发红,把杯子打碎了”。“脸发红”,属于有画面感的执行,是要留给AI生成的。或者说,要让AI剖判,东说念主类若是想要写一个东说念主物不悦了,会用“脸发红”来形容。这是大厂家具团队定的计谋。他们会把细纲喂给自家AI,让它写出一篇无缺的演义。

我的好多共事,一直俗例不了干巴巴地写细纲。他们不少东说念主总会下相识用文学化的抒发,直到两个多月的方法竣事,王人存在“类正文”的问题。

图文无关。图源 视觉中国

我本科学采矿专科,不像他们持久写固定文学,反而适合得很快。作念了几天,就从标注员提升成了质检员——活水线的下一起工序。两者工资通常,但质检员细腻修改标注员数据,也有权利奉赵去让标注员重写。

比起“类正文”,我更头疼的是各式语病。一千字的章节,细纲不成杰出350字,又不成漏情节,标注员会巨额不详,比如把几个东说念主的动作压缩到一个极长的句子里,还全部用“他”来指代。把东说念主名王人改成“他”,不错省下几十个字。省到终末,句子根本欠亨顺,还得给它加且归。

方法司理说,严格浪漫字数既是因为模子单次能够惩办的token(大模子惩办信息的最小信息单位)有限,亦然为了减少字数波动对大模子识别的影响。若是一个章节的细纲是三百字,另一个写了五百字,模子可能会以为后者需要详写,但也许字数多的原因仅仅情节细碎。

演义标注方法一共有两个组。除了“细纲”组,还有另一个组,活更杂一些,要写“灵感”、“小标题”,给东说念主物贴上各式标签。环球王人是“拆文”,仅仅拆的东西不通常。

“灵感”是整篇演义的大约,“小标题”是段落的卤莽和作用。公司文档提供了段落的九个基本功能:起初、发展、情愿、回转、落幕,等等。咱们从内部挑着用,再补充上“提供爽点”之类的其他作用。咱们还要给东说念主物写小传,用几个形容词,比如明锐、嚣张调皮,以及绿茶一类的“东说念主设”,去概述东说念主物。这是让模子学习,什么样的秉性会作念出什么样的活动。

作念这份责任前,我没无缺看过一篇网文。但看多了就能发现,即便收罗演义里的东说念主物相比刻板化,也远不是划定文档里那二三十个东说念主设标签能概述的。

比如咱们时时用到“绿茶”这个标签,但网文中“绿茶”的变体其实好多。有的东说念主物的确可爱男主角,莫得坏心,赛车pk10官网平台首页仅仅语言软极少,在我看来这算不上“绿茶”,可照旧会被共事贴上这个标签。

咱们时时感到,划定文档里的标签不够用。比如一个东说念主前期很无能,后期醒觉了,那“无能废”就很难概述这个东说念主物的弧光。这时期,我会向AI描画这个东说念主物,让它提供几个标签,再从内部选。就这样咱们我方编出了“逆袭者”“抵抗者”之类的新标签。但也有标注员不认同,认为网文寰球里莫得这种东说念主设。

算法东说念主员给咱们先容过大模子的基本旨趣,说是通过展望下一个词的姿色来生成文本。但我照旧不解白,AI能不成知晓什么是“爽点”,什么是“绿茶”,或者说,它是若何通过数学化的姿色去知晓的。

(注:早在2020年,北京大学中语系一个筹备方法,曾用东说念主工标注赘婿文的递次,让AI学习识别“赘婿文”中的“打脸”落幕,初步说明了将抽象情节转机为具体数据标签的可行性。)

我也怀疑这种测验姿色能否写出好演义。东说念主类创作家也会学习创作妙技,比如很著名的《救猫咪》。但数据标注是反过来的。演义照旧写好了,咱们把它套进模板里。作家可能并不是按这个模板写的,比如并莫得以刻板印象中的“绿茶”为筹划塑造东说念主物,但咱们却要在标注的时期给它作念模板化的惩办。

其后作念评测的时期,咱们王人有清醒感受,AI生成的演义相比刻板化,很难有真东说念主写稿的厚度。

活水线上的争议

网上对数据标注有个评价:“赛博活水工”。

咱们公司属于驻场外包,做事的互联网大厂在一线城市有整片园区。咱们在其中一栋楼里,通盘这个词标注团队有几百东说念主,王人给这家大厂的AI家具标数据。文本标注大类下,还有通用写稿、脚本对话等其他小组。

我在哪里的半年,大厂正编的家具团队来开过几次全员培训会。开会时期他们王人会强调,标注数据质料如何伏击,对模子的学习后果有很大影响。但不会讲具体的方法,也莫得告诉咱们某类数据到底若何作用到模子。

大厂的正编东说念主员会制定标注划定。但至少对演义方法来说,他们给的标注划定大多很浑沌。若何是一条高质料的数据?好多时期其实莫得长入规范。

比如写细纲的时期,组里时时会有各式争议。在一篇“大女主”文里,本来降志辱身的浑家,为什么霎时醒觉,开动抵抗丈夫和家庭?有的标注员认为相通的机会是一又友的一句话,有的东说念主认为是因为她忠诚付出却遭到丈夫疏远对待。原作家写得并不清醒,环球各执一词。

标注员时时认为质检员的规范有问题。为了责任留痕,环球就算紧挨着坐,也在群里参谋。有时争执不下,就由方法司理来定夺。

互联网公司园区夜景。图文无关。图源:中国视觉

我入职的时期,小九体育在线直播官网平台方法刚启动,好多东西还在摸索,方法司理亦然从其他部门临时抽调过来。但她其实不太懂演义。一个标注员径直对她说,“我不错按照你说的改,然而我不会认同这个东西,我仅仅合营你的责任”。其实环球王人是这样想的。

方法司理也总认为,一篇演义抒发什么,应该有一个规范谜底。有一次例会,她举了鲁迅那句“我家门前有两棵树,一棵是枣树,另一棵亦然枣树”动作例子。

“很可能鲁迅其时仅仅唾手一写。”她说,接着问咱们:“写段落作用的时期,究竟是应该从读者的角度商量,照旧从作家的角度商量?”

这个问题在我听来有点业余。我认为文本一朝出生,就和作家没关关连了。哪怕作家莫得这样想,若是好多读者王人认为这是刻意设想的,咱们也应该告诉AI,作家就是成心设想的,这样写会更好。这样才能从演义里索要出一套写稿递次。

可寰球上那么多读者,“好多读者”到底指的是哪一批读者?咱们的责任某种进度上是充任规范读者,但说到底,也仅仅站在我方的角度去解读。

有的时期,咱们也仅仅尊重“爆款”自己。比如一篇主打“大女主逆袭”的网文里,女主角一边说着要解脱家庭、和丈夫离异,一边又用着前夫的资金、东说念主脉作念成我方的做事。我能看出来作家想把她塑形成正面东说念主物,但水平不太行,导致逆袭叙事不太开发。但咱们照旧会谨守作家容许,给女主角打上“大女主”“逆袭者”的标签。毕竟是“爆款”,说明照旧有不少东说念主吃这一套。

其后责任三个月时,换了个编剧出身的方法司理,清醒能嗅觉她对演义的知晓更深。但不是说她能定下服众的规范,而是她知晓环球对演义的知晓有互异,会尽量遴荐折中的姿色。

刚开动的时期,环球认为教AI写演义是一件意旨的事。但的确作念起来,会发现数据标慎重在实施划定而非创造,很快就会认为没趣。

我在的半年时辰,两个东说念主没过试用期,另外主动走了四个,有一个东说念主入职一周就辞职了,他认为责任太机械化,和预期不通常。下野的王人是标注员,莫得质检员。标注员处在活水线的最结尾,会认为我方一直在被诡辩。从他们的视角看,这份责任就是络续作念,络续被其他东说念主挑刺,莫得东说念主来告诉我,我写得终点好。时辰长了很压抑。

留住的东说念主其实也王人抱着临时过渡的心态。这个行业飞腾空间小,合座流动性大。我去复印考研贵寓的时期,还看到其他东说念主印的考教资、考导游证的贵寓。

各有各的模板

细纲方法作念了2个多月就停了。莫得东说念主见知咱们为什么停,可能是因为测验后果不好。那之后,咱们作念了一段时辰的评测。

算法团队基于团结个领导词,让自家模子和国表里的竞品模子生成演义。咱们要给每篇演义打分,再填存在的问题。问题有详备的清单,分为东说念主物类、文风类、逻辑类、结构类、剧情类、指示顺从等。

公司也给出了“好演义”的明确规范。比如病笃情节与舒徐的情节,是否得志1比1.5的比例。不知说念这个若何算出来的,也可能是1.5比1,我也不谨记了。又比如主角要立体,有清醒的成长与相通;副角要扁平,不成抢掉主角的风头。

文风类里,有一项问题是AI感太重。天然AI感自己亦然污秽的成见,但刚开动我不错很清醒分别出AI感,其后看得多了,我发现我方分辨不出来了。作念细纲方法时,有时期方法司理也问,你写的这个是不是AI感太重了,但他也不信服。我认为这个事挺恐怖的,也许再待上半年一年,我就写不出演义了。

评测经由不错发现,每个模子写的演义王人是高度模板化的。互相的模板还不通常。有些模子它可能前期剧情节拍终点快,然后中期剧情就停滞了,开展一些过问其妙的支线后,又霎时落幕。也有的模子可能剧情节拍还好,但东说念主设就相比扁平,终点刻板。

评测满分3分,咱们我方作念的那款AI,在评测中老是垫底。一般只须1-2分。这应该亦然用户的感受。咱们能看到后台用户的输入,80%王人是让AI写同东说念主文,用来磕CP的。但它写出来的变装活动时时和秉性严重不符,基本上只可保证性别是对的。

咱们分批次作念了好几轮评测,模子有一些杰出,但不是很清醒。一个前边极其无能的东说念主,照旧时时因为一件小事过问其妙地醒觉。发扬好的模子也会出现这些问题,仅仅莫得那么严重。

昨年11月,我提了下野,专心准备考研。那时期细纲方法照旧停了4个多月,除了作念演义评测,咱们一直在缓助其他组的方法,意图识别、愚弄文写稿,前仰后合的。

离开后,我一直在想,为什么AI写演义的才调,远远过期于它作念好多事情的才调?

我的念念考是,AI模板化写稿才调相比强,比如责任回想、周报月报、会议纪要等等。但写演义莫得那么明确的“操作递次”。读演义的东说念主,也不是只想了解发生了什么事,而是想透过语言去感知作家的生命体验。这种共情是很直不雅的,不是逻辑推理的落幕。AI在迭代,它的文风也在不休地迭代,有些问题照旧不太会出现了。但我认为它始终作念不到用数学化的姿色,按递次触发东说念主的神色。

我我方写演义,好多时期来自于生存中的刺痛。我第一次写演义,是高三的晚自习,那时期我很违抗学校的衡水模式。演义叫《地震来临之时》,或然有六七千字。主角的血液不错感知磁场的变化,因此被某个机构执去作念筹备。我高中时写的基本王人是这种作风,故事里的体制是晦暗的、破坏东说念主的,主角终末时常会因为想要抵抗,走向豪壮的归天。

渊星高中时写的科幻演义。论说者供图

在“小标题”方法里,咱们需要明确告诉模子,每一个段落抒发的神色是什么。好多时期这种概述是正确的,比如追到,但即即是明确的心境,亦然立体的、丰润的,一朝用追到回想,它就扁平了。在东说念主类身上,“追到”是知晓的落幕,在AI哪里,这却是知晓的绪言。正因如斯,模子写稿时也会按照套路,输出各式各种扁平的心境。

作念演义标注的资历,也让我对我方的写稿有了更多念念考。这几年,我总在师法经典作品的情节和叙事姿色,但大多数时期,落幕王人不太好。反而那些以我方生存体验为泉源写出来的东西更天然,心境也更实足。

可能这就是AI和东说念主类创作最大的区别。AI仅仅在师法落幕,它莫得目标着实的创新,之是以能读出来是AI的,我认为因为它是浮泛的,翰墨背后莫得真实的生存作念因循。

我可爱聂鲁达的《看不见的河流》。他在后生时刻画家乡的天然征象,中年开动投身社会改革,最终在着实的失败到来前往世了。那咱们要如何评价他为之奋勉的一世呢?这就很有厚度了。我认为AI始终无法给读者带来这样的体验。

(本文系极昼责任室“大学生非捏造写稿方法”作品小九体育在线直播官网。)

发布于:北京市米兰体育官方网站

友情链接:

Copyright © 1998-2026 小九体育在线直播官网™版权所有

备案号 备案号: 

技术支持:® RSS地图 HTML地图