登陆注册
1891700000003

第3章 日本关西学院大学于康教授访谈录(3)

语料出处的标签指的是注明语料来自何处的标签,包括作者姓名、性别、年龄、身份等个人信息外,还包括刊登的报刊、杂志、书籍以及体裁等信息。语料成分的标签指的是注明语料中各类成分性质的标签,包括词汇、语法、句法、语义、语用和篇章、话语等信息。

一类是注明语料出处的标签,一类是注明语料成分的标签。

加注标签有两种方法:一种是穷尽加注法,一种是部分加注法。如果穷尽加注法指的是给全部的原始语料加注标签的话,那么这种加注法虽然是最理想的标签加注法,但目前由于各种因素的限制缺乏现实意义和可操作性。所以,现在主要的加注法还是部分加注法。

无论是采用穷尽加注法,还是采用部分加注法,都将取决于读者的研究目的和加注标签的时间。穷尽加注法和部分加注法各有利弊。穷尽加注法可以相对地一劳永逸,但需要漫长的时间。部分加注法有的放矢,对症下药,加注的时间可以大大地缩短,但由于只能“有的放矢和对症下药”,所以,当标签的种类不能满足研究的需要时,就需要另外再加注标签,多一道手续。

实际上,穷尽加注法并非能够真正地达到穷尽,还会有很多注意不到的变数。在加注标签的过程中,二次加注标签和三次加注标签往往是不可避免和不可缺少的。也就是说,多一道或两道手续是正常的。二次加注标签指的是对通过对加注标签的语料库进行检索得到的语料根据研究的需要再次加注标签。三次加注标签的原理与二次加注标签的相同。因此,从时间和能量的合理分配这个角度考虑的话,一开始不必就求全,要想让检索出来的语料活起来,可以先从部分标注法着手,结合二次和三次加注标签来不断深化自己的研究。

给语料加注标签有两个必须遵守的准则。一个是对标签内容的解释和理解不能过度地受到人为因素的左右,一个是加注标签者是否能够自如地给语料加注标签。

人为因素有两类。一类是对词类的划分、句式的认定、构句成分的句法和语义功能的认定等是否会因学者的不同而出现不同的解释,这些解释是否会影响加注标签者对加注标签的语言对象的分类和认定的判断。另一类是对词类的划分、句式的认定、构句成分的句法和语义功能的认定等是否会因加注标签者的理解的不同而出现不同的解释。

如果分类和划分标准多种多样,对需要加注标签成分的理解又会因人而异,同时加注标签者不熟悉各类学说的标准,并将各类标准混在一起对理解上会因人而异的成分加注标签时,即便是一个相同的成分,加注出来的标签也会出现五花八门的情况,缺乏统一性。

自如地给语料加注标签指的是加注标签者只要具备一些一般性常识,并在不会过度地受到因人而异的标签类型判断干扰的情况下,依据一个比较容易遵循的客观标准来给语料加注标签。

也就是说,在设计和加注标签时,应该回避和减少会受到人为因素干扰和难以判断的标签。在日语研究领域里,词类的划分、句式的认定、构句成分的句法和语义功能的认定相对地有据可循,容易操作。而词汇或语法以及句式的语用功能,特别是与表达说话人意图有关的表义功能的界定会明显地受到语境和说话人表达意图的左右,基本上无据可循,不太容易操作。

标签的种类会因研究领域以及研究目的的不同而有所不同。

加注标签有两个方式。一个是手动加注标签,一个是使用加注标签软件加注标签。手动加注标签指的是采用目视的方法对需要加注标签的对象逐一加注各类标签。使用加注标签软件加注标签指的是运用装备标签一览表的软件,采用点击一览表中标签的方式来给需要加注标签的对象加注各类标签。

目前带标签的日语语料库几乎看不到。属于个人或团队开发的尚未公开的带标签的语料库也都是用手动来加注标签的。采用手动加注标签时,必须十分熟悉标签的标准和分类,并做到信手拈来。不能凭借临时需要而随意添加标签。因为,加注的标签必须具有统一性和一贯性,即所有的语料都必须按照同一个标准来加注标签。只有这样,检索和统计出来的数据才会具有客观性。但是,人脑的记忆力是有限的,参与加注标签的如果是一个人以上或一个团队的话,给语料加注标签是必不可少的一个研究步骤。通过对标签的归纳和统计,就需要有一个可供所有参与者参照的标签一览表。过去,我们在开发加注标签软件之前,通常都是把标签一览表放在手边,一边确认、查阅,一边加注标签。

标签一览表中的标签必须具有体系性。所谓标签的体系性指的是依据同一类型学说设计并具有一贯性的标签。标签的设定不能同时依据各类不同的体系,即不能是一个各类学说的混合体。将各种不同体系的分类不加区别地混同在一起使用,最终会影响结论的可靠性和可验证性,这是需要特别注意的。

但是,即便是大多数人认可的体系实际上也是一种暂时的体系,里面会包含很多不完善的部分,甚至有的地方自相矛盾。个性强的体系虽然只是得到某一个流派或一部分人的认可,尚未普及,但里面也不乏有理有据之处。由此可见,所谓公认的体系和个性化的体系都是各有所长和各有所短,换句话说,都是值得参照的体系。

因此,在设计标签的时候,标签的种类应该包含两大类。一类是基于求大同存小异并基本得到公认的体系所设计的标签,一类是基于不求大同且个性化强的体系所设计的标签。也就是说,标签一览表中,应该有两大类内容。一类是反映公认体系的标签,一类是反映个性化体系的标签,个性化体系的标签可以有多种。读者可以根据自己需要对使用何类标签进行选择。既可以只选择基于公认体系的标签,也可以只选择基于个性化体系的标签,还可以在选择基于公认体系的标签的同时,选择某一个个性化体系的标签。

日语语料库专用的加注标签软件指的是给从日语语料库中检索出来的例句加注标签的软件。研究的对象是日语本体,加注标签的目的是为了观察和分析日语构词和构句中与语法或语义相关的各类搭配和使用规律。研究语言用的标签通常可以分为两个大类。因此,标签的设计和内容的安排需要围绕这个目的来进行。

偏误语料库专用的加注标签软件指的是给日语学习者的日语作文和日语口语的文字记录加注标签的软件。研究的对象是日语学习者的日语使用问题,可以发现通常依靠目视无法发现的问题和意想不到的使用规则或规律。这样就可以大大地提高研究的速度和精度,加注标签的目的是为了观察和分析包括偏误在内的日语使用规则。因此,标签需要包括两个内容:一个是标注偏误的具体类型,一个是显示正确的说法。

翻译语料库专用的加注标签软件指的是给原文和译文同时加注标签的软件。研究的对象是译文,加注标签的目的是为了从信息是否等量这个角度来观察和分析原文表达形式的内含信息与译文表达形式的内含信息的对应情况,由此析出信息等量、信息不等量、信息部分等量时译文的表达形式,抽取一般化的规则。

加注标签的对象不是全部的原始语料,而是需要考察和研究的语料。即给检索出来的语料加注标签。为了保证加注标签的工作尽量减少出现无用功的情况,如何检索语料和从检索出来的语料中选择需要考察和研究的例句至关重要。

给检索出来的语料加注标签,从加注标签的总体来讲,属于部分加注法。具体加注标签的方式主要有以下两种:①给例句中所有的共现成分加注标签,②给例句中所需要的成分加注标签。“给例句中所有的共现成分加注标签”指的是给清除垃圾信息后的例句中所有出现的共现成分加注标签的方式。“给例句中所需要的成分加注标签”指的是给清除垃圾信息后的例句中与目前考察和研究的内容直接相关的共现成分加注标签的方式。

无论采用哪种方式给语料加注标签,并通过对标签的检索和归类来考察和分析例句都会出现两种情况:①只要加注一次标签就可以解决问题,②需要多次加注标签。比如,当一次加注的标签不能满足考察和研究的需要时,就需要进行二次加注标签和三次加注标签。

比如,以考察「ている。」与何类动词共现为例。加注标签的方式如下。①一次标签。按照动词的语法分类给例句中的动词加注标签。比如,给动词加注「自動詞」「他動詞」「非対格自動詞」「非能格自動詞」「有対動詞」「無対動詞」「一項動詞」「二項動詞」「三項動詞」等标签。如果从上述的标签中不能得到满意的分析结果,可以加注二次标签。②二次标签。按照研究的需要对检索出来的例句中的动词加注语义标签。比如,给动词加注「現象動詞」「主体動作対象無変化動詞」「主体動作対象変化動詞」「主体変化動詞」「主体動作主体変化動詞」「状態動詞」「産出動詞」「関係意味表示動詞」「言語活動?知覚動詞」「移動目標動詞」「空間移動?時間経過動詞」「主体移動動詞」「相互動作動詞」「構成動詞」「存在動詞」「再帰動詞」「所有動詞」「能力?知覚動詞(可能動詞)」「対象移動動詞」「対象接触動詞」「対象変化動詞」「心的活動?態度動詞」「継続動詞」「瞬間動詞」等标签。如果从上述的标签中依旧不能得到十分令人满意的分析结果,或者欲从其他角度来分析例句或研究分析的结果,可以加注三次标签。③三次标签。使枯燥无味的研究变成一种乐趣。按照其他的动词的分类标准给动词加注标签,或者,给例句中其他的共现成分加注标签。比如,按照奥田靖雄的学说给动词加注「もようがえ動詞」「とりつけ動詞」「とりはずし動詞」「うつしかえ動詞」「ふれあい動詞」「結果的なむすびつき動詞」等标签。或者给动词加注「有界」「非有界」等标签。

一次标签、二次标签和三次标签的顺序与内容不是固定和绝对的。一次标签的内容也可以作为二次标签或三次标签来加注,同样,二次标签也可以作为一次标签或三次标签来加注。而且,一次标签、二次标签和三次标签的内容都可以一次性标出。之所以需要二次标签或三次标签,是因为一次加注的标签不能概括所有类型的标签,从检索出来的语料中顺利地归纳出使用规则或规律,而且,有时在加注标签的时候,有一些分析问题的角度和视点不可能一次都考虑得很周全,会在分析带标签的例句的过程中突然想到,这就需要二次或三次加注标签,以此不断深化对例句的观察和分析。

加注标签指的是给例句中的某些成分加注某种标记。标签的内容可以根据研究的需要而不同。研究语法的将词汇分类、成分的句法功能和语义功能、句式等等作为标签的内容。研究语用的将词语和句式在使用中所可能出现的表义功能作为标签的内容。研究话语交际的将视线、表情、身体动作等作为标签的内容。也就是说,加注标签实际上是利用电脑可以处理庞大数据的功能,来完成人的大脑做不了的统计和分析工作。

我们设计制作的加注标签的软件是一个基础软件,给读者留下了一个可以自由发挥的空间。读者可以根据需要去增减和丰富标签的内容。也就是说,有了加注标签的软件解决了手工加注标签所造成的体系混乱和丢三落四的问题,有了带标签的语料库解决了过去靠目视来抽取规则所造成的结果偏颇的问题,通过反复对标签进行检索和组合排列,可以提高发现问题、分析问题和解决问题的速度。因为,我们从例句所要抽取的就是某种带有普遍意义的规则,过去靠手工做,现在可以靠电脑来做。毫无疑问,速度和可信度都会得到大幅度的提高。而且电脑处理例句的数量要比手工处理例句的数量大得多,更具科学性。但是,有了加注标签的软件也并非可以一劳永逸了,是否能够做出精彩的研究成果,最终还是要看读者的思路和研究目的是否合理,是否具有前瞻性。这些能力是电脑和软件所做不到的。

问:非常感谢您给我们这么详细地介绍了日本的汉日语言对比研究情况以及语料的收集与分析方法,很多观点为我们今后从事汉日语言对比研究指明了方向,并给了我们很多启发。此次访谈非常成功。占用了您的宝贵时间,向您表示衷心的感谢。

答:非常感谢采访人所给予的机会。表述上可能会有很多不妥之处,还请采访人和读者多多原谅。

(盛文忠[问题设计,记录整理])

同类推荐
  • 会跑的布娃娃(原创经典作品)

    会跑的布娃娃(原创经典作品)

    善读精品美文,拾取久违的感动;体悟百味人生,感受成长的快乐。阅读其间,时而在惊险悬疑的案件中悚然而惊,时而为体察入微的真情潸然泪下,时而又涌动着想针砭时弊的激情……掩卷而思,人性的美丑,世事的善恶,人生际遇的变幻无常不禁让人感慨万千。
  • 像花儿一样开放(原创经典作品)

    像花儿一样开放(原创经典作品)

    善读精品美文,拾取久违的感动;体悟百味人生,感受成长的快乐。阅读其间,时而在惊险悬疑的案件中梀然而惊,时而为体察入微的真情潸然泪下,时而又涌动着想针砭时弊的激情……掩卷而思,人性的美丑,世事的善恶,人生际遇的变幻无常不禁让人感慨万千。
  • 来自天堂的笑声(原创经典作品)

    来自天堂的笑声(原创经典作品)

    善读精品美文,拾取久违的感动;体悟百味人生,感受成长的快乐。阅读其间,时而在惊险悬疑的案件中悚然而惊,时而为体察入微的真情潸然泪下,时而又涌动着想针砭时弊的激情……掩卷而思,人性的美丑,世事的善恶,人生际遇的变幻无常不禁让人感慨万千。
  • 向敌人敬礼(原创经典作品)

    向敌人敬礼(原创经典作品)

    善读精品美文,拾取久违的感动;体悟百味人生,感受成长的快乐。阅读其间,时而在惊险悬疑的案件中悚然而惊,时而为体察入微的真情潸然泪下,时而又涌动着想针砭时弊的激情……掩卷而思,人性的美丑,世事的善恶,人生际遇的变幻无常不禁让人感慨万千。
热门推荐
  • 祸国毒妃

    祸国毒妃

    一朝穿越,她用催眠术蛊惑人心,奈何只有那个冷面王爷不买账?王府斗智,唇枪舌战,谁敢犯我?且看21世纪资深催眠师在古代斗智斗勇,为他拿下富丽江山!【情节虚构,请勿模仿】
  • 爷爷进城

    爷爷进城

    无为,原名赵亮。甘肃平凉人,定居广西北海。出版有中短篇小说集《周家情事》。广西作家协会会员!
  • 阵仙

    阵仙

    古籍有云,天下修士,剑仙第一。今日方利崛起,当改之,剑仙之上,尚有阵仙!两仪微尘大阵、九曲黄河大阵、诛仙剑阵……方利缓缓而行,一步一步揭开上古大阵的面纱。
  • 天域苍穹

    天域苍穹

    笑尽天下英雄,宇内我为君主!万水千山,以我为尊;八荒六合,唯我称雄!我欲舞风云,凌天下,踏天域,登苍穹!谁可争锋?!诸君可愿陪我,并肩凌天下,琼霄风云舞,征战这天域苍穹?!…………天域苍穹官方群一:376497379天域苍穹官方群二:374474820
  • 日出草荡

    日出草荡

    女人生得不好看,女人自己晓得。可是坐在戴着狗头帽的货郎面前,女人又不晓得了。兰香十四岁那年,有一天,娘给她梳了一个很齐整的头,又让她换上了新衣新裤。娘说:“囡啊,爹娘养得你这么大了,今后你就自个活命儿去吧!”兰香不解地抬起头来望望娘,不知何故,娘的眼圈充血般红红的……这是一个发生在草荡里的故事,一个叫兰香的女人,一个叫毛狗的男人……
  • 傲慢与偏见(青少版)

    傲慢与偏见(青少版)

    围绕着英国小乡镇上一户家境不算富裕的绅士家的日常生活铺开的。班纳特先生有五位如花似玉的女儿,班纳特太太整日梦想着为五个女儿找到英俊富有的金龟婿。而此时正好有一位年轻的富家子弟宾利先生准备入住他们所在的乡村。当宾利先生和他的朋友达西先生一同出现在众人面前时,班纳特太太信心满怀,认定她美丽温柔的大女儿简一定能成为宾利先生别墅的女主人,而宾利先生和简也的确一见钟情。宾利先生的朋友达西先生是个俊朗而傲慢的年轻人,他的地位和财富令所有人望尘莫及,但他的冷漠和孤傲也令所有人厌恶。伊丽莎白是一位活泼机敏、举止优雅、气质不俗的姑娘,身份低微却聪慧可爱的她深深打动了达西的心,当他决定屈尊向...
  • 东宫有本难念的经

    东宫有本难念的经

    宝庆十九年春,大佑国皇太子大婚,大将军之女入主东宫。一个不是淑女的将门千金遭遇一个不是文韬武略的中庸太子,到底是佳偶天成,还是冤家路窄?成婚一年不足,太子忽然休妻。迷影重重,生死茫茫,这样一来,还是不是大团圆结局?
  • 烈焰战神

    烈焰战神

    边远小镇上的落魄贵族,她身为直系血脉,却沦落成为连低级奴仆都不如雷霹重生,天赋觉醒神秘身世,扑塑迷离一夕之间,她摇身一变,成为天边那耀眼的一颗明星从此,她走出了这无名小镇,踏上了辽阔无比的魔、武大陆从此,命运开启了一段属于她的惊艳传奇!绝色男子,妖异女子,无不为之而痴恋疯狂……※明闪:光辉帝国的亲王殿下,墨发,白衣,纤尘不染。当有一天,一身狼狈,不修边幅的烈焰出现在他面前,他嫌恶地皱起了眉:“想进来吃饭?先去洗洗干净!”当风云变幻后——“烈焰,我是你的舅舅,但我也是你的人,你身体的一部分,我死了,你还活着,你死了,我活不了……”——明闪小波墩:弗兰帝国的小王子,六岁的小屁孩初见烈焰,稚嫩童真地眸目大亮:“美女,我喜欢你,你跟我交往吧!”“那时还是孩童的我不知道什么叫爱情,但是,初见烈焰美女的时候,第一眼,我便喜欢她,那种喜欢,让我想要将自己融入她的血液骨髓,与她永不分离。没有她,我会死。当宿命最终走到尽时,我才知道,原来这一切冥冥中自有安排。”——波墩?弗兰※本文玄幻路线,文风轻快,无虐,女强!!
  • 无敌大小姐

    无敌大小姐

    当现代阴狠毒辣,手段极多的火家大小姐火无情,穿越到一个好色如命,花痴草包大小姐身上,会发生怎样的化学反应?火无情一醒过来就发现,自己竟然在众目睽睽之下上演脱衣秀。周围还有一群围观者。这一发现,让她极为不爽。刚刚穿好衣服,便看到一个声称是自家老头的老不死气势汹汹的跑来问罪。刚上来,就要打她。这还得了?她火无情从生自死,都是王者。敢动她的人,都在和阎王喝茶。于是,她一怒之下,打了老爹。众人皆道:火家小姐阴狠毒辣,竟然连老爹都不放在眼里。就这样,她的罪名又多了一条。蛇蝎美人。穿越后,火无情的麻烦不断。第一天,打了爹。第二天,毁了姐姐的容。第三天,骂了二娘。第四天,当众轻薄了天下第一公子。第五天,火家贴出招亲启事:但凡愿意娶火家大小姐者,皆可去火府报名。来者不限。不怕死,不想活的,欢迎前来。警示:但凡来此,生死皆与火家无关。若有残病者火家一律不负法律责任。本以为无人敢到,岂料是桃花朵朵。美男个个很妖娆一号美人:火无炎。火家大少爷。为人不清楚,手段不清楚。容貌不清楚。唯一清楚的是,他有钱。有多多的钱。火无情语录:钱是好东西。娶了。(此美男,由美瞳掩饰不了你眼神的空洞领养。)火老爷一气之下,昏了过去。家门不幸,家门不幸啊。二号美人:竹清月。江湖人称天上神仙,地上无月。大国师一枚。美得惊天动地。火无情语录:美人好,尤其是自带嫁妆又会预测未来的美人,娶了。(此美男,由东de琳琳领养)三号美人:轩辕子玉。当朝七皇子,游历四国。一张可爱无敌的脸。单纯至极。火无情语录:可爱的孩子好,可爱又乖巧的孩子更好。可爱乖巧又不用给钱的孩子,娶了。(此美男,由刘千绮领养)皇帝听闻,两眼一抹黑。他的儿啊。怎么就这么不争气呢。四号美人:天下第一美男。性格不详,籍贯不详。火无情语录:谜一样的美人,她喜欢。每天都有新鲜感。娶了。(此美男,由告别的爱情li领养。)五号美人:天下第一名伶。火无情语录:解风情的美男,如果没钱花把他卖了都不用调教。娶了。(此美男由伊眸领养。)六号美男:解忧楼楼主。相貌不详,身世不详。爱好杀人。火无情语录:凶恶的美人,她喜欢。娶了。(此美男由陈铭铭领养)七号美男:琴圣。貌如谪仙,琴音杀人。冷清眸子中,百转千回,说尽风流。(此美男由伊眸领养)夜杀:天下第一杀手。(此美男由静寂之夜领养)
  • 餐桌上的生活智慧

    餐桌上的生活智慧

    “衣”、“食”、“住”、“行”这是生活的全部。其中“民以食为天”,这个“食”的重要性可想而知。作为22世纪的新新人类,聚餐、请客成为了生活中不可缺少的部分。那在吃餐的时候的礼仪你都知道吗?你有没有引起别人的不屑,或者别人的夸赞呢?什么是餐桌上的智慧?如何做个成功的人士?就请进来看看吧。