付珺:利用COCA在线语料库辅助雅思备考

2014-08-14 15:51:49 来源: 网易教育频道专稿 举报
0
分享到:
T + -
COCA——美国当代英语语料库(Corpusof Contemporary American English)是由美国Brigham YongUniversity的Mark Davies教授开发的免费的美国最新当代英语在线语料库。新东方雅思名师付珺建议考生使用COCA在线语料库辅助备考。

选择雅思 助力理想——俞敏洪致雅思考生

8月15日《2014新东方雅思年度中期报告》正式发布,分序言篇、雅思考试分析篇、学术学习能力篇、高分学员案例篇、名校录取案例篇5部分,旨在总结上半年的雅思考试变化,预测下半年雅思考试趋势,为烤鸭们提供最及时的信息指导。

付珺 新东方教育科技集团雅思研究院口语培训师

词汇学习是所有语言学习的基础。雅思考试听、说、读、写四项能力的突破都离不开词汇的识别、记忆、辨析和运用能力的提升。各类词典是广大考生备考时普遍使用的工具书;它们提供语词的释义、搭配,辅以一定数量的例句,有些学习词典还提供近(反)义词及近义词辨析。这些功能基本能够满足消极词汇(Passive Vocabulary,指的是在阅读中碰到,经过短暂思考或者借助上下文推断后能辨识语义的词汇)的学习需求,但对于积极词汇(Active Vocabulary,即在英语实际使用过程中能够运用的词汇)的扩充帮助是有限的。比如词典不会提供动词短语后和宾语的搭配信息、不提供词汇或短语在实际运用中的使用频率信息、极少数词典能提供十分有限的语体信息(即适合用在什么类型的口语或书面语)等等。而积极词汇的缺失是导致中国考生雅思成绩口语和写作两项一直拖后腿的根本原因。

COCA — 美国当代英语语料库(Corpusof Contemporary American English)是由美国Brigham YongUniversity的Mark Davies教授开发的免费的美国最新当代英语在线语料库。该语料库于2008年2月20日在互联网上正式推出,收录了从1990年到2012年美国境内多个领域近4.5亿词的原始语料。其文本分为口语(SPOKEN)、小说 (FICTION)、杂志 (MAGAZINE)、报纸 (NEWSPAPER)和学术文章 (ACADEMIC)五个子库,每个子库都有九千多万字的容量,是世界上最大的平衡语料库。COCA的基本情况就先介绍到这,接下来笔者就要与广大烤鸭们来分享如何利用这个强大的工具来备战雅思考试。

1. COCA用户界面介绍

COCA在线语料库的网址是http://corpus.byu.edu/coca/。进入后会看到一个欢迎页面,点击页面中央的ENTER按钮就能进入COCA的查询界面了。(见图1)

图1. COCA查询界面
图1. COCA查询界面

整个界面布局直观明了,共有三个查询显示区,分别为左边的“检索条件限定区”(A)、右上方的“结果数据显示区”(B)及其下方的“例句语境显示区”(C)。

在A区设置检索条件后点击“SEARCH”按钮在B区就会得到相应的检索结果;鼠标点击B区出现的字词后会在C区显示语料库中包含该字词的句子和上下文以及语料来源。

2. “检索条件限定区”介绍

该区域从上到下分为四个部分,分别是“显示方式设置”(DISPLAY)、“检索字串录入区”(SEARCH STRING)、“语料库分类选项”(SECTION)和“查询结果排列方式设置”(CLICK TO SEE OPTION)。出于篇幅和实用性的考虑,本文对“语料库分类选项”(SECTION)和“查询结果排列方式设置”(CLICK TO SEE OPTION)不做介绍。

2.1 “显示方式设置”(DISPLAY)

“显示方式设置”(DISPLAY)用来设置在“结果数据显示区”出现的查询结果的显示方式和内容。DISPLAY一栏共有四个选项,本文只介绍“列表显示”(LIST)和“图表显示”(CHART)两项。

2.1.1 “列表显示”(LIST)

COCA语料库查询结果默认用列表方式显示。搜索任意一个单词如“love”,在LIST显示方式下在B区会显示“love”一词在语料库中出现的总次数(FREQ)。(见图2)

图2
图2

2.1.2 “图表显示”(CHART)

在CHART模式下检索“love”,在B区将会显示“love”在上文提到的五个子语料库中,以及它在不同的年代时间段中出现的总次数(FREQ)和每百万词中出现的次数(PER MIL)。(见图3)

图3
图3

2.2 “检索字串录入区”(SEARCHSTRING)

对大部分英语学习者来说,检索字串录入区最为重要,也使用得最多。它包括“字符串查询”(WORD(S))、“语境搭配查询”(COLLOCATES)、“词性列表查询”(POS LIST),以及“随机查询”(RANDOM)。默认状态下只有WORD(S)栏右边有一个字符框(见图4),其他几项要在鼠标点击之后才会弹出字符或选项框(见图5~6)。同样出于篇幅和实用性的考虑,本文对“随机查询”(RANDOM)不做介绍。

 图4
图4

 图5
图5

 图6
图6

2.2.1

“字符串查询”(WORD(S))可输入的最大字符串为9个,字符输入不分大小写。如在图4中我们输入“pie chart”,点击“SEARCH”后在“结果数据显示区”就会得到“pie chart”这个字符串在整个语料库(近4.5亿词)中总共出现的次数(共48次)。

2.2.2

“语境搭配查询”(COLLOCATES)可以检索“字符串查询”(WORD(S))处所输入的目标检索词与其他单词在一定上下文中的搭配情况。COLLOCATES右边第一个方框是搭配词输入框;后面两个带下拉箭头的小方框用来设定搭配词与检索词的上下文限定。其中左边的小方框规定搭配词出现在检索词的左边(上文)N个词范围之内,右边的小方框则规定搭配词出现在检索词的右边(下文)的位置。

如上图5所示,要查找“pie chart”和“illustrates”的搭配情况,只需在COLLOCATES旁的文字框输入“illustrates”,然后规定“illustrates”不出现在检索词“pie chart”的左边(第一个小方框选“0”),而只出现在右边两个单词(考虑到“pie chart”和“illustrates”之间可能还有一个副词的情况)范围之内(第二个小方框内选2)。点击“SEARCH”后在“结果数据显示区”就会得到“pie chart (+ adv.)illustrates”这个结构在整个语料库中出现的次数(共出现0次!)。

2.2.3

在“词性列表查询”(POSLIST)选择框点击下拉箭头可以在各种词性中进行选择,在COLLOCATES文本框没有弹出的情况下所选的词性将以减缩形式附在检索词后面,意思是检索词后面再跟一个所选词性的单词。比如我们要搜索“interest”后面加一个动词的结构,先输入检索词“interest”,然后在POS LIST处选择“verb.ALL” (见图7),点击“SEARCH”后得到相应的查询结果。

如果在选择词性列表时COLLOCATES文本框是打开的,则所选词性将以减缩形式出现在COLLOCATES的文本框中。如图8的检索条件为:查找“interest”左边两个词距离内的任意形容词搭配。检索后在B区会得到图9中的列表信息。

图8
图7

图7
图8

图9
图9

3. COCA语料库使用实例介绍

COCA的基本操作就了解到这。下面笔者就跟大家分享一些COCA具体使用的实例。

3.1 词频检索

这是语料库最基本的检索功能。词频检索能够告诉我们一个单词是否常用以及在哪种语体(口语、书面语、学术用语)中比较常用。

3.2 多词词频对比检索

在所检索的单词之间加上斜线号“/”或者是竖线“|”,如“beautiful/wonderful/fantastic”(引号内没有空格),得到的检索结果分别是这三个单词出现的词频列表。

3.2 搭配检索

与词频检索类似,通过搭配检索我们能够知道一组搭配否合适以及适用于哪种语体;比如上文提到的“pie chart”与“illustrate”这个搭配在整个语料库里出现次数是0,说明这个搭配虽然语法语义都通,但并不是很“地道”(idiomatic)。

在搭配词前加上一个减号“-”,意思是检索词不与该搭配词搭配。如“pie chart -illustrate”检索条件的意思是:“pie chart”后面搭配任意一个不是“illustrate”的单词。

3.3 近义词检索

COCA录入的语料事先进行过同义词标注,这也是COCA语料库相比其他语料库的一大特色。其检索方式是在检索词外加上“[=]”。比如在WORD(S)栏输入“[=beautiful]”,检索将得到beautiful, wonderful, attractive, striking, lovely, handsome等18个同、近义词。

3.4 近义词搭配检索

利用同义词检索和搭配检索的组合检索方式,我们能能够对近义词的使用进行辨析。比如输入检索词“life”,而在搭配词处输入“[=beautiful]”,上下文分别设定为1和0;检索发现能和“life”搭配的“beautiful”的近义词只有7个,其中wonderful life频率最高,其次是beautiful life,剩下的lovely, magnificent, delightful, exquisite和attractive与life的搭配在整个语料库中出现的频率都只是个位数,说明极少使用。

3.5 限定词性(POS)的单词检索

上文提到了词性列表(POSLIST)功能,比如“interest [v*]”可以检索“interest”和任意动词搭配的情况。如果在“interest”和“[v*]”之间加一个句号“.”,即“interest.[v*]”(引号内没有空格),那么该检索条件变成了“检索interest作为动词在语料库中出现的情况”。

3.6 Lemma检索

Lemma检索指的是查找检索词的所有变化形式,检索方式是在检索词外加“[]”。比如检索“[be]”相当于同时检索am, is, are, was, were, being, been出现的所有次数。

3.7 单词模糊检索

COCA支持通配符(wildcard)模糊检索。这里只介绍两个最常用的通配符。“*”星号符代表任意数量(包括0)的字符(包括标点和空格);“?”问号代表任意一个字符。比如我们要查找任何以ly结尾的词,只需要检索“*ly”就能得到相应的词汇列表。如果要查找任何以ly结尾的形容词,则输入“*ly.[j*]”。

3.8 组合模糊检索

将上面提到的各种检索方式灵活组合,COCA将会变得几乎无所不能!下面是一些常用检索组合:

WORD(S)组合检索实例说明

WORD(S)

检索命令含义

love

查单词“love”出现频率

love you

查“love you”搭配出现频率

love -you

查“love”后面跟一个不是“you”的词的搭配

love *

查“love”与任意一个词的搭配

love [n*]

查“love”与任意一个名词的搭配

love.[n*]

查“love”作为名词的出现频率

love –[n*]

查“love”后面跟一个不是名词的单词的搭配

[love]

查“love”的所有词形变体的词频

[=love]

查“love”的所有近义词

[=love].[n*]

查“love”所有近义词的名词

love/like/fancy.[v*]

查love、like和作为名词的fancy分别的词频

*love*

查以任意数量字母开头,中间是“love”,以任意数量结尾的单词

l?v*

查以“l”开头,以“v”+任意数量字母结尾,中间是任意一个字母的单词

un*ed

查所有以“un”开头,以“ed”结尾的任意单词

dis*.[v?d]

查任意以“dis”开头的动词过去式

dis* [v?d]

查任意以“dis”开头的单词,后面搭配一个动词过去式

*ly.[r*] *ly.[j*]

查任意一个以“ly”结尾的副词修饰后面一个以“ly”结尾的形容词

[xx] * without

查任意一个否定词+任意一个单词+“without”的结构

It is [j*] that

查“it is”+任意一个形容词+“that”的句型

[v*] * into [v?g]

查任意一个动词+任意一个单词+“into”+“v-ing”的结构

[=clean].[v*] the [n*]

查“clean”所有近义词中的动词+“the”+任意一个名词的结构

4. COCA语料库在雅思备考中的使用建议

由于COCA语料库不提供音频文件(所有大型英语母语语料库基本都不提供音频),因此本语料库对听力帮助不大。

4.1 阅读备考

对于阅读备考来说,首先该语料库提供大量的原始语料,尤其是学术文章(ACADEMIC)子库提供了大量的阅读文本作为辅助阅读练习。其次,如果在阅读时遇到生词也可以用COCA检索该生词,尝试在该生词其他语境上下文中推断生词词义。该练习可以提高上下文猜词的能力。另外,利用近义词检索通配符模糊检索和搭配检索,考生可以自己建立分类词汇表,提高消极词汇记忆的速度和记忆效果。

4.2 口语和写作备考

COCA语料库对口语和写作的帮助最为显著。

4.2.1

与阅读相同,利用近义词检索通配符模糊检索和搭配检索,考生可以自己建立分类词汇表,提高积极词汇记忆的速度和记忆效果。

4.2.2

搭配检索和句型结构检索能够告诉学习者某搭配是否错误或不地道,以及是否适用于口语/书面语的语体。很多考生花了很多时间背了很多“高分”词汇,在考试中费了九牛二虎之力总算是用出来了,结果因为搭配或语体不合适,并不能得到加分,实在是得不偿失。而市面上很多辅导书里面提供的“高分词汇”和“模板句型”大部分都有不地道或语体不符的问题,烤鸭们在上面浪费了太多宝贵时间和精力。

比如通过检索我们会发现有很多辅导书推荐学生在口语中使用的“高级”话语标记词(Discourse Marker)如moreover, nonetheless, acase in point is…, hence等等其实都不适合在口语中使用,而大家写作中喜欢用的“lastbut not least”则并不适合在书面语中使用。

4.2.3

例句语境检索能够提供大量的口语或书面语文本,帮助我们收集口语和写作的原始语料。

比如有这样一个写作题:

Some people thinkthat community service should be included as a compulsory program in schools. Towhat extent do you agree or disagree?

有些考生拿到题后不知道要如何论证,OK,那我们来看美国人是怎么看这个问题的。在字符串检索处输入“compulsorycommunity service”,点击查询后得到一条检索信息。点击该检索信息,在例句语境显示区会显示该检索结果的语料来源及原始文本。(见图10)

图10
图10

继续点击例句语境显示区的检索信息,我们能找到详细的原始语料片段。(见图11)

图11
图11

如果想要进一步阅读全文, 用Google搜索就可以轻松查找。

“compulsorycommunity service”这个话题COCA语料库里只有这一条搜索结果,信息量比较有限——但是,COCA的界面提供了跨语料库搜索。在检索界面右上角有跨语料库检索选项。点击下拉菜单就可以实现同操作界面下的跨语料库搜索。(见图12)

图12
图12

比如在“全球在线英语语料库”(GLOWBE)中,“compulsory community service”共出现了6次,照上述方法同样也可以查找到原始语料文本。(见图13)

图13
图13

4.2.4

高级学习者可以将自己的写作练习和口语录音文本与同话题的英语母语语料库进行用词习惯、语法结构使用习惯、甚至观点上的对比分析,逐步拉近与英语母语使用者的语用习惯的距离。限于篇幅这个部分笔者就不再赘述了,部分内容可参看笔者另一篇文章《雅思口语语料库的建立、研究及在教学中的应用》(http://nc.xdf.cn/ielts/kouyu/201402/218076641.html)。

【结语】

COCA及其他大型语料库为广大中、高级语言学习者提供了强大的数据支持。在语料库的帮助下我们能够方便的检索和辨析字词、表达和句子结构,提高语言学习的规范性、准确性及效率,避免受各种不靠谱的“语感”或猜测的误导,改正自己的错误语用习惯,真正的提高英语的认知、熟记和灵活运用的能力。而语言能力的实质飞跃,才是雅思提分的根本。语料库的用处还有很多,本文的作用旨在抛砖引玉,希望所有的考生都能从这个强大的免费工具中受益,冲击雅思高分!

祁梦真 本文来源:网易教育频道专稿 责任编辑:王晓易_NE0011
分享到:
跟贴0
参与0
发贴
为您推荐
  • 推荐
  • 娱乐
  • 体育
  • 财经
  • 时尚
  • 科技
  • 军事
  • 汽车
+ 加载更多新闻
×

打造“婴儿肌”逆龄10岁超简单

澳门高等教育局:应届毕业生不因疫情影响延

态度原创

热点新闻

阅读下一篇

返回网易首页 返回教育首页