普通人也能用的9个语料库网站,做研究学

公益中国爱心救助定点医院 https://m-mip.39.net/czk/mipso_6169886.html

提到语料库,许多人脑中表现出如此的画面——

或许如此的——

但本来,语料库可所以咱们做(说话)研讨、学外语的好帮忙。譬喻,你能够在某些语料库查到最纯粹的英语表白,也能够听到天下各地的英语口音。

此日就为众人讲解9个语料库网站——

1.说话布局天下舆图集

WordAtlasofLanguageStructure

懂得阿伯卡茨语有几许元音和子音?波罗罗语的词缀有几种样式?恰卡通戈米斯特克语有几种调子?

想回复这些题目?

你须要的不过上岸这个名为TheWorldAtlasofLanguageStructuresOnline(说话布局天下舆图册,简称WALS)的网站

这边有各样说话散布的详细舆图,有对于天下上多种说话个说话学特色的详细纪录,特别恰当说话兴趣者。

嗯,妈妈再也不必担忧我被多语狂魔们气力讥刺了,随意选出一个说话明白一下,足以技惊四座!

详细的行使指南以及更多出色体例,午饭早已备好,我不会这门说话,但我能够查到对于它的全部

说话学午饭

2.说话口音档案馆

theSpeechAccentArchive

众人学英语这么多年,根本上属于南征北战了,哪个场合的英语口音没听过,甚么纯朴伦敦音,印度咖喱腔,苏格兰懵逼腔,布鲁克林陌头腔,那是如数家珍。

不过,你听过刚果金非洲小哥的英语口语嘛?你明白玻利维亚大妈的英语口音嘛?喏,这个名为theSpeechAccentArchive的网站绝对能够餍足诸君英语语音控的好奇祈望。

该数据库收集了几百名来自天下各地,不同民族说话配景的人们针对统一段文字的灌音质料,每段灌音都详细纪录了音频供应者的详细配景质料,每段语音也很详细的举行了转写。

对于研讨者来讲,可视之为研讨英语行使者发音特色的独门利器;对平常人来讲,则是一个明白各地英语口音的可贵窗口。

3.今世美国英语语料库

COCA

想懂得某个单词在信息和小说中的行使有甚么差别?英文写稿的光阴想懂得本身写出来的英语搭配够不敷纯粹?想懂得背下几许单词就能够流畅浏览各样小说报纸?

嗯,你须要的不过一个语料容量庞大的英语语料库,COCA正巧能够餍足你的这些须要。

今世美国英语语料库(CorpusofContemporaryAmericanEnglish,简称COCA)是现在最大的免费英语语料库。

语料库由包罗4.5亿词的文本形成,文天职为口语、小说、风行杂志、报纸以及学术文章五种不同的体裁。单词,短语,搭配,想搜甚么搜甚么,充实的英语语料很恰当英语进修者明白纯粹表白。

再一份详细行使指南倾情送上,走近COCA,在线语料库的俊彦

说话学午饭(注:现在COCA界面和该文章写成时稍有收支,但紧要职掌过程仍值得参考)。

4.童子语音语料库

CHILDS

午饭君曾经有过这么一个主意,未来假设胜利进级为孩儿他爸,肯定要把本身儿童学讲话的过程举行灌音,而后放心保管,管教,解析,说未必能够探索出说话习得的玄妙,而后提议理论,一战封神,著书立说,设馆招徒,麾下天启四骑士,再而后成为顶级公知(喂喂喂!快醒醒!你个独身狗!)

不过话说归来,本质纪录童子说话这个主意早就有学者付诸理论了,他们还设立了一个范围硕大的童子语音语料库CHILDES(ChildLanguageDataExchangeSystem)。

童子说话数据相易系统是在童子说话研讨关联范围被最普及行使的语料库,设立于上世纪八十岁月,涵盖了多门说话中童子习得者的语音纪录。依据学者统计,截止年,已充裕项基于该语料库的研讨成效发布(MacWhinney)。

在这边,你能够找到童子说话习得过程的详细音频文献和转写文本,波及的说话囊括英语,德语,法语,日语,汉语,广东话等等。错过了纪录本身牙牙学语的轨迹,大概这个数据库是一个不错的补救技能。

嗯,这个也有行使指南:一款超等强壮的童子语音语料库

说话学午饭

5.说话学数据同盟

LinguisticDataConsortium

前未几AlphaGo搜罗棋坛,人为智能再显神威;提到说话学中的人为智能,众人第一反响大概会是苹果的语音副手Siri。

不过诸君有没有想过假设你有充裕的数据质料,辅以恰当的算法,做一集体工智能说话系统兴许并不是那末艰难,这不,LinguisticDataConsortium就为你供应了这类大概。

这个上世纪90岁月初由宾夕法尼亚尼亚大学倡导的数据同享平台,现在曾经过上百所大学加盟,涵盖几百种说话数据,包罗英语,法语,西班牙语,汉语等十多种说话。

Siri之因而能够奇特的听懂行使者的夂箢,很大水平上获利于其面前强壮的语音数据库,而LDC的强壮之处就在于它供应了大批的语音资本,口语对话,信息播送,电话对话等等。唯独有些悲伤的是,这个数据库并不是免费的,不过也别丧气,假设你有惊人的idea能够试验请求一下LDC供应的研讨赞美金,如此就能够持续完成你的说话智能空想了。

说了这么多,就差一个程序员了...

6.北大败语汉语语料库

CCLandBCC

刚才说了许多英语数据库,咱们再来聊聊汉语语料库。

汉语语料库里有两个不得不说,一个是老牌劲旅,北京大学汉语语料库(CCL);一个是后起之秀,北京说话大学汉语语料库(BCC)。

两个语料库各有所长,各有特性,小编也不敢妄下评估,不过有一点是雷同的,那便是两个语料库用来做汉语研讨和平日搜寻(譬喻教番邦人汉语时找例句)都相当不错。

北京大学汉语语料库是汉语研讨中最紧要的说话案例起因,每当行使的光阴,均能够夸耀的说出本身行使的是大师同款语料库,其语料编排恰当,选取详细,搜寻便利,这些长处都使得其广为说话学众所喜欢。北语汉语语料库则占有更普遍据搜寻功用,比如能够观察搜寻词的用时词频改变,高足做文语料等等,语料容量更是到达了惊人的bilion级。

除了上述这些除外,说话学数据库再有许多许多,譬喻一些强壮的业余性语料库,双语平行语料库,多模态语料库,依存树库等等。

在文末午饭君再为诸君附上两个供应语料库索引功用的网站:




转载请注明:http://www.aierlanlan.com/grrz/965.html