|
語料庫(Sinica Corpus)系統簡介
「中央研究院平衡語料庫」是專門針對語言分析而設計的,每個文句都依詞
斷開,並標示詞類。語料的蒐集也盡量做到平衡分配在不同的主題和語式上
,是現代漢語無窮多的語句中一個代表性的樣本。 | 這個語料庫是由中央研究院詞庫小組完成的。該小組由陳克健(資訊所)、黃 居仁(史語所)兩位研究員主持,自一九九零年前後便開始致力於漢語語料的 蒐集。於一九九一年得蔣經國基金會補助,開始構建語料庫;並於一九九四 年分別得到中央研究院「中文資訊」跨所研究群專案計畫及國科會計畫補助 ,正式開始進行語料標記。一九九五年七月完成第一版(兩百萬詞),同年十 二月開放telnet版,並於一九九六年十一月開放WWW供各界使用。 如欲更進一步了解語料庫的內容,請參考中央研究院詞庫小組所編技術報告 第95-2號「中央研究院平衡語料庫的內容與說明」。技術報告的取得及其它 參考資料查詢請參考
|