以下は、小説家が書いたエッセイである。
 どうやって日本語のコーパスを作ったかというと、まず、日本語で書かれた国内の出版物をたくさん集める。出版数で考えると、「社会科学」に分類される出版物が一番多いのだそうだ。よって、実際の比率(41)、「社会科学分野の出版物あんばい が一番多くなるように」と、ちゃんと塩梅(注1)して集める。ただ、出版数ではなく流通数で考えると、文学関連が一番多くなる。そういった要素も加味する。
 つまり、どんな出版物がどれぐらい作られているのか、我々がどんな出版物をよく読んでいるのか、実際の傾向や動向に基づいて、とにかく本や雑誌や新聞や白書(注2)や教科書を集めまくる。そうして集めた出版物から、抜粋(注3)する文章をランダムに選び、スキャンしてデータ化する。そのデータの集積が、コーパスと(42)。
 コーパスがあると、とっても便利。たとえば、「『医者』と『医師』が、どう使いわけられているのか知りたいな」と思ったら、コーパスを検索すればいい。その二つの言葉が実際にどう使われているのか、パパッと表示される。(43)、書籍では「医者」より「医師」を使うことが多く、新聞では圧倒的に「医師」が多いらちえぶくろ しい。コーパスは、「Yahoo!ブログ」と「Yahoo!知恵袋」での日本語の使われかたも収集していて、「ネット上では『医者』を使うひとが多い」ということもわかるようになっている。
 じゃあ、「解約」と「キャンセル」をどう使いわけているかというと、ネット上では
「キャンセル」が、新聞や広報誌や教科書では「解約」が、それぞれ圧倒的に多い。
 ふむふむ、いずれも実感として、非常に納得のいく検索結果だ。我々は、真面目な局面(注4)だったり、「公な感じ」が強かったりする場合、「医師」や「解約」という言葉を選んで使い、くだけた場や日常的な文章表現においては、「医者」や「キャンセル」という言葉を選んで (44)。
 このように、コーパスがあると、「どんな言葉を、どんな場面で実際に使っているのか」が一目瞭然(注5)になる。我々が、「ある言葉に、どんなニュアンスをこめているのかがわかる」とも (45)。

(三浦しをん『広辞苑をつくるひと』岩波書店による)


(注1) 塩梅: ほどよい具合・加減
(注2) 白書: 政府が発表する報告書
(注3) 抜粋する: 書物などから必要なところを抜き出す
(注4) 局面: そのときの状況・状態
(注5) 一目瞭然:一目見てはっきりわかること

1。 (41)

2。 (42)

3。 (43)

4。 (44)

5。 (45)