以下は、小説家が書いたエッセイである。
どうやって日本語のコーパスを作ったかというと、まず、日本語で書かれた国内の出版物をたくさん集める。出版数で考えると、「社会科学」に分類される出版物が一番多いのだそうだ。よって、実際の比率(41)、「社会科学分野の出版物あんばい が一番多くなるように」と、ちゃんと塩梅
(注1)して集める。ただ、出版数ではなく流通数で考えると、文学関連が一番多くなる。そういった要素も加味する。
つまり、どんな出版物がどれぐらい作られているのか、我々がどんな出版物をよく読んでいるのか、実際の傾向や動向に基づいて、とにかく本や雑誌や新聞や白書
(注2)や教科書を集めまくる。そうして集めた出版物から、抜粋
(注3)する文章をランダムに選び、スキャンしてデータ化する。そのデータの集積が、コーパスと(42)。
コーパスがあると、とっても便利。たとえば、「『医者』と『医師』が、どう使いわけられているのか知りたいな」と思ったら、コーパスを検索すればいい。その二つの言葉が実際にどう使われているのか、パパッと表示される。(43)、書籍では「医者」より「医師」を使うことが多く、新聞では圧倒的に「医師」が多いらちえぶくろ しい。コーパスは、「Yahoo!ブログ」と「Yahoo!知恵袋」での日本語の使われかたも収集していて、「ネット上では『医者』を使うひとが多い」ということもわかるようになっている。
じゃあ、「解約」と「キャンセル」をどう使いわけているかというと、ネット上では
「キャンセル」が、新聞や広報誌や教科書では「解約」が、それぞれ圧倒的に多い。
ふむふむ、いずれも実感として、非常に納得のいく検索結果だ。我々は、真面目な局面
(注4)だったり、「公な感じ」が強かったりする場合、「医師」や「解約」という言葉を選んで使い、くだけた場や日常的な文章表現においては、「医者」や「キャンセル」という言葉を選んで (44)。
このように、コーパスがあると、「どんな言葉を、どんな場面で実際に使っているのか」が一目瞭然
(注5)になる。我々が、「ある言葉に、どんなニュアンスをこめているのかがわかる」とも (45)。
(三浦しをん『広辞苑をつくるひと』岩波書店による)
(注1) 塩梅: ほどよい具合・加減
(注2) 白書: 政府が発表する報告書
(注3) 抜粋する: 書物などから必要なところを抜き出す
(注4) 局面: そのときの状況・状態
(注5) 一目瞭然:一目見てはっきりわかること