並行テキスト
世の中には同じ内容を複数の言語で表すテキストデータがある。
各種テキストが各国のサイトで入手可能。いわば現代版、電子版ロゼッタ石。
並行テキストの条件
映画字幕、格言・金言、ニュースなどの多言語サイトがある。
二言語が左右に配置された対訳と区別して並行テキストと呼ぶことにする。
並行テキストは言語ごとに別ファイルにする(対訳に成っていない)。
中でも字幕データは手ごろな特性を持つ並行テキストだ。
お手軽第一
教材として使うには電子化された並行テキスト、対訳テキストなら何でもよい。
紙の教材をスキャナで取り込んでOCRで電子化して校正してなどとやるのは得策でない。
入力の手間がかかるのは不可、スタートの手軽さが大事。
映画字幕
字幕データの場合、もともとDVDの字幕画像からOCR変換して作成される。
その過程で誤植(誤変換)が含まれる場合があり品質にばらつきがある。
字幕フォーマットはいくつかある。字幕アップロード/ダウンロードサイトが海外にある。
メリット
- 意味不明の場合に他言語により意味が確定する。
- 逆変換する際の対訳に転用できる。
- 練習対象にも対訳にもなる(多言語の選択肢)