自分で収集した発話部品候補外語文を対訳形式にまとめる方法について。
⇨ 練習PAD
発話部品演習 Front でパーツを選ばず、自前の対訳型テキストを使うことができます。
対訳テキスト
常用性の高い例文集をWebサイトから見つけ、対訳テキストに加工します。
例文集を加工して「外語文 + tab + 対訳」形式に一文一行で区切ります(順方向型)。
テキストの形式(タイトル、見出し、本文、対訳)
見出し1 ※tab で区切られない行は見出し扱い
英語文 tab 母語文
英語文 tab 母語文
見出し2
英語文 tab 母語文
英語文 tab 母語文
ファイル名
末尾二文字は言語ペアを表すローマ字を指定。例:my_phrases_ej.txt
練習PADに指定された対象言語とこの言語ペアとでテキスト表示がきまる(左or右)。
順表示と逆表示
人気のある「瞬間英作文」は「対訳文 + tab + 外語文」形式です(逆方向型)。
練習PAD はどのデータ型でも読み込みます。元データの形式をファイル名から判定します。
練習PAD 自体が順表示型と逆表示型の二種類あり、元データの方向に拘らず表示します。
加工手段
データ自体を見つけても加工手段がなければ利用可能範囲は限定的です。
テキストの加工手段が用意できれば利用可能な対訳データの幅が一気に広がります。
①テキストエディタ
正規表現が使えるテキストエディタで一括置換をする。
何段階も別々の置換をするので、データファイルの数が増えると面倒です。
②awk, sed
まず取得したデータにテキストエディタで最低限の整形をしてファイル保存(一次加工)。
そのデータに対し awk, sed コマンドで複数段階の一括置換をした結果を別ファイル出力。
一次加工では、例えば奇数行に外語文、偶数行に対訳文を配置すれば一文一行に一括変換できる。
⇨ テキスト加工2