4 ứng dụng hữu ích của Regular Expression trong Trados

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Regex là từ viết tắt cho thuật ngữ tiếng Anh Regular Expression – biểu thức chính quy. Trong phần mềm SDL Trados Studio, regex có thể được sử dụng để lọc những segment có chứa một regex nhất định, tìm nội dung có chứa regex, thiết lập cài đặt rà soát bản dịch, tạo thêm quy tắc ngắt segment mới cho TM và tìm kiếm nâng cao với regex.

Thay thế dấu tab và xuống dòng

Với regex, dấu tab và dấu xuống dòng (new line hay soft return) được biểu thị như sau:

\n: xuống dòng (shift+Enter)

\t: tab

Ví dụ, để lọc ra những segment có chứa dấu xuống dòng, đầu tiên, ta cần vào công cụ tìm kiếm. Có 3 cách sử dụng công cụ tìm kiếm và lọc trong Trados.

  • Ô search trong thẻ Review (1)
  • Công cụ Advanced Display Filter trong thẻ View (2)
  • Ctrl + F hoặc Ctrl + H (3)

Sau đó, chọn tìm kiếm trong bản gốc (Source) hay trong bản dịch (Target). Nhập các ký tự biểu hiện cho dấu xuống dòng vào ô tìm kiếm và enter.

Lưu ý: Tùy chọn sử dụng Regex được chọn sẵn cho ô tìm kiếm trong thẻ Review. Với 2 cách còn lại, cần tích chọn thủ công.

Cách 1 (mặc định)

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Cách 2 (tích chọn)

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Cách 3 (tích chọn)

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Thiết lập cài đặt Verification

Công cụ kiểm tra bản dịch Verification của Trados cho phép sử dụng cả regex để tìm ra các lỗi tiềm ẩn. Ví dụ, ta có thể đặt ra quy tắc để Trados kiểm tra xem bản dịch có các dấu xuống dòng tương ứng như bản gốc không.

Đầu tiên, vào phần cài đặt bằng cách chọn Project Settings > Verification > QA Checker 3.0 > Regular Expressions.

Tích chọn ô Search regular expressions. Ở ô mô tả, nhập tên cho quy tắc kiểm tra. Tiếp đến, nhập regex cần kiểm tra trong ô sourcetarget tương ứng. Cuối cùng, chọn hành động trong ô Condition (chẳng hạn, báo cáo nếu target không có regex giống như source).

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Như vậy, khi chạy bước kiểm tra bằng công cụ Verification, Trados sẽ báo nếu có bất kỳ segment nào bản dịch không giống regex với bản gốc.

Thêm quy tắc ngắt segment mới cho TM

Theo mặc định, Trados sẽ ngắt câu theo các dấu ngắt dòng thông thường như dấu chấm “.”, dấu hai chấm “:”. Tuy nhiên, ta có thể tùy chọn để Trados ngắt câu theo ký tự regex chỉ định, chẳng hạn, ký tự xuống dòng (\n).

Để thực hiện, vào cài đặt của TM trong dự án (Project Settings > [Language Pairs > All Language Pairs > Translation Memory and Automated Translation] > Settings). Trong dự án mặc định, khi chọn Project Settings, cửa sổ “Translation Memory and Automated Translation” sẽ tự hiện ra.

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Tiếp theo, chọn Language Resources > Segmentation Rules

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Chọn Add để bổ sung quy tắc ngắt segment.

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Trong cột Before break, nhập regex để quy ước ngắt segment, ô tích chọn Regular Expression sẽ chỉ khả dụng sau khi nhập vào một regex thủ công.

4-Ung-dung-huu-ich-cua-Regular-Expression-trong-Trados

Ấn OK để lưu tùy chọn. Sau đó add lại file để được kết quả ngắt segment theo quy tắc mới.

Tìm kiếm nâng cao với regex

Ví dụ 1: Tìm các từ Anh – Anh như: behaviour, colour, humour.

Ta nhập lệnh như sau:

Find: (\w+)our [Diễn giải: các từ kết thúc bằng đuôi “our”]

Trong ví dụ trên, phần bên trái “our” ở trong ngoặc, biểu thị đây là một nhóm, trong nhóm này có thể là bất kỳ ký tự nào.

Ví dụ 2: Tìm tất cả các ngày ở tháng 10, 11 và 12 trong văn bản. Ví dụ: 20th November

Ta nhập lệnh như sau:

Find: (\d+th)(\s)(October|November|December)

Trong ví dụ này, chúng ta sử dụng một regex gồm 3 nhóm:

Nhóm 1: (\d+th) – một hay nhiều chữ số theo sau bởi “th” (ví dụ: 20th)

Nhóm 2: (\s) – dấu cách

Nhóm 3: (October|November|December) – Bất kỳ từ nào trong 3 từ

Ví dụ 3: Tìm kiếm các số theo định dạng. Ví dụ: 100,000.00

Find: \d+,\d+\.\d+

Trong ví dụ này, cụm “\d+” sẽ biểu thị một nhóm số bất kỳ. Cả chuỗi tìm kiếm trên sẽ được hiểu là [số],[số].[số]. Số trong ngoặc vuông có thể là một hay nhiều số. Như vậy, các số như 10,00.2 hay 15,231.562 sẽ hiển thị trong kết quả tìm kiếm.

Như vậy, khi kết hợp với regex, người dịch có nhiều lựa chọn hơn để xử lý file hoặc lọc segment theo ý muốn. Điều này sẽ giúp ích rất lớn cho công tác kiểm soát chất lượng bản dịch.