Ngày nay, trong số sáu động cơ thúc đẩy thay đổi được xác định trong khảo sát của chúng tôi, chỉ có một xu hướng là có khả năng sẽ tiếp tục gia tăng trong những năm tới: dữ liệu hóa. Dữ liệu là động cơ thúc đẩy mọi công nghệ vốn đang định hình lại cuộc sống của chúng ta cũng như các doanh nghiệp. Dữ liệu sẽ cung cấp xung lực cho cho giai đoạn phát triển tiếp theo trong trí tuệ nhân tạo thông qua học máy.
Đám mây ví như động cơ của bộ máy dữ liệu hóa. Đám mây là hạ tầng cần thiết cho việc phân phối và chia sẻ dữ liệu, cho các mạng thần kinh nhân tạo và học sâu, do khối lượng tài nguyên yêu cầu ở đây là hết sức lớn.
Dự đoán nào cũng cần dung sai lớn: nếu ước tính tốc độ chung của tiến bộ công nghệ luôn không chính xác, thì không sai khi nói rằng tiến bộ hiện đang ở mức nhanh hơn bao giờ hết, và đường cong mô tả tốc độ sẽ chỉ có dốc thêm. Để dễ hình dung: nếu như các nhà sản xuất xe hơi cũng sáng tạo như cách mà ngành CNTT đã làm, thì xe hơi ngày nay có thể chạy 100,000 dặm mới hết một gallon nhiên liệu (hơn 42,000km trên mỗi lít) và chỉ có giá thành 50 cent.
Sáu động cơ thúc đẩy thay đổi được xác định trong ngành dịch thuật, cần có trong các chiến lược hoạch định kinh doanh của bất kỳ bên liên quan nào, dù là ở phía tiêu thụ hay cung ứng của ngành là:
- Học máy
- Dịch máy
- Quản lý chất lượng
- Dữ liệu
- Khả năng tương tác
- Đào tạo nhân lực
1. Động lực thay đổi ngành dịch thuật – Học máy
Học máy (ML) được giới thiệu vào thập niên 1950 như một hạng mục của trí tuệ nhân tạo (AI) nhằm tạo ra các chương trình có thể tiếp nhận dữ liệu, nhận dạng các mẫu hình trong đó và từ đó suy ra lập luận.
Sự phong phú vô cùng của dữ liệu sẵn có ngày nay – nhờ vào phần cứng máy tính mạnh mẽ và giá thành rẻ hơn – đã đang thổi làn gió mới với vào các thuật toán cũ trong sự nảy nở đã đưa đến một loạt ứng dụng khả thi. Tuy nhiên, trong chúng ta ít ai có thể kể tên được ba ứng dụng của học máy ngoài xe tự lái và trợ lý bằng giọng nói được cài đặt trong điện thoại thông minh. Học sâu là một lĩnh vực của học máy, đề cập đến rất nhiều lớp mạng thần kinh nhân tạo cùng hoạt động và hưởng lợi từ sự phong phú tài nguyên điện toán trên đám mây. Phần lớn các thuật toán ML không liên quan gì đến các mạng thần kinh nhân tạo, và AI không thể nào khiến máy tính hoạt động như trong phim ảnh được. Chưa đến lúc thôi.
2016 là năm ML được biết đến rộng rãi, với hàng loạt ứng dụng gần như không thể tưởng tượng chỉ vài năm trước đó – nhận diện hình ảnh và xe tự lái chỉ là hai ví dụ trong số đó.
McKinsey đã đặt ML lên dốc đi xuống của chu trình kỳ vọng Gartner, trên điểm lùi nằm giữa đỉnh kỳ vọng bị thổi phồng và đáy của tan vỡ ảo tưởng. Điều này có nghĩa rằng ML vẫn sẽ có tác động to lớn lên hoạch địch chiến lược của mỗi tổ chức và vẫn hứa hẹn đem lại lợi thế cạnh tranh cao trong vòng năm tới mười năm nữa.
Sức mạnh điện toán và những bước tiến chưa từng có trong các mạng thần kinh nhân tạo sâu sẽ khiến các công nghệ dựa trên dữ liệu mang tính đột phá một cách đáng kinh ngạc. MT cũng có thể sẽ như thế. Thật vậy, SMT là một ứng dụng học máy, và đã đi đầu trong công nghệ ngôn ngữ suốt nhiều thập kỷ qua.
Trí tuệ nhân tạo sẽ đóng vai trò ngày càng lớn trong đời sống thường nhật thông qua tự động hóa: tác động tùy theo mỗi khu vực hay hoạt động sẽ rất khác nhau. Sự phát triển của trí tuệ nhân tạo đe dọa rất nhiều công việc của con người do con người sẽ bị thay thế bởi các hệ thống thông minh. Tuy sẽ thay thế hoàn toàn rất ít ngành nghề trong thập kỷ tới, nhưng trí tuệ nhân tạo sẽ ảnh hướng tới gần như bất kỳ công việc nào, nhiều hay ít tùy thuộc vào loại hình nhiệm vụ.
Một nghiên cứu của các nhà kinh tế học Carl Benedikt Frey và Michael A. Osborne thuộc đại học Oxford vào năm 2013 ước tính xác suất bị thay thế bởi điện toán hóa của 702 hạng mục công việc CỤ THỂ: 84% và 89% tương ứng đối với đọc soát và thiết lập tài liệu kỹ thuật. Nhà kinh tế học W. Brian Arthur ước tính vào năm 2014 rằng máy móc có thể thay thế 100 triệu việc làm Mỹ vào năm 2025. McKinsey, sau đó, ước tính rằng tự động hóa sẽ ảnh hưởng tới 45% các hoạt động được trả tiền, với 30% số hoạt động được tự động hóa trong số 60% toàn bộ các ngành nghề.
Các vị trí quản lý sẽ không bị ảnh hưởng, nhưng phần lớn công việc hỗ trợ sẽ có thể sẽ biến mất. Đa số các công việc sáng tạo sẽ tương đối an toàn trong khi các công việc bán hàng có thể sẽ bị đe dọa. Dự báo cũng không khả quan lắm đối với việc làm ngành công nghệ, vẫn là các vị trí cao cấp hơn sẽ tương đối an toàn, trong khi các lập trình viên máy tính và nhân viên hỗ trợ sẽ có thể bị thay thế.
Giả định rằng các công việc đòi hỏi khéo léo, sáng tạo và kỹ năng xã hội là những công việc khó điện toán hóa nhất đã không còn đúng: các tiến bộ mới trong học sâu đang khiến máy móc trở nên đắc lực hơn dự báo trước đó, đặc biệt trong các lĩnh vực liên quan tới sáng tạo và tương tác xã hội. Tuy vậy, mặc dù khả thi về kỹ thuật là một điều kiện cần cho tự động hóa, đây chưa thể là điều kiện đủ; chi phí nhân công và hạ tầng CNTT là hai nhân tố chính cho tự động hóa, đồng nghĩa với việc tự động hóa chưa thể diễn ra một khi lực lượng lao động vẫn còn dồi dào và có chi phí tương đối thấp.
Ví dụ như, gần 1/5 thời gian hiện tại tại nơi làm việc ở Mỹ được dành cho việc thực hiện các hành động cụ thể trong các bối cảnh quen thuộc, nơi dự báo các thay đổi là tương đối dễ dàng, tức là công việc thực có thể dự đoán. Các hoạt động khó tự động hóa nhất với các công nghệ hiện có là các công việc có liên quan tới việc quản lý và phát triển nhân lực (9% tiềm năng tự động hóa) hoặc cần áp dụng chuyên môn trong quá trình ra quyết định, hoạch định hoặc các quy trình công việc sáng tạo (18%).
Kết thúc thế kỷ 19 và bước vào thế kỷ 20 khi động cơ điện bắt đầu thay thế cho động cơ hơi nước trong các công xưởng dệt may, chỉ có sự gia tăng năng suất nhỏ được tạo ra. Trong thế kỷ này, một trong những đột phát công nghệ lớn nhất – và được kỳ vọng nhất – sẽ xảy đến nếu (hoặc khi) máy móc sẽ có được khả năng am hiểu ngôn ngữ tự nhiên giống với con người. Máy tính với khả năng nhận diện các khái niệm trong giao tiếp thường ngày có thể gia tăng tiềm năng kỹ thuật cho tự động hóa thời gian lao động trong ngành bán lẻ từ 53% lên 60%, trong ngành tài chính, bảo hiểm và chắm sóc sức khỏe từ 43% lên 66%.
Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ vào năm 2013 đã cấp phép cho một máy kê thuốc an thần cho bệnh nhân mà không cần đến bác sỹ gây mê. Một lĩnh vực đang nổi lên trong kỹ thuật hình ảnh y học là chẩn đoán bằng máy tính: một nghiên cứu gần đây được công bố bởi Hiệp hội Hoàng gia Anh cho thấy máy tính hoạt động chính xác (gần gấp 10 lần) so với các chuyên gia con người trong việc xác định độ phóng xạ (tức là sự xuất hiện của hình ảnh tối).
W. Brian Arthur gọi lĩnh vực kinh tế nơi máy tính chỉ giao dịch với máy tính là “Nền kinh tế Thứ hai”. Nền Kinh tế Thứ hai này đang tác động trực tiếp lên chúng ta, với đầy những doanh nhân lạc quan, đã và đang tạo ra một thế hệ tỷ phú mới, và có thể sẽ là động cơ chủ yếu thúc đẩy tăng trưởng kinh tế trong những thập kỷ tới. Arthur cũng phỏng đoán rằng vào năm 2025, nền Kinh tế Thứ hai sẽ đạt quy mô tương đương với quy mô của nền kinh tế thứ nhất vào năm 1995. Nếu đạt được mức tăng trưởng đó, nền kinh tế này sẽ thay thế công việc của xấp xỉ 100 triệu nhân công (lực lượng lao động dân sự hiện tại ở Mỹ gồm 146 triệu nhân công).
Trong ngành dịch thuật – cũng như trong các ngành khác – rất nhiều chức năng sẽ bị ảnh hưởng bởi ML – dù là được tăng cường, mở rộng hay bị thay thế.
2. Động lực thay đổi ngành dịch thuật- Dịch máy
Con người gia tăng giá trị bằng cách nào? Chuỗi dài những sự đoán sai lầm về máy tính đồng nghĩa với việc chúng ta hiện đang xem xét chúng một cách gần như sai lầm. Lối tiếp cận theo cách tìm ra những công việc máy tính không bao giờ có thể làm là một cách sai lầm để xác định cách con người vẫn có thể còn giá trị.
SMT lần đầu được áp dụng vào cuối thập niên 1980 và đầu thập niên 1990. Trong những năm gần đây, SMT đã đóng góp vào sự quan tâm trở lại đáng kể đối với MT và việc thay đổi đáng kể trong nhận thức. Trước khi công cụ SMT trực tuyến của Google được phát hành vào năm 2007, những người hoài nghi tuyên bố rằng muốn có chất lượng MT xuất sắc phải đợi hàng thế kỷ nữa; năm năm sau, con số được rút ngắn xuống 200 năm; và vào đầu năm nay là 20 năm.
Giai đoạn một vài thành công như hiện tại đã có tiền lệ, và sẽ được theo sau bởi một loạt thất bại, khiến nhiều khách hàng thích nghi nhanh bỏ cuộc và hối thúc số khác hành động. Vấn đề nằm ở chỗ có quá nhiều người dùng đang mong đợi kết quả tức thời, đặc biệt khi kỳ vọng được thổi phồng một cách tinh vi, và họ chỉ đầu tư khi các nhà cung cấp có uy tín và sản phẩm có thể tin cậy. Điều đáng tiếc là phần lớn người dùng MT không có trong tay dữ liệu chính xác. Điều này là do phần lớn các nhà cung cấp dữ liệu vẫn muốn giữ và bảo vệ dữ liệu của mình, thứ được xem như tài sản cơ mật hơn là một sản phẩm để kinh doanh.
Trong nhũng năm qua NMT được cho là đang đạt được những kết quả ấn tượng, và ngày càng được quảng bá như một sự thay thế cho SMT. Tiến bộ trong các mạng thần kinh nhân tạo đang đem lại kì vọng vô cùng cao, cho thấy NMT có thể nhanh chóng đạt được mức độ chính xác cao hơn SMT. Các chuyên gia đánh giá độc lập nhận thấy rằng bản dịch NMT trôi chảy và chính xác hơn về mặt trật tự từ so với các bản dịch cho ra bởi các hệ thống dựa trên cụm từ. Các hệ này cũng đạt được độ chính xác cao hơn khi cần cho ra các dạng biến thể của từ. Tuy nhiên, NMT không thật sự xuất sắc khi dịch các câu rất dài. Các giải pháp được biết đến như mạng “attention” đang được áp dụng để khắc phục điều này.
Chất lượng MT tốt hơn sẽ đồng nghĩa với việc phạm vi các loại tài liệu và đối tượng có thể đáp ứng sẽ rộng hơn. Ví dụ, NMT đặc biệt thành công trong việc cải thiện mức độ dễ hiểu khi xử lý các nội dung mang tính thông tục hơn, chẳng hạn như văn bản tạo ra bởi người dùng, vốn ít mang tính “cấu trúc” hơn văn xuôi trang trọng. Điều này cho thấy NMT có thể được áp dụng hiệu quả trong các môi trường dịch thuật văn nói, do đầu vào văn nói thường có xu hướng giống nội dung tạo ra bởi người dùng hơn là các văn bản viết chuyên ngành. Điều này cũng chỉ ra rằng NMT có thể giúp cải thiện chất lượng trong việc dịch các bài giảng và các dạng diễn ngôn nói dạng thức dài khác.
Kết quả là, NMT sẽ giúp mở rộng thêm công nghệ speech-to-speech (SNS), nay mới chỉ có sẵn chủ yếu dưới dạng các hệ thống đơn ngữ dựa trên tiếng Anh. Chuyển đổi các hệ thống này sang các hệ thống song ngữ đòi hỏi rất nhiều thay đổi sâu rộng và tốn kém. Đa số các công nghệ S2S mới chỉ ở giai đoạn sơ khai và nằm trong các phòng thí nghiệm của trường đại học. NMT sẽ giúp đưa các thiết bị có sử dụng giọng nói tới người dùng phổ thông.
Do các doanh nghiệp dịch thuật từ lâu vẫn miễn cưỡng trong việc đầu tư vào công nghệ và sáng tạo, họ rất có thể sẽ đợi tới khi NMT được thương mại hóa mới ứng dụng để đẩy nhanh các quy trình và giảm thiểu chi phí. SMT sẽ chủ yếu và ngày càng được ứng dụng song song với biên tập đầu ra dịch máy. Quả thực, mặc cho những thay đổi về nhận thức, đa số bên tham gia ngành dịch thuật vẫn không cho rằng chất lượng đầu ra MT sẽ sớm đạt mức tương đương với bản dịch của con người.
Mô hình hoạt động của gần như toàn bộ các bên tham gia ngành dịch thuật cũng xưa cũ như chính ngành này, khiến cho biên độ lợi nhuận thực tế ngày càng suy giảm dù cho nhu cầu ngày càng tăng. Các khoản đầu tư để hiện thực hóa rất nhiều những lời hứa từ phía công nghệ rất tốn kém, và nhiều doanh nghiệp không có tiềm lực cần thiết. Do đó, MT sẽ đưa đến sự đột phá cuối cùng trong ngành dịch thuật khi chỉ còn phân khúc cao cấp nghệ thuật – và có thể là khoa học đời sống – có thể kinh doanh được.
3. Quản lý chất lượng
Cuộc đua vào vũ trụ đem đến vô số sáng tạo và thay đổi trong 50 năm qua, mở đường cho sự gia tăng theo cấp số nhân trong công nghệ. Gia tăng theo cấp số nhân là do kết quả của một giai đoạn được sử dụng để tạo ra giai đoạn tiếp theo. Thời khắc khi sự gia tăng này tác động tới văn minh con người đang ngày càng tới gần. Thời khắc ấy được gọi là “điểm kỳ dị”.
Điểm kỳ dị trong dịch thuật có thể sẽ còn xảy đến sớm hơn so với dự báo vào năm 2029 của Ray Kurzweil. Sau thời khắc đó, máy móc sẽ không còn phụ thuộc vào con người cho việc học, tự sở hữu các phương tiện để chính mình tự cải tiến. Mặc dù còn xa mới tới mức hoàn hảo, nhưng chất lượng đầu ra MT đã chấp nhận được trong nhiều trường hợp, và tiện lợi tới mức người dùng đang bắt đầu chấp nhận việc sử dụng luôn.
Đánh giá hiệu suất trong một chuỗi cung ứng và cấp độ kỹ năng trong một tổ chức là điều sống còn với bất cứ chiến lược sáng tạo và tự động hóa nào. Ấy vậy mà chất lượng dịch thuật vẫn là một ý niệm mơ hồ và dễ gây nhầm lẫn, và việc đánh giá chất lượng dịch thuật phần lớn dựa trên cảm tính. Vấn đề bất cân xứng về thông tin lại càng thêm ngăn cản việc đánh giá toàn diện, trọn gói việc dịch thuật, và cùng với sự gia tăng theo cấp nhân của các cặp ngôn ngữ và khối lượng dịch thuật, chất lượng đã trở thành một mối quan ngại lớn đối với khách hàng.
Do dự không chắc chắn vốn có sẵn trong việc đánh giá chất lượng dịch thuật, và tính cố định của các khái niệm có liên quan trong cộng đồng dịch thuật, người dùng hiện có vẻ sẵn sàng chấp nhận đầu ra dịch máy có chất lượng chấp nhận được, đặc biệt là với khối lượng dịch thuật lớn, có thể nhận được kết quả gần như tức thời. Ngay từ năm 2007, TAUS đã đưa ra khái niệm FAUT (Fully Automated Useful Translation – Bản dịch hữu ích hoàn toàn tự động hóa) cho đầu ra dịch máy có thể sử dụng mà không cần can thiệp hạ nguồn của con người.
Đầu tư vào các công cụ hỗ trợ ra quyết định trong lĩnh vực chất lượng đã trở nên thiết yếu để có được cái nhìn thấu đáo về dự án dịch và lợi ích từ MT. Với sự ngày càng sẵn có của các nền tảng ML ngày một tốt và rẻ hơn, tiềm năng của dữ liệu đang mở rộng sang cả đánh giá chất lượng dịch thuật. Các phương pháp phân tích đang được áp dụng cho dữ liệu dịch thuật để đánh giá hiệu quả của doanh nghiệp trong quá khứ và kết hợp với các bộ chỉ số phổ biến để đo lường. Nhưng khối lượng và chiều sâu của dữ liệu – tức dữ liệu dự án – đang gây ra một vấn đề nghiêm trọng. Dữ liệu dịch thuật nhỏ hơn nhiều so với dữ liệu ngôn ngữ: vòng đời của dữ liệu dịch thuật là hạn chế, và ở một thời điểm nào đó sẽ trở nên lỗi thời và không còn phù hợp.
Để minh họa: người khổng lồ về bán lẻ Walmart xử lý hơn một triệu giao dịch khách hàng mỗi giờ đồng hồ và sau đó nhập vào các cơ sở dữ liệu ước tính chứa hơn 2.5 petabyte dữ liệu. Trong khi đó, mười công ty dịch thuật lớn nhất xử lý xấp xỉ 3,8 tỷ từ mỗi năm (nếu quy ra byte thì chưa bằng một nửa của Walmart). Xét theo năm, con số này tương đương với khoảng 0.005% toàn bộ số từ xử lý bởi Google Dịch hay 1.6% số từ công cụ dịch máy của SDL xử lý theo tuyên bố của hãng này.
Áp dụng học máy vào quản lý chất lượng dịch thuật dựa trên dữ liệu sẽ là một sáng tạo đột phát, yêu cầu sự thay đổi lớn trong nhận thức và thái độ, từ lý thuyết tới mô tả, từ chuẩn tắc tới thực tiễn, từ chuẩn tắc tới thực tiễn, thông qua các mẫu thuộc tính cho từng kết hợp giữa loại hình nội dung và ngành công nghiệp.
Các ứng dụng dựa trên dữ liệu trong đánh giá chất lượng dịch thuật sẽ đi từ các trình phân loại tài liệu tới các công cụ chấm điểm văn phong; từ các công cụ so sánh tới các công cụ đánh giá chất lượng tự động và đoán trước được, từ lấy mẫu nội dung tới tự động nhận biết và nhận diện lỗi. Các tiếp cận dựa trên dữ liệu đối với vấn đề chất lượng sẽ yêu cầu thêm một thay đổi lớn nữa trong thái độ. Trước nay, các công ty dịch thuật thường không hiểu biết lắm về dữ liệu doanh nghiệp. Các công ty dịch thuật thường không muốn chia sẻ dữ liệu, ngay cả khi có cơ hội đem lại lợi nhuận rõ ràng, và thường có xu hướng thuê nhân viên có nghiệp vụ thích hợp, làm việc ngay được trong các vị trí thông thường. Cách tiếp cận dựa trên dữ liệu yêu cầu một tư duy khác, một tư duy thường được hình thành bên ngoài phạm vi các lĩnh vực tuyển dụng điển hình của ngành dịch thuật.