Giúp Google Translate học dịch tiếng Việt

Mọi người đọc xong, cố gắng giúp Google Translate/Google Brain học tiếng Việt nhé. Mỗi khi rảnh, chịu khó vào giúp “nó” học một tí tiếng Việt. Để sau này, nếu cần đọc tài liệu từ một thứ tiếng mình không biết (Hebrew, Aramaic, Hy Lạp, Latin, Đức, Nga, Nhật, Thổ ..) thì Google sẽ giúp ngược lại mình.

*

Cuối năm ngoái, tờ New York Times có đăng một bài rất dài về việc Google đã đưa AI (Trí tuệ nhân tạo) vào Googe Translate. Bài báo có tên rất hấp dẫn: The Great A.I. Awakening. Link bài báo ở đây.

Ngay đầu bài báo, tác giả đã làm một phát rất ấn tượng. Tác giả kể việc một giáo sư Nhật, ông Rekimoto, vào tháng 11 năm ngoái, đã thử dùng Google Translate để dịch một đoạn văn trong The Great Gatsby ra tiếng Nhật. Rồi so với hai bản dịch cuốn sách này ở Nhật: một bản của Takashi Nozaki năm 1957 và bản dịch của Haruki Murakami (bác này thì cực nổi ở VN rồi). Kết quả là bản dịch của Google tuy không được là “tiếng Nhật bóng bảy” như của Murakami, nhưng lại “rõ ràng hơn”.

Ông giáo sư này còn dịch một đoạn trong The snow of Kilimanjaro (Hemingway) ra tiếng Nhật, rồi nhập đoạn tiếng Nhật vào và bắt Google dịch ngược ra tiếng Anh. Rồi so sánh với bản gốc. Kết quả rất ấn tượng. Thậm chí 24 giờ sau, bản dịch tự nhiên tốt hơn nữa.

Bài báo tiếp tục, giới thiệu khái quát, nhưng cũng khá đầy đủ thông tin về trí tuệ nhân tạo (AI), học máy (machine learning), học sâu (deep learning), mạng nơ-ron (neural network) và cuối cùng là một phần rất dài về Language Machine.

***

Trong bài báo rất dài này, có một đoạn khá dài và ấn tượng về một người Việt tên là Quoc Le (bài báo còn nói rõ là gốc Huế).

Với tiếng Việt, Google Translate sử dụng trí tuệ nhân tạo mới được sử dụng từ tháng 3 vừa rồi. Thế mà nó đã học và dịch rất giỏi. Tôi đã dùng nó để dịch một đoạn trong cuốn Quantum Physics của Leonard Susskind. Kết quả tạm ổn, tôi chỉ phải sửa có 3 từ, mà nó đã trở nên khá tốt. Đoạn dịch ấy, tôi copy phía dưới bài này.

Tôi đã nhờ người giới thiệu với Quoc Le, để hỏi xem cộng đồng có giúp gì được cho Google Translate không. Dưới đây là đoạn email bạn tôi nói về Quoc Le, và nội dung email mà Quoc viết về giá trị mà sự giúp đỡ của cộng đồng có thể đem lại.

***

Đây là email giới thiệu về Quốc.

Hi anh 5xu,

Giới thiệu với anh anh Quốc là người mà anh nhắc đến trong email. Anh Quốc là một trong những khoa học gia hàng đầu thế giới về lĩnh vực trí tuệ nhân tạo và học máy. Ảnh cũng là một trong những cánh chim đầu đàn của Google Brain, đơn vị chịu trách nhiệm về trí tuệ nhân tạo cho Google. Nhưng quan trọng hơn hết anh Quốc là một hậu vệ thép trong đội bóng của tụi em 🙂

Còn đây là email của Quốc :

V việc giúp Google Translate tt hơn, theo em thì cng đồng có th giúp hai việc:

1. Tìm ra bug dch thut ca Google Translate và gi cho em database.

2. Tạo ra thêm dữ liệu cho dịch thuật. Thuật toán của Google Translate thật ra rất đơn giản, dựa trên một input sentence (ví dụ như câu tiếng Việt) và một output sentence (ví dụ như câu tiếng Anh). Dữ liệu hiện tại Google có được là dựa vào các trang web có hai phiên bản tiếng Việt và tiếng Anh. Nếu chúng ta có thêm dữ liệu như sách vở, báo chí, v.vv và tạo thêm được database thì tốt lắm.

Việc dịch thuật từ tiếng Việt ra tiếng các nước khác cũng là tâm huyết của em và cũng là lí do vì sao em nghiên cứu về mảng này. Nếu cộng đồng có thể giúp được hai việc trên thì em nghĩ sẽ rất hữu ích cho Google Translate và em cũng sẽ rất vui.

Đóng góp bằng cách sửa bản dịch, bằng “Suggest an edit” trực tiếp trên Google Translate cũng được.

Còn nếu cộng đồng muốn đóng góp cách khác thì có thể tạo ra một text file và có input -> output là được ngay. Em mới tạo một file đơn giản, giữa input và output có một tab, như dưới đây. Đây là cách nhanh nhất. Còn nếu cộng đồng muốn dùng google docs cũng được.

you’re funny   bạn thật hài hước

you’re cool       Bạn thật tuyệt vời

Your work is going to fill a large part of your life, and the only way to be truly satisfied is to do what you believe is great work. And the only way to do great work is to love what you do. If you haven’t found it yet, keep looking. Don’t settle. As with all matters of the heart, you’ll know when you find it.            Công việc của bạn sẽ lấp đầy một phần lớn cuộc sống của bạn, và cách duy nhất để thực sự hài lòng là làm những gì bạn tin là công việc tuyệt vời. Và cách duy nhất để làm việc tuyệt vời là yêu thích những gì bạn làm. Nếu bạn chưa tìm thấy, hãy tiếp tục tìm kiếm. Đừng ngừng lại. Cũng như tất cả những vấn đề của trái tim, bạn sẽ biết khi nào bạn tìm thấy nó.

***

Còn đây là Quantum Mechanics của Leonard Susskind do Google Translate dịch ra tiếng Việt:

Preface

Albert Einstein, who was in many ways the father of quantum mechanics, had a notorious love-hate relation with the subject. His debates with Niels Bohr – Bohr completely accepting of quantum mechanics and Einstein deeply skeptical – are famous in the history of science. It was generally accepted by most physicists  that Bohr won and Einstein lost. My own feeling, I think shared by growing number of physicists, is that this attitude does not do justice to Einstein’s views.

Both Bohr and Einstein were subtle men. Einstein tried so very hard to show that quantum mechanics was unconsistent; Bohr, however, was always able to counter his arguments. But in his final attack Einstein pointed to something so deep, so counterintuitive, so troubling, and yet so exciting, that at the beginning of the twenty-first century it has returned to fascinate theoretical physicists. Bohr’s only answer to Einstein’s last grear discovery – the discovery of entanglement – was to ignore it.


Lời nói đầu

Albert Einstein, người theo nhiều cách là cha đẻ của cơ học lượng tử, có quan hệ yêu-ghét nổi tiếng với chủ đề này. Các cuộc tranh luận của ông với Niels Bohr – Bohr hoàn toàn chấp nhận cơ học lượng tử và Einstein vô cùng hoài nghi – nổi tiếng trong lịch sử khoa học. Nó được chấp nhận rộng rãi bởi hầu hết các nhà vật lí mà Bohr được và Einstein thua. Cảm giác của riêng tôi, tôi nghĩ rằng chia sẻ bởi ngày càng tăng của các nhà vật lý, là thái độ này không làm công bằng với quan điểm của Einstein.

Cả Bohr và Einstein đều là những người tinh tế. Einstein đã cố gắng hết sức để cho thấy rằng cơ học lượng tử là không rõ ràng; Tuy nhiên, Bohr luôn luôn có thể phản đối các lập luận của mình. Tuy nhiên, trong cuộc tấn công cuối cùng của mình Einstein đã chỉ ra một cái gì đó sâu sắc, trái trực giác, quá gây phiền hà và thú vị, đến nỗi vào đầu thế kỷ 21 nó đã trở lại mê hoặc các nhà vật lý lý thuyết. Câu trả lời duy nhất của Bohr đối với khám phá mới nhất của Einstein – khám phá ra sự vướng mắc [lượng t] – là bỏ qua nó.

***

Brian Greene viết về Sisyphus của Albert Camus

Trong những trang đầu của cuốn sách The Fabric of the Cosmos, tác giả Brian Greene – một nhà vật lý lý thuyết, và là lý thuyết dây rất nổi tiếng – nhắc rất nhiều đến cuốn sách The Myth of Sisyphus (Huyền thoại Sisyphus) của Albert Camus. Bản tiếng Việt của cuốn sách này của Camus đã được NXB Trẻ xuất bản cách đây mấy năm (với tên Thần thoại Sisyphus, có lẽ dịch từ tiếng Pháp Le Mythe de Sisyphe).

Sách của Brian Greene bán khá chạy ở Mỹ. Cả hai cuốn The Elegant Universe và The Fabric of the Cosmos đều là National Bestseller. Cuốn The Elegant Universe còn lọt vào chung khảo giải Pulitzer. Cuốn The The Elegant Universe của Greene cũng đã được NXB Trẻ dịch và xuất bản từ khá lâu (tên tiếng Việt của cuốn sách này là: Giai điệu dây và bản giao hưởng của vũ trụ).

Dưới đây là một vài đoạn Greene nói về Sisyphus của Camus, một cuốn sách mà Greene nói là đọc khi còn ở tuổi teen. Bản dịch phía dưới là do Google Translate dịch (tôi có sửa qua loa vài từ, và sửa ngữ pháp một chỗ).

Brian Greene
The Fabric of the Cosmos

Chapter 1: Roads to Reality
Space, Time, and Why Things are as They are

“There is but one truly philosophical problem, and that is suicide,” the text begin. I winced. “Whether or not the world has three dimensions or the mind nine or twelve categories,” it continued, “come afterward”; such questions, the text explained, were part of the game humanity played, but they deserved attention only after the one true issue had been settled. The book was The Myth of Sisyphus and was written by the Algerian-born philosopher and Nobel laureate Albert Camus.

My chance encounter with Camus’s book must have occurred during an especially impressionable phase because, more than anything else I’d read, his words stayed with me.

Camus acknowledged value in understanding structure of the universe, but as far as I could tell, he rejected the possibility that such understanding could make any difference to our assessment of life’s worth.

I remain as convinced now as I did decades ago that Camus rightly chose life’s value as ultimate question, but the insights of modern physics have persuaded me that assessing life through lens of everyday experience is like gazing at a van Gogh through an empty Coke bottle.

Coming of Age in Space and Time

When I turned the last page of Albert Camus’ The Myth of Sisyphus many years ago, I was surprised by the text’s having achieved an overarching feeling of optimism. After all, a man condemned to pushing a rock up a hill with full knowledge that it will roll back down, requiring him to start pushing anew, is not the sort of story that you’d expect to have a happy ending.

Yet Camus found much hope in the ability of Sisyphus to exert free will, to press on against insurmountable obstacles, and to assert his choice to survive even when condemned to an absurd task within an indifferent universe. By relinquishing everything beyond immediate experience, and ceasing to search for any kind of deeper understanding or deeper meaning, Sisyphus, Camus argued, triumphs.

Brian Greene
The Fabric of the Cosmos

Chương 1: Con đường đến hiện thực

Không gian, Thời gian, và tại sao mọi thứ như chúng là

“Chỉ có một vấn đề triết học thực sự, và đó là tự tử,” lời văn bắt đầu. Tôi nhăn mặt. “Liệu thế giới có ba chiều không gian hay tâm trí được chia thành chín hay mười hai loại,” lời văn tiếp tục, “là những vấn đề đến sau”; Những câu hỏi như vậy, lời văn giải thích, là một phần của trò chơi mà nhân loại đã chơi, nhưng những câu hỏi này đáng được chú ý chỉ sau khi một chân vấn đề đã được giải quyết. Cuốn sách này là The Myth of Sisyphus được viết bởi nhà triết học sinh ra tại Algérie và đoạt giải Nobel Albert Camus.

Cơ may mà tôi gặp được cuốn sách của Camus hẳn phải diễn ra trong một giai đoạn đặc biệt ấn tượng bởi vì, hơn bất cứ thứ gì khác mà tôi đã đọc, những lời nói của Camus ở lại mãi bên tôi.

Camus thừa nhận giá trị của việc tìm hiểu cấu trúc của vũ trụ, nhưng như tôi có thể nói, ông bác bỏ khả năng rằng một sự hiểu biết như vậy có thể tạo ra bất kỳ sự khác biệt nào đối với sự đánh giá của chúng ta về giá trị của cuộc sống.

Tôi vẫn bị thuyết phục, như đã từng bị thuyết phục nhiều thập niên trước, rằng Camus đã chọn một cách đúng đắn giá trị của cuộc sống để làm câu hỏi cuối cùng, nhưng những hiểu biết sâu sắc của vật lý hiện đại đã thuyết phục tôi rằng việc đánh giá cuộc sống thông qua thấu kính của kinh nghiệm hàng ngày giống như nhìn chằm chằm vào một bức tranh van Gogh qua chai Coke trống rỗng.

Sự trưởng thành của không gian và thời gian

Khi tôi lật trang cuối cùng của Câu chuyện thần thoại về Sisyphus của Albert Camus nhiều năm trước đây, tôi đã rất ngạc nhiên bởi lời văn đã đạt được một cảm giác bao quát của sự lạc quan. Rốt cuộc, một người đàn ông đã bị kết án phải đẩy một tảng đá lên một ngọn đồi với đầy đủ kiến thức để hiểu rằng hòn đá sẽ lại lăn xuống, bắt anh ta phải bắt đầu đẩy lại lần nữa, không phải là loại câu chuyện mà bạn mong muốn có một kết thúc hạnh phúc.

Tuy nhiên, Camus đã tìm thấy rất nhiều hy vọng trong khả năng của Sisyphus để thực hành ý chí tự do, đẩy mạnh vào những trở ngại không thể vượt qua, và khẳng định sự lựa chọn tồn tại của mình ngay cả khi bị kết án phải làm một nhiệm vụ phi lý trong một vũ trụ bàng quan. Bằng cách từ bỏ tất cả mọi thứ bên ngoài kinh nghiệm trực tiếp, và ngừng tìm kiếm bất kỳ sự hiểu biết sâu sắc hơn hoặc ý nghĩa sâu sắc hơn, Sisyphus, Camus lập luận, đã chiến thắng.

About Blog của 5xu

Ti hí nhìn đời
Bài này đã được đăng trong phát triển và được gắn thẻ , , , , , , , . Đánh dấu đường dẫn tĩnh.