21 tháng 11, 2010

Ngữ nghĩa và Ngữ pháp và Ngữ vựng

Có thể phân biệt, có cần thiết phải phân biệt giữa Ngữ nghĩa hay ngữ pháp không?
Khi nói "gà đực" thì sai chỗ nào? lỗi gì? Tại sao phải "gà trống"?
Tùy quan niệm, có thể coi là sai Ngữ nghĩa hay Ngữ pháp hay Ngữ vựng đều được.
Việc phân chia này là do con người làm ra (nhà ngôn ngữ học).
Việc phân chia này làm cho câu văn luôn luôn bị hiểu phiến diện.
Mô hình Xử lý ngôn ngữ tự nhiên cần phải chứa đựng tất cả các phạm trù này trong một thể thống nhất.
Một LUẬT về văn phạm bao gồm hai nội dung:
1. Thông tin về Các thành phần và Vị trí của chúng (trên một ngôn ngữ cụ thể)
2. Thông tin về Quan hệ nội tại giữa các thành phần đó với nhau (Độc lập ngôn ngữ).
Khi có đủ hai nội dung trên thì Luật được gọi là một LUẬT SINH
Khi chỉ có nội dung 1. thì Luật được gọi là một QUY TẮC THAY THẾ (Chuỗi ký tự) TƯƠNG ĐƯƠNG
Khi chỉ có nội dung 2. thì Luật được gọi là một QUY TẮC RÀNG BUỘC NGỮ NGHĨA

Trong Văn phạm sinh Chomsky chỉ có nội dung 1.
Trong Wordnet chỉ thấy bóng dáng của nội dung 2.

11 tháng 10, 2010

Ngữ nghĩa

Có nhiều mô hình ngữ nghĩa khác nhau.
Chưa thấy ở đâu định nghĩa XỬ LÝ NGỮ NGHĨA là gì?
Mô hình XỬ LÝ NGỮ NGHĨA chính là mô hình HIỂU NGÔN NGỮ!
Sau khi phân tích câu (từ vựng, cú pháp) ta được cái gì?
Phân tích Ngữ nghĩa sẽ cho ta thêm cái gì?
Luật ngữ nghĩa có dạng ra sao? Bổ sung, Áp dụng luật thế nào?
Văn phạm cho ngữ nghĩa (Không phụ thuộc vào bất cứ ngôn ngữ thực nào) sẽ có dạng ra sao?
Cây cú pháp khác cây ngữ nghĩa chỗ nào? Có thể chuyển đổi giữa hai loại cây này?

25 tháng 6, 2010

Nền tảng hiện có

Bài báo về đề tài dịch máy nhiều vô kể, về đề tài "so sánh đánh giá các hệ dịch máy" lại còn nhiều hơn.
Kiểm lại tự nhận thấy có 2 kết quả quan trọng:
- Mô hình Văn phạm sinh, hay Ngữ pháp Sản sinh (Generative Grammar Formalism) của Chomsky - dùng để mô tả ngữ pháp cho ngôn ngữ tự nhiên
- Princeton University's Wordnet - một kho từ tiếng Anh được chú giải ngữ nghĩa rất công phu.
Điều cần phải làm là ghép nối một cách hữu cơ hai giá trị này lại với nhau.
Khi đó ta sẽ có thể đạt được một hệ dịch máy chất lượng cao

9 tháng 6, 2010

Dịch máy dựa theo luật

Các hệ dịch dựa theo luật thường không lưu tâm đến kiến trúc từ điển. Vài câu hỏi đơn giản nhưng chưa thấy ai trả lời :
- Một từ điển đủ tốt cho con người thì tại sao lại không tốt cho phần mềm dịch máy?
- Các thông tin tra cứu chéo giữa các mục từ điển là hữu ích đối với người học ngoại ngữ (hay người dịch thuật) thì tại sao lại không quan trọng đối với các hệ dịch máy?
- Bộ luật văn phạm và Từ điển tra cứu dùng để máy dịch thì người bình thường có thể sử dụng để học ngôn ngữ?

Kết luận:
- Giải pháp dịch máy đủ tốt phải sử dụng duy nhất một bộ từ điển tra cứu - cho phần mềm và cho con người.
- Bộ quy tắc văn phạm chứa tất cả thông tin quan trọng của một ngôn ngữ và không chứa thêm bất cứ điều gì mà, hoặc khó hiểu, hoặc không cần thiết đối với người đang học ngoại ngữ
Như vậy, con người và máy tính cần phải sử dụng chung một nguồn tri thức ngôn ngữ duy nhất.

25 tháng 5, 2010

Châu Âu:

Objective ICT-2009.2.2: Language-Based Interaction (26M€)

MỤC TIÊU
Những kiến trúc, mô hình và công cụ mới cho dịch máy tự học với hiệu quả cao về chi phí
TÁC ĐỘNG MONG MUỐN
–Giảm bớt sự khác nhau về chất lượng giữa bản dịch của con người và bản dịch tự động
Tăng gấp hai lần tốc độ trung bình của người dịch trong vòng tám năm
–Bản dịch tự động hóa dễ tương tác hơn, dễ thích nghi hơn, có khả năng tự học và dễ sử dụng hơn

17 tháng 5, 2010

Hoa kỳ

"Grand Challenges" of the 21st Century
Những "Thách thức Lớn" của thế kỷ 21

Cam kết mới của Tổng thống về khoa học, công nghệ và sáng tạo sẽ cho phép quốc gia đặt ra và đạt được những mục tiêu đầy tham vọng giúp cải thiện chất lượng cuộc sống của chúng ta và thiết lập nền tảng cho các ngành công nghiệp và việc làm của tương lai.

Thách thức số 8 : Biên dịch tự động, chính xác cao và thời gian thực giữa các ngôn ngữ quan trọng trên thế giới - hạ thấp đáng kể các rào cản tới giao thương và hợp tác quốc tế

4 tháng 7, 2007

Dịch máy là gì

Mục đích của BLOG này là để ghi chép các suy nghĩ về chủ đề DỊCH MÁY (DM, thường còn được gọi là dịch tự động) với mong muốn thúc đẩy chất lượng dịch văn bản bằng máy tính.
Đã hơn 50 năm phát triển nhưng cho đến nay trên thế giới vẫn chưa có hệ dịch tự động nào có chất lượng tạm chấp nhận được.
Vì sao vậy?
Thế con người biên dịch, phiên dịch hay thông ngôn thế nào?
Tại sao có nhiều cách tiếp cận cho vấn đề DM như vậy, nào là dịch trực tiếp, dịch chuyển đổi, dịch liên ngữ, rồi dịch nhớ, dịch dựa trên thống kê, dịch dựa trên ví dụ (có người gọi là dựa trên tập mẫu), .v.v...?
Có phải cái gọi là các cách tiếp cận kia chỉ là thầy bói xem voi?
Liệu có thể có được Phần mềm dịch máy với chất lượng ngang ngửa với người dịch chuyên nghiệp trung bình?