2. Bài giảng lý thuyết hệ thống thông tin
Chương 1.GIỚI THIỆU VỀ HỆ THỐNG THÔNG
TIN
I. Mở đầu
1. Khái niệm về thông tin
Ví dụ:
• Hai người nói chuyện với nhau, cái mà họ trao
đổi gọi là thông tin
• Khi xem tivi, nghe đài, đọc báo đồng nghĩa với
việc nhận thông tin từ tivi, đài, báo
• Các máy tính nối mạng và trao đổi dữ liệu với
nhau
• Máy tính nạp chương trình, dữ liệu từ đĩa cứng
vào RAM để thực thi,…
Nhận xét:
• Thông tin là “cái” được truyền từ đối tượng này đến
đối tượng khác, và chỉ có ý nghĩa khi bên nhận chưa
biết trước
• Thông tin xuất hiện dưới nhiều dạng khác nhau như
âm thanh, hình ảnh, … Những dạng này chỉ là “vỏ
bọc” vật chất chứa thông tin. Vỏ bọc là phần xác,
thông tin là phần hồn
2
3. Bài giảng lý thuyết hệ thống thông tin
• Ngữ nghĩa của thông tin chỉ có thể hiểu được khi bên
nhận hiểu được cách biểu diễn ngữ nghĩa của bên
phát
• Một trong những phương tiện để diễn đạt thông tin là
ngôn ngữ
• Có hai trạng thái của thông tin là truyền và lưu trữ.
Môi trường truyền/lưu trữ được gọi chung là môi
trường chứa tin hay kênh tin.
2. Vai trò của thông tin
• Các đối tượng sống luôn luôn có nhu cầu hiểu biết về
thế giới xung quanh để thích nghi và tồn tại. Đây là
một quá trình quan sát, tiếp nhận, trao đổi và xử lý
thông tin từ môi trường xung quanh
• Thông tin trở thành một nhu cầu cơ bản, một điều
kiện cần cho sự tồn tại và phát triển
• Khi KHKT và XH ngày càng phát triển, thông tin
càng thể hiển được vai trò quan trọng của mình đối
với chúng ta. Vì vậy, thông tin có thể chi phối đến
suy nghĩ và kết quả hành động của con người.
3. Phạm vi nghiên cứu của LTTT
• Về góc độ khoa học kỹ thuật, LTTT nghiên cứu
nhằm tạo ra một cơ sở hạ tầng tốt cho việc truyền
3
4. Bài giảng lý thuyết hệ thống thông tin
thông tin chính xác, nhanh chóng, an toàn, lưu trữ
thông tin một cách có hiệu quả
• Về các góc độ nghiên cứu khác, LTTT nghiên cứu
các vấn đề về cách tổ chức, biểu diễn và truyền đạt
thông tin, và tổng quát là các vấn đề về xử lý thông
tin.
• Ba lĩnh vực nghiên cứu cơ bản của LTTT:
• Mã chống nhiễu
• Mã tối ưu (hay nén dữ liệu)
• Mật mã hoá
4. Ứng dụng của lý thuyết thông tin
• Cuộc cách mạng thông tin đang xảy ra, sự phát triển
mạnh mẽ của các phương tiện mới về truyền thông,
lưu trữ thông tin làm thay đổi ngày càng sâu sắc xã
hội chúng ta
• LTTT đóng một vai trò quyết định trong sự phát triển
này bằng cách cung cấp cơ sở lý thuyết và cách nhìn
triết học sâu sắc đối với những bài toán mới và thách
thức mà chúng ta chạm chán
• Những ứng dụng của LTTT là truyền thông và xử lý
thông tin: bao gồm truyền thông, nén, bảo mật, lưu
trữ,…
4
5. Bài giảng lý thuyết hệ thống thông tin
• Các ý tưởng của LTTT đã được áp dụng trong nhiều
lĩnh vực như vật lý, ngôn ngữ học, sinh vật học, khoa
học máy tính, tâm lý học, hoá học,…
• Mối quan hệ giữa LTTT và thống kê đã được tìm
thấy, các phương pháp mới về phân tích thống kê dựa
trên LTTT đã được đề nghị
• Ứng dụng vào quản lý kinh tế (lý thuyết đầu tý tối ưu
xuất hiện đồng thời với lý thuyết mã hoá nguồn tối
ưu)
• Ứng dụng vào ngôn ngữ học
• Ứng dụng đến tâm lý thực nghiệm và đặc biệt là lĩnh
vực dạy và học.
II. Một số khái niệm cơ bản
1. Thông tin
a. Thông tin
• Thông tin là một khái niệm trừu tượng, và phi vật
chất và rất khó được định nghĩa chính xác. Hai định
nghĩa về thông tin:
- Thông tin là sự cảm hiểu của con người về thế giới
xung quanh thông qua sự tiếp xúc với nó
- Thông tin là một hệ thống những tin báo và mệnh
lệnh giúp loại trừ sự không chắc chắn trong trạng
5
6. Bài giảng lý thuyết hệ thống thông tin
thái của nơi nhận tin. Nói ngắn gọn, thông tin là cái
mà loại trừ sự không chắc chắn.
• Định nghĩa thứ nhất chưa nói lên được bản chất của
thông tin. Định nghĩa thứ hai nói rõ hơn về bản chất
của thông tin và được dùng để định lượng thông tin
trong kỹ thuật
• Thông tin là một hiện tượng vật lý, nó thường tồn tại
và được truyền đi dưới một dạng vật chất nào đó.
• Những dạng vật chất dùng để mang thông tin được
gọi là tín hiệu
• Lý thuyết tín hiệu nghiên cứu các dạng tín hiệu và
cách truyền thông tin đi xa với chi phí thấp, một
ngành mà có quan hệ gần gũi với LTTT
• Thông tin là một quá trình ngẫu nhiên
• Tín hiệu mang tin tức cũng là tín hiệu ngẫu nhiên và
mô hình toán học của nó là các quá trình ngẫu nhiên
thực hay phức
• LTTT là lý thuyết ngẫu nhiên của tin tức, có nghĩa là
nó xét đến tính bất ngờ của tin tức đối với nơi nhận
tin.
b. Hệ thống thông tin: là hệ thống thực hiện việc
chuyển tin từ nguồn đến đích
6
7. Bài giảng lý thuyết hệ thống thông tin
- Trong các hệ thống thông tin, khác với các hệ thống
truyền năng lượng đó là: tin tức tại nguồn tin là chưa
được xác định cho đến khi nó xuất hiện tại bộ thu bởi
vì nếu đã biết thì việc truyền tin là vô nghĩa.
- Còn ở các hệ thống năng lượng điện khác tín hiệu là
xác định và người ta thiết kế hệ thống trên quan điểm
giảm thiểu tiêu hao năng lượng
2. Mô hình tổng quát một HTTT
Nguồn Bộ Kênh Bộ thu Người sd
phát
• Khối nguồn biểu diễn các bản tin sẽ được phát đi
như tín hiệu thoại, t/hiệu hình hoặc các ký tự trong
một bức thý điện tử. Khối nguồn có các bộ biến đổi
các t/hiệu trên thành các t/hiệu điện
• Bộ phát: xử lý các t/hiệu điện sao cho thích hợp để
phát đi trên đường truyền (cáp đồng trục, cáp quang,
vô tuyến,…)
• Bộ thu: tái tạo lại tín hiệu từ đầu ra của kênh đưa đến
người sử dụng. Trong khối này phải có bộ biến đổi
ngược với bộ biến đổi của khối nguồn để trở về dạng
t/hiệu vật lý ban đầu
Mô hình chi tiết
7
8. Bài giảng lý thuyết hệ thống thông tin
nguồn Tạo M/hoa Mã M/hoá Ghép Điều Trải Đa
tin dạng nguồn mật kênh kênh chế phổ truy
nhập
Phát
Kênh
thông tin
Thu
Nhận Tạo G/mã G/mã G/mã Tách Gđiều G/trải Đa
tin dạng nguồn mật kênh kênh chế phổ truy
nhập
c. Các thành phần của HTTT
8
9. Bài giảng lý thuyết hệ thống thông tin
Khái niệm thông tin thường đi kèm với một hệ thống
truyền tin.
• Sự truyền tin: là sự dịch chuyển thông tin từ điểm
này tới điểm khác trong một môi trường xác định
• Nguồn tin: là tập hợp các tin mà hệ thống truyền tin
dùng để lập các bảng tin hay thông báo để truyền tin.
Bảng tin chính là dãy các tin được bên phát truyền đi
• Thông tin có thể thuộc nhiều loại như:
- Một dãy ký tự như trong điện tín của hệ thống gửi
điện tín
- Một hàm biến đổi theo thời gian f(t) như trong radio
và điện thoại
- Một hàm của thời gian và của các biến khác như
trong tivi đen trắng, khi đó thông tin được biểu diễn
bởi hàm f(x,y,t) của toạ độ hai chiều và thời gian
biểu diễn cường độ ánh sáng tại điểm (x,y) trên màn
hình và thời gian t
- Một vài hàm của một vài biến như trong trường hợp
tivi màu, khi đó thông tin bao gồm 3 hàm f(x,y,t),
g(x,y,t), h(x,y,t) biểu diễn cường độ ánh sáng của 3
thành phần màu cơ bản (xanh lá cây, đỏ, xanh
dương)
9
10. Bài giảng lý thuyết hệ thống thông tin
Thông tin trước khi được truyền đi, tuỳ theo yêu cầu
có thể được mã hoá để nén, chống nhiễu, bảo mật,…
• Kênh tin: là nơi hình thành và truyền (hoặc lưu trữ)
tín hiệu mang tin đồng thời ở đấy xảy ra các tạp
nhiễu phá huỷ tin tức.
- Trong lý thuyết truyền tin, kênh là một khái niệm
trừu tượng đại biểu cho hỗn hợp tín hiệu và tạp nhiễu
• Môi trường truyền tin rất đa dạng:
- Môi trường không khí, tin được truyền dưới dạng
âm thanh và tiếng nói, ngoài ra cũng có thể bằng lửa
hay bằng ánh sáng
- Môi trường tầng điện ly trong khí quyển nơi mà
thường xuyên xảy ra sự truyền tin giữa các vệ tinh
nhân tạo và các trạm rada ở dưới mặt đất.
- Đường truyền điện thoại nơi xảy ra sự truyền tín
hiệu mang tin là dòng điện hay đường truyền cáp
quang qua biến trong đó tín hiệu mang tin là sóng
ánh sáng,…
• Nhiễu: Cho dù môi trường nào cũng có nhiễu.
Nhiễu rất phong phú và đa dạng và thường đi kèm với
môi trường truyền tin tương ứng
- Chẳng hạn, nếu truyền dưới dạng sóng điện từ mà
có đi qua các vùng của trái đất có từ trường mạnh thì
10
11. Bài giảng lý thuyết hệ thống thông tin
tín hiệu mang tin thường bị ảnh hưởng ít nhiều bởi từ
trường này. Nên có thể coi từ trường này là một loại
nhiễu
- Nếu truyền dưới dạng âm thanh trong không khí
thì tiếng ồn xung quanh có thể coi là một loại nhiễu
• Nhiễu có nhiều loại: nhiễu cộng, nhiễu nhân
- Nhiễu cộng là loại nhiễu mà tín hiệu mang tin bị
tín hiệu nhiễu cộng thêm vào
- Nhiễu nhân là loại nhiễu mà tín hiệu mang tin bị
tín hiệu nhiễu nhân lên.
• Nơi nhận tin: Là nơi tiếp nhận thông tin từ kênh
truyền và cố gắng phục hồi lại thông tin ban đầu như
bên phát đã phát đi
- Tin đến được nơi nhận thường không giống thông
tin ban đầu vì có sự tác động của nhiễu. Vì vậy, nơi
nhận phải thực hiện việc phát hiện sai và sửa sai
- Nơi nhận còn có thể thực hiện việc giải nén hay giải
mã thông tin đã được mã hoá bảo mật nếu như bên
phát đã thực hiện việc nén hay bảo mật thông tin
trước khi truyền.
• Mô hình truyền thông
11
12. Bài giảng lý thuyết hệ thống thông tin
Truyền Kênh Nơi nhận
Nhiễu
3. Các loại hệ thống truyền tin
• Các nguồn tin thường thấy trong tự nhiên được gọi là
các nguồn tin nguyên thuỷ. Đây là các nguồn tin
chưa qua một phép biến đổi nhân tạo nào
• Các tín hiệu âm thanh, hình ảnh được phát ra từ các
nguồn tin nguyên thuỷ này thường là các hàm liên
tục theo thời gian và theo mức, nghĩa là có thể biểu
diễn một thông tin nào đó dưới dạng một hàm s(t) tồn
tại trong một khoảng thời gian T và lấy một trị bất kỳ
trong phạm vi (smin, smax) nào đó
• Các nguồn như vậy được gọi là các nguồn liên tục,
các tin được gọi là các tin liên tục và kênh tin được
gọi là kênh tin liên tục
• Tuy nhiên vẫn có những nguồn nguyên thuỷ là rời
rạc:
- Bảng chữ cái của một ngôn ngữ
- Các tin trong hệ thống điện tín, các lệnh điều khiển
trong một hệ thống điều khiển,…
12
13. Bài giảng lý thuyết hệ thống thông tin
Trong trường hợp này các nguồn tin được gọi là rời
rạc, các tin được gọi là các tin rời rạc và kênh tin
được gọi là kênh rời rạc.
• Sự phân biệt về bản chất của tính rời rạc và liên tục
là số lượng tin của nguồn trong trường hợp rời rạc là
hữu hạn còn trong trường hợp liên tục là không đếm
được.
4. Rời rạc hoá một nguồn liên tục
• Nhược điểm của hệ thống liên tục: cồng kềnh, không
hiệu quả, chi phí cao,…
• Các hệ thống truyền tin rời rạc có nhiều ưu thế hơn,
khắc phục được nhược điểm của hệ thống liên tục và
đặc biệt đang ngày càng được phát triển và hoàn
thiện dần những điểm mạnh và ưu điểm của nó.
• Rời rạc hoá gồm 2 loại: Rời rạc hoá theo thời gian
(lấy mẫu) và rời rạc hoá theo biên độ (lượng tử hoá)
a. Lấy mẫu
• Lấy mẫu một hàm tin là trích ra từ hàm ban đầu các
mẫu được lấy tại những thời điểm xác định. Có
nghĩa: thay hàm liên tục bằng một hàm rời rạc là
những mẫu của hàm trên lấy tại những thời điểm gián
đoạn.
13
14. Bài giảng lý thuyết hệ thống thông tin
Vấn đề là làm thế nào để sự thay thế hàm ban đầu
bằng các mẫu này là một sự thay thế tương đương
(dựa vào ĐLý Shannon)
• Định lý lấy mẫu của Shannon:
Một hàm s(t) có phổ hữu hạn, không có thành phần
tần số lớn hơn ωmax(=2πfmax) có thể được thay thế
bằng các mẫu của nó được lấy tại những thời điểm
cách nhau một khoảng ∆t≤π/ωmax hay nói cách khác,
tần số lấy mẫu F≥2fmax
b. Lượng tử hoá
• Hàm S(t) là một thể hiện của một nguồn liên tục, có
biên độ biến đổi liên tục trong phạm vi (S min, Smax).
Phân chia phạm vi đó thành một số mức nhất định:
Smin =S0, S1, S2, …, Sn = Smax
• S(t) sẽ trở thành một hàm biến đổi theo bậc thang gọi
là hàm lượng tử hoá S’(t)
• Việc lựa chọn các mức thích hợp sẽ làm giảm sự
khác nhau giữa S’(t) và S(t), gọi là sai số lượng tử,
đồng thời giảm sai nhầm trong quá trình truyền tin
• Nếu cho trị bé nhất của S(t) là mức mà ở đầu thu còn
có thể phân biệt được trong nền tạp nhiễu thì mức đó
gọi là mức ngýỡng và phải thoả mãn điều kiện lớn
hơn mức tạp nhiễu trong kênh
14
15. Bài giảng lý thuyết hệ thống thông tin
• Mức lượng tử tối thiểu phải lớn hơn mức tạp nhiễu
trong kênh
5. Độ đo thông tin
• Độ đo của một đại lượng là cách xác định độ lớn của
đại lượng đó. Mỗi độ đo phải thoả mãn 3 tính chất
sau:
• Độ đo phải xác định được độ lớn của đại lượng
• Độ đo phải không âm
• Độ đo phải tuyến tính
Để xác định độ đo của thông tin, ta thấy rằng thông tin
càng có ý nghĩa khi nó càng hiếm gặp, nên độ lớn của
nó phải tỷ lệ nghịch với xác suất xuất hiện tin.
• Độ đo thông tin phải là một hàm tỷ lệ nghịch với
xác suất xuất hiện của tin, hay nó là một hàm f(1/p(x i))
cho bản tin xi có xác suất xuất hiện là p(xi)
• Độ đo thông tin của bản tin x i có xác suất xuất
hiện là p(xi) là một hàm loga(1/p(xi) (dựa vào tính chất
thứ 3 của độ đo)
15
17. Bài giảng lý thuyết hệ thống thông tin
Chương 2. TIN TỨC VÀ LƯỢNG TIN
Khái niệm tin tức
Lượng tin của nguồn rời rạc
Entropi của nguồn rời rạc
Kênh rời rạc
Entropi của nguồn và thông lượng kênh liên tục
I. Khái niệm tin tức
• Một tin đối với người nhận đều mang hai nội
dung: độ bất ngờ của tin và ý nghĩa của tin
• Để so sánh giữa các tin với nhau có thể dùng một
trong hai nội dung trên hoặc cả hai làm thước đo
• Tuy nhiên: “ý nghĩa của tin” chỉ có tác dụng đối
với con người còn “độ bất ngờ” lại liên quan đến
những vấn đề của HTTT.
Ví dụ: một tin càng bất ngờ -> sự xuất hiện của nó
càng hiếm -> thời gian tồn tại trong hệ thống truyền
17
18. Bài giảng lý thuyết hệ thống thông tin
tin càng it -> để việc truyền tin có hiệu suất cao thì
không thể coi các như nhau nếu xác suất xuất hiện của
chúng khác nhau.
Mặt khác, những tin càng bất ngờ thì khi xuất hiện
càng tác động mạnh lên giác quan của con người ->
lượng tin của chúng càng lớn
• Do đó, để định lượng thông tin (tin tức) trong các hệ
thống thông tin người ta lấy mức độ bất ngờ để so
sánh các tin với nhau. Lượng tin càng lớn nếu độ bất
ngờ của tin càng lớn
II. Lượng tin của nguồn rời rạc
1. Nguồn rời rạc
• Nguồn rời rạc: là nguồn tạo ra các tin dưới dạng rời
rạc
• Nguồn tin tức rời rạc: là nguồn tạo ra một chuỗi các
biến ngẫu nhiên rời rạc x1, x2,…, xn, …
• Ký hiệu: là phần tử nhỏ nhất có chứa thông tin (ví dụ:
ký hiệu nhị phân 0 và 1)
• Bộ ký hiệu: là tập tất cả các ký hiệu [x] = [x 1,…,xn]
• Từ: là một tập hợp hữu hạn các ký hiệu
• Bộ từ: là tập hợp tất cả các từ mà một bộ ký hiệu có
thể tạo ra
18
19. Bài giảng lý thuyết hệ thống thông tin
• Nguồn rời rạc không nhớ: xác suất xuất hiện
một ký hiệu không phụ thuộc vào xác suất các ký hiệu
xuất hiện trước
p(xn|xn-1, xn-2, …) = p(xn)
• Nguồn rời rạc có nhớ: xác suất xuất hiện một ký hiệu
phụ thuộc vào một hay nhiều các ký hiệu trước đó
nếu khả năng nhớ của nguồn là đủ lớn.
• Nguồn dừng: xác suất xuất hiện các ký hiệu không
phụ thuộc vào gốc thời gian mà phụ thuộc vào vị trí
tương quan giữa các ký hiệu
p(xi, n) = p(xi, n+k) với ∀ k
2. Lượng tin
• Một nguồn tin XN có các lớp tin độc lập {x 1, x2, …,
xN}
(N: cỡ của nguồn tin)
Các xác suất xuất hiện tương ứng {p(x 1), p(x2),
…,p(xN)}
• Ứng với nguồn tin X, nơi nhận tin Y M có các lớp tin
độc lập {y1, y2, …, yM} (M: cỡ của nguồn tin nơi
nhận}.
Có xác suất xuất hiện tương ứng là {p(y 1), p(y2), …,
p(yM)}
Trong đó:
19
20. Bài giảng lý thuyết hệ thống thông tin
• Lượng tin riêng
Định nghĩa: Lượng đo thông tin của một lớp tin
xi bất kỳ được đo bằng logarit của độ bất ngờ của tin
hay nghịch đảo xác suất xuất hiện của tin đó. Lượng
đo đó được gọi là lượng tin riêng.
I(xi) = -loga p(xi)
Tuỳ thuộc vào cơ số a ta có các đơn vị đo khác nhau
a = 2: bit
a = e: nat
a = 10: hartley
• Lượng tin tương hỗ
p(xi/yj) được gọi là xác suất có điều kiện, biểu thị quy
luật phân bố xác suất của lớp tin xi theo các lớp tin yj ở
nơi nhận tin
p(yj/xi) là phân bố xác suất của lớp tin nơi nhận y j với
điều kiện nguồn tin phát đi lớp tin xi
Trong đó:
m
∑ p( x
1
i / y j ) =1
n
∑ p( y
1
j / xi ) = 1
20
21. Bài giảng lý thuyết hệ thống thông tin
Định nghĩa: Lượng tin về một tin bất kỳ x i trong
nguồn tin XN chứa trong một tin bất kỳ yj của nơi nhận
tin YM được gọi là lượng tin tương hỗ giữa xi và yj
p ( xi / y j )
I ( xi , y j ) = log a
p( x )
i
• Lượng tin có điều kiện
Định nghĩa: Lượng tin còn lại của xi sau khi nơi
nhận tin nhận được lớp tin yj được gọi là lượng tin có
điều kiện của xi với điều kiện nơi nhận nhận yj
I ( xi / y j ) = - log a p ( xi / y j )
Lượng tin còn lại này chính là lượng tin do nhiễu phá
huỷ không đến được nơi nhận
• Tính chất của lượng tin
• Lượng tin riêng bao giờ cũng lớn hơn lượng tin
tương hỗ
• Lượng tin riêng luôn luôn là số dương, lượng tin
tương hỗ có thể dương hoặc âm
• Lượng tin của một cặp tin (xiyj) bằng tổng lượng
tin riêng của từng lớp tin trừ đi lượng tin tương hỗ
giữa chúng:
I(xiyj) = I(xi) + I(yj) – I(xi, yj)
21
22. Bài giảng lý thuyết hệ thống thông tin
• Lượng tin tương hỗ bằng lượng tin ban đầu của x i
trừ đi lượng tin còn lại của xi sau khi nhận được yj:
I(xi, yj) = I(xi) – I(xi/yj)
• Lượng tin trung bình I(X)
• Lượng tin riêng của từng lớp tin chỉ có ý nghĩa
đối với mỗi lớp tin nào đó, không phản ánh được giá
trị tin tức của nguồn tin
• Giá trị trung bình của lượng tin riêng trong
nguồn tin được gọi là lượng tin trung bình của nguồn
tin, nó phản ánh giá trị tin tức trung bình của nguồn
tin, ký hiệu lượng tin trung bình I(X)
N
I ( X ) = ∑p(x i ).I ( xi )
1
N
= - ∑p(x i ) log a p ( xi )
1
• Lượng tin trung bình là lượng tin tức trung bình
chứa trong một ký hiệu bất kỳ của nguồn đã cho
• Lượng tin tương hỗ trung bình I(X,Y)
• Lượng tin tương hỗ không mang đầy đủ ý nghĩa
thực tế cần thiết, nó chỉ cho biết lượng tin về một ký
hiệu đã cho chứa trong mộtx ký) Ihiệu )xác định
N M
I ( X , Y ) = ∑∑ p ( , y ( x , y
i j i j
1 1
N M p ( xi / y j )
= - ∑∑ p(x i , y j ) log a
1 1
22 p ( xi )
23. Bài giảng lý thuyết hệ thống thông tin
• I(X,Y) là lượng tin tương hỗ trung bình:
• Lượng tin có điều kiện trung bình I(X/Y)
• Lượng tin có điều kiện trung bình I(X/Y) là
lượng tin trung bình của một tin bất kỳ của X N khi đã
biết một tin bất kỳ YM
N M
I(X/Y) = - ∑∑p(x i , y j )log a p(x i /y j )
1 1
• Quan hệ giữa các lượng tin trung bình:
I(X,Y) = I(X) – I(X/Y)
= I(Y) – I(Y/X)
I(X,Y) = I(Y,X) ≥ 0
III. Entropi của nguồn và thônng lượng kênh rời
rạc
1. Entropy của nguồn rời rạc
• Lượng tin trung bình là lượng tin trung bình
trong một tin bất kỳ của nguồn tin đã cho
• Khi nhận được một tin ta sẽ nhận được một
lượng tin trung bình, đồng thời độ bất ngờ của tin
cũng được giải thoát => độ bất ngờ của tin và lượng
23
24. Bài giảng lý thuyết hệ thống thông tin
tin về ý nghĩa vật lý trái ngược nhau nhưng về số đo
lại bằng nhau
• Độ bất ngờ của lớp tin x i trong nguồn tin XN
được tính bằng Entropy riêng của lớp tin xi trong
nguồn tin XN
H ( xi ) = - log a p ( xi )
• Độ bất ngờ trung bình của nguồn tin XN được gọi
là Entropy riêng trung bình hay là Entropy riêng của
nguồn tin XN, đây chính là thông số thống kê cơ bản
của nguồn:
N
H ( X ) = ∑ p( xi ).H ( xi )
i =1
N
= - ∑ p(x i ). log a p ( xi )
i =1
Về số đo: H(X) = I(X)
• Tính chất của Entropi.
Cho S là không gian mẫu với xác suất phân phối là P
• H là liên tục trong p
• H là đối xứng; thứ tự của p không ảnh hưởng đến giá
trị của H
24
25. Bài giảng lý thuyết hệ thống thông tin
• H được thêm vào; nếu X và Y là hai không gian mẫu
độc lập thì:H(X,Y)=H(X) + H(Y)
• H đưa ra giá trị lớn nhất nếu P là đồng nhất
• H(P) ≤ log n với H(P)=log n nếu p=1/n
• H(P) ≥ 0, với H(P)=0 nếu có k với pk=1
Chú ý:
Hai phân phối xác suất khác nhau có thể đề cập
đến cùng một entropy H(P)=H(Q);
e.g. P={.5,.25,.25}, Q={.48,.32,.2} ==>
H(P)=H(Q)=1.5
• Entropi đồng thời
Đưa ra không gian mẫu hai chiều (X, Y) với phân phối
xác suất đồng thời P={p(xi, yj)}. Entropy đồng thời
giữa X & Y được định nghĩa như sau:
N M
H ( X ,Y ) = - ∑∑ p ( xi , y j ) log a p( xi , y j )
1 1
• Entropy có điều kiện
Entropy có điều kiện của Y đưa ra X được định
nghĩa như sau:
N M
H (X | Y) = - ∑∑ p ( xi , y j ) log a p ( xi | y j )
1 1
Chú ý: p(xi|yj) là xác suất có điều kiện của yj đưa ra xi
25
26. Bài giảng lý thuyết hệ thống thông tin
• Mối liên hệ giữa các Entropi
• H(Y|X) ≥ 0
• H(Y|X) ≤ H(Y) bằng nhau nếu và chỉ nếu Y&X độc
lập
• H(X,Y) = H(X) + H(Y|X)
= H(Y) + H(X|Y)
• H(X,Y) ≤ H(X) + H(Y)
Y được coi là phụ thuộc tuyệt đối vào X nếu
H(Y|X)=0
2. Thông lượng kênh rời rạc
a. Thông lượng kênh rời rạc
• Thông lượng kênh là lượng tin tối đa mà kênh
cho đi qua trong một đơn vị thời gian mà không gây
sai nhầm (ký hiệu bằng C và đơn vị đo bit/ses)
• Thông thường tốc độ lập tin bé hơn nhiều so với
thông lượng kênh: R <<C
• Tốc độ lập tin ở đầu ra của kênh trong trường
hợp kênh có nhiễu:
R = n0H(X,Y) = n0[H(X) – H(X|Y)] (bit/ses)
• n0H(X|Y) là lượng tin bị nhiễu phá huỷ trong một
đơn vị thời gian
26
27. Bài giảng lý thuyết hệ thống thông tin
• Lượng tin tối đa kênh cho đi qua mà không xảy
ra sai nhầm là tốc độ lập tin cực đại trong kênh có
nhiễu:
C = Rmax = n0[H(X) – H(X|Y)]max (bit/ses)
b. Độ dư và hiệu quả sử dụng kênh
• Độ dư tương đối của kênh là:
rc = 1 – R/C
•Hiệu quả sử dụng kênh là tỷ số của tốc độ lập tin ở
đầu ra của kênh với thông lượng của kênh
ηc = R/C = 1-rc
Và ηc ≤1
• Hiệu quả sử dụng kênh là số đo độ chênh lệch
giữa tốc độ lập tin ở đầu ra của kênh và thông lượng
kênh.
IV. Entropi của nguồn và thông lượng kênh liên tục
1. Entropi nguồn liên tục
• Nguồn liên tục có thể xem như tập các thể hiển của
một quá trình ngẫu nhiên
• Nếu tập các quá trình ngẫu nhiên có năng lượng tập
trung trong một dải phổ nhất định và có một thời gian
tồn tại hữu hạn thì theo định lý lấy mẫu có thể thay
mỗi thể hiện bằng n trị tức thời lấy ở những thời
điểm cách nhau một quãng ∆t = 1/(2∆f)
27
28. Bài giảng lý thuyết hệ thống thông tin
Trong đó:
∆f: dải phổ trong đó năng lượng của tín
hiệu được tập trung
n=2.∆f.Ts
Ts: thời gian tồn tại của một thể hiện
• Mỗi thể hiện s(t) là một hàm liên tục
theo biến thời gian t, tồn tại trong khoảng thời gian Ts
và được xác định bởi n trị tức thời xi (i=1,…, n) trong
khoảng (Smin, Smax)
• Entropi là đại lượng đo độ bất định trung bình
của mỗi trị bất kỳ mà mẫu x(t i) có thể lấy, về số đo
cũng là lượng tin trung bình của một trị bất kỳ x(ti)
• Với giả thiết các mẫu x(ti) độc lập thống kê với
nhau và cùng một quy luật phân bố xác suất p(x).
Entropi của nguồn liên tục là:
+∞
H ( X ) =- ∫ p(x)log a p ( x ) dx
-∞
• Nếu các trị x(ti) phụ thuộc thống kê với nhau, cần xác
định H(X) theo quy luật phân bố nhiều chiều:
+∞ +∞
H ( X ) =- ∫ ∫ p(x1 ...x n , t 1 ...t n )log a p ( x 1 ...x n , t 1 ...t n ) dx1 ..dxn
-∞ -∞
• Đơn vị đo: (bit/độ tự do) với log cơ số 2
28
29. Bài giảng lý thuyết hệ thống thông tin
• Quy luật phân bố p(x|y) cho phép xác định độ bất
định trung bình về một trị x nào đó khi nhận được
một trị y, nghĩa là xác định được Entropi có điều kiện
của nguồn liên tục:
• Entropi đồng thời:
+ +
∞∞
H ( X | Y ) =- ∫ ∫p(x, y)loga p ( x | y ) dxdy
-∞ ∞
-
+ +
∞∞
H ( X , Y ) =- ∫∫
-∞ ∞
-
p (x, y)loga p ( x, y ) dxdy
• Quan hệ giữa các Entropi:
H(X,Y) = H(X) + HY|X)
= H(Y) +H(X|Y)
2. Tốc độ lập tin, thông lượng kênh liên tục
•Xét kênh truyền tin có nhiễu cộng. Tín hiệu đầu ra là
y(t) = x(t) + n(t), x thuộc X, y thuộc Y, n thuộc N
Giả thiết X và N độc lập thống kê
•Vậy
H(X,Y) = H(X,X + N) = H(X,N) = H(X) + H(N)
Độ bất định của đầu ra bằng tổng độ bất định đầu vào
và nhiễu
Mặt khác: H(X,Y) = H(X) + H(Y|X)
Vậy H(N) = H(Y|X)
29
30. Bài giảng lý thuyết hệ thống thông tin
•Tốc độ lập tin của nguồn liên tục
R = n0.H(X) = (n/Ts).H(X) = 2∆f. H(X) (bit/ses)
•Tốc độ lập tin ở đầu ra của kênh
R = n0.[H(Y) – H(Y|X)] = n/Ts.[H(Y) – H(N)]
= 2∆f. [H(Y) – H(N)]
•Thông lượng kênh liên tục là lượng tin cực đại mà
kênh cho truyền qua một đơn vị thời gian mà không
bị nhiễu phá huỷ. Nói cách khác đó chính là tốc độ
lập tin cực đại ở đầu ra của kênh:
C = Rmax
Tốc độ lập tin cực đại khi Entropi lập H(Y) cực đại
Chương 3: MÃ HIỆU VÀ MÃ MẬT
I. Mã hiệu
Mã hiệu và các thông số cơ bản của mã hiệu
Phương pháp biểu diễn mã
Điều kiện phân tách của mã hiệu
Mã hệ thống, mã có dấu phân tách
Mã thống kê tối ưu
30
31. Bài giảng lý thuyết hệ thống thông tin
1. Mã hiệu và các thông số cơ bản của mã hiệu
a. Mã hiệu
• Trong hệ thống truyền tin, bản tin thường phải thông
qua một số phép biến đổi ở đầu phát gọi là mã hóa,
và ở đầu thu bản tin phải thông qua những phép biến
đổi ngược lại gọi là giải mã.
• Sự mã hóa thông tin cho phép ta ký hiệu hóa thông
tin hay sử dụng các ký hiệu quy ước để biểu diễn bản
tin ở dạng phù hợp cho nơi sử dụng
• Sử dụng mã hóa =>nhằm tăng tốc độ truyền tin và
khả năng chống nhiễu của hệ thống
• Đối với kênh có nhiễu, cần quan tâm đến độ chính
xác của sự truyền tin hay các tin truyền đi ít bị sai
nhầm.
• Mã hiệu (code): là tập hữu hạn các dấu hiệu riêng
hay bảng chữ riêng có phân bố xác suất thỏa mãn
một số yêu cầu quy định.
• Quá trình mã hóa (encoding): là việc sử dụng mã
hiệu để biểu diễn các tin của nguồn tin, hay mã hóa
là một phép biến đổi từ nguồn tin thành mã hiệu,
hoặc mã hóa là phép biến đổi từ một tập tin này
thành một tập tin khác có đặc tính thống kê theo yêu
cầu.
31
32. Bài giảng lý thuyết hệ thống thông tin
• Trong tập hợp tất cả các tổ hợp mã, một tập hợp các
tổ hợp mã được xây dựng theo một luật nào đó, gọi là
tổ hợp mã có thể (hợp lệ)
• Trong quá trình mã hóa, một tin của nguồn nguyên
thủy được ánh xạ vào một tổ hợp mã. Một tổ hợp mã
như vậy gọi là từ mã. Những tổ hợp có thể khác gọi
là tổ hợp cấm (tổ hợp không sử dụng)
• Một dãy từ mã bất kỳ tạo thành một từ thông tin
VD: Mã BCD Binary Coded Decimal đóng gói
- Nguồn tin nguyên thủy gồm các tin là các
ký hiệu từ 0 − 9.
- Mã hóa thành các ký hiệu nhị phân 0 − 1
- Các dấu (ký hiệu mã): 0, 1
- Các tổ hợp mã có thể: 0000 đến 1111, gồm
16 tổ hợp mã
- Các tổ hợp mã được sử dụng (từ mã):
- Các tổ hợp mã bị cấm:
1010,1011,1100,1101,1110,1111
- Một từ thông tin: 2005 →
0010000000000101
b. Các thông số cơ bản của mã hiệu
32
33. Bài giảng lý thuyết hệ thống thông tin
Độ dài trung bình từ mã: Số lượng các ký hiệu
của từ mã − N
n = ∑ p ( xi ).n i
i =1
– Trong đó: p(xi): xác suất xuất hiện lớp tin
xi
ni: độ dài từ mã của lớp tin xi
N: tổng số từ mã tương ứng với
tổng số các tin của X
– Bộ mã được gọi là bộ mã đều nếu: ni = ntb
(chiều dài các từ mã của bộ mã bằng nhau)
– Ngược lại, được gọi là bộ mã không đều
– Bộ mã đầy là bộ mã có tất cả các tổ hợp, là
mã của các lớp tin tương ứng.
– Bộ mã không đầy: là bộ mã có ít nhất một tổ
hợp không là mã của một lớp tin nào
– Cơ số mã: là số các chữ mã có trong bộ chữ
mã
– Giá trị riêng hay trị của mỗi ký hiệu mã:
Mỗi ký hiệu được gán cho một giá trị gọi là giá
trị riêng hay trị của ký hiệu. Ví dụ m ký hiệu có
thể được gán các trị tương ứng là 0, 1, 2 . . .m −
1
33
34. Bài giảng lý thuyết hệ thống thông tin
– Chỉ số vị trí: Số thứ tự của mỗi ký hiệu trong
từ mã. Ví dụ:đánh số từ 0, từ phải qua trái
– Trọng số của từ mã b:
n−1
b = ∑ak q k −1
k =0
• Trong đó: ak là giá trị riêng của ký
hiệu mã ở vị trí k
• q là cơ số mã
– Quãng cách D là khoảng cách giữa 2 trọng số
của 2 từ mã
c. Điều kiện thiết lập mã hiệu
Điều kiện thiết lập chung cho các mã hiệu
• Trong dãy ký hiệu mã liên tiếp phải có quy luật
đảm bảo sự phân tách ra được một cách duy nhất
các từ mã. Nghĩa là: một tổ hợp chỉ là từ mã của
tối đa một lớp tin và một lớp tin chỉ có duy nhất
một từ mã.
• Bộ mã thỏa mãn điều kiện thiết lập mã còn được
gọi là bộ mã phân tách được
Điều kiện riêng cho mỗi loại mã
• Mỗi loại mã còn tồn tại những điều kiện
riêng phải thỏa mãn (điều kiện về hình thức, yêu
34
35. Bài giảng lý thuyết hệ thống thông tin
cầu kỹ thuật, hoặc chỉ tiêu kỹ thuật riêng mà bộ
mã cần đạt được)
2. Phương pháp biểu diễn mã
Liệt kê (bảng mã ASCII)
• Sử dụng bảng để kê khai tất cả các lớp tin và từ
mã tương ứng với mỗi lớp tin
• Đơn giản, tiện dụng song rất cồng kềnh khi số
các lớp tin trong nguồn là lớn
• Cách liệt kê không cho thấy những tính chất
quan trọng của bộ mã
Tọa độ
• Dựa trên hai thông số chính của một từ mã là
trọng số và độ dài -> thiết lập một bề mặt có hai
tọa độ (n, b) trên đó mỗi từ mã được biểu diễn
bằng một điểm duy nhất
Định lý: Không thể tồn tại hai hay nhiều từ mã khác
nhau lại giống nhau cả hai thông số n và b
Biểu diễn cây
• Cây mã gồm các nút và nhánh cây, gốc cây gọi
là nút gốc
• Từ mỗi nút phân đi hai nhánh tương ứng với chữ
mã 0 (bên trái) hoặc 1 (bên phải)
35
36. Bài giảng lý thuyết hệ thống thông tin
• Nút cuối đại diện cho một từ mã mà tổ hợp chữ
mã xác định bằng cách lấy các ký hiệu từ nút
gốc đi qua các nút trung gian đến nút cuối
• Cây mã cho biết các tính chất đặc trưng của bộ
mã
• Cách biểu diễn này khá cồng kềnh, không xác
định được tính thiết lập từ mã của việc mã hoá
Biểu diễn đa thức
• Coi tổ hợp từ mã như một đa thức được xác định
bằng cách bậc của đa thức bằng độ dài từ mã trừ
đi 1
• Cách biểu diễn này dùng trong trường hợp bộ
mã đều
• Ưu điểm: gọn, ngoài ra còn áp dụng được những
đặc tính của đa thức để khảo sát tính chất của mã
3. Điều kiện phân tách của mã hiệu
Độ chậm giải mã
• Khi nhận một dãy ký hiệu mã, để có thể phân
tách được từ mã một cách duy nhất và đúng đắn
bộ mã phải thoả mãn điều kiện cần và đủ là: bất
kỳ dãy các từ mã nào của bộ mã cũng không
được trùng với một dãy từ mã khác của cùng bộ
mã
36
37. Bài giảng lý thuyết hệ thống thông tin
• Độ chậm giải mã là số ký hiệu cần phải nhận
được đủ để có thể phân tách (nhận dạng) được từ
mã
• Thông thường đối với mã phân tách được, độ
chậm giải mã là hữu hạn, nhưng cũng có những
trường hợp độ chậm giải mã là vô hạn
Điều kiện để mã phân tách được
• Bộ mã chắc chắn phân tách được nếu từ mã ngắn
hơn không là phần đầu, phần cuối hoặc phần
giữa của từ mã khác dài hơn, hoặc ghép hai hay
nhiều từ mã lại thành chuỗi ký hiệu mã không
tạo thành một đoạn ký hiệu mã trùng với một từ
mã khác chúng.
Bảng thử tính phân tách của từ mã
1. Sắp xếp các từ mã thành một cột, đánh dấu cột
số 1
2. Đối chiếu các từ mã ngắn với các từ mã dài hơn
trong cột 1. Nếu từ mã ngắn giống phần đầu của
từ mã dài hơn thì lấy phần còn lại ghi vào cột
tiếp theo, đánh dấu cột số 2
3. Tiếp tục đối chiếu các tổ hợp mã mới thiết lập
được trong cột số 2 với các từ mã trong cột 1 và
37
38. Bài giảng lý thuyết hệ thống thông tin
ngược lại cột 1 với cột 2, lấy phần còn lại ghi
vào cột tiếp theo đánh dấu số 3
4. Trong cột số j sẽ ghi kết quả đối chiếu các tổ hợp
trong cột thứ j-1 với các từ mã trong cột 1
5. Tiếp tục như vậy cho đến lúc cột phải điền trở
nên trống rỗng
• Điều kiện cần và đủ để mã có tính phân tách là
không có một tổ hợp mã nào trong các cột từ j≥2
trùng với một từ mã trong cột 1.
• Trong trường hợp không có chuỗi nào trong cột
j>=2 trùng với từ mã ở cột 1. Nhưng có 2 cột k,l
nào đó với k khác l và k,l>=2 giống nhau thì mã
phân tách được nhưng có độ chậm giải mã vô hạn
• Độ chậm giải mã
- Bảng thử tính phân tách cho phép đánh giá
được độ chậm giải mã
- Nếu j là số hiệu cột rỗng thì độ chậm giải
mã Tch tính theo:
[( j - 1)/2].nmin ≤ Tch ≤ [ j / 2].nmax
- nmin, nmax: độ dài từ mã ngắn nhất và dài nhất
Mã có tính prefix
38
39. Bài giảng lý thuyết hệ thống thông tin
• Prefix của một từ mã là một bộ phận của từ mã
sau khi đã bỏ đi một hay nhiều ký hiệu cuối
• Bộ prefix của một từ mã là tổ hợp tất cả các
prefix của từ mã đó
• Bộ mã có tính prefix là bộ mã thoả mãn điều kiện
không có mộ từ mã nào lại thuộc bộ prefix của
một từ mã khác nó
• Mã có tính prefix thoả mãn điều kiện về tính
phân tách của mã
Lớp tin x1 x2 x3 X4
Từ mã 00 01 100 1010
Bộ 00, 01, 0 100,1010, 101,
prefix 0 10, 1 10, 1
4. Mã hệ thống, mã có dấu phân tách
Mã hệ thống
• Mã HT là loại mã mà mỗi từ mã của nó được xây
dựng bằng cách liên kết một số từ mã của một bộ
mã gốc
- Vì bộ mã gốc có tính phân tách -> bộ mã HT
cũng có tính phân tách
- Nếu bộ mã gốc có tính prefix -> bộ mã HT
cũng có tính prefix
• Một bộ mã HT gồm:
39
40. Bài giảng lý thuyết hệ thống thông tin
- phần đầu (các tổ hợp sơ đẳng)
- Phần cuối (các tổ hợp cuối)
• Các tổ hợp sơ đẳng: gồm một số từ mã của bộ mã
gốc
• Các tổ hợp cuối: gồm một số từ mã của bộ mã
gốc mà không thuộc tổ hợp sơ đẳng
• Từ mã của mã HT được tạo ra bằng cách nối các
tổ hợp sơ đẳng lại với nhau và nối thêm một tổ
hợp cuối
VD: Bộ mã prefix: 1, 00, 010, 011 làm gốc
o Trong đó các tổ hợp 1, 00, 010 làm tổ hợp sơ
đẳng
o Tổ hợp 011 làm tổ hợp cuối
o Các từ mã được hình thành như sau đều có
thể là từ mã của mã hệ thống: 1011, 00011,
010011, 010010011, 100010011
o Giải mã: qua 2 bước
- Từ dãy ký hiệu nhận được phân tách
thành dãy các tổ hợp sơ đẳng và tổ hợp
cuối
- Giải thành dãy các tổ hợp của mã hệ
thống
40
41. Bài giảng lý thuyết hệ thống thông tin
o Khi nhận được tin: 010011 100011 1011
11011
B1: tách thành dãy: 010-011-1-00-011-1-011-
11-011
B2: phân tách thành dãy tổ hợp mã: 010011-
100011-1011-11011
Mã có dấu phân tách
• Mã có dấu phân tách là một loại mã mà mỗi từ
mã được giới hạn bởi một dấu hiệu đặc biệt được
gọi là dấu phân tách
• Dấu phân tách là một dấu hiệu có thể là một tổ
hợp các ký hiệu mã mà cũng có thể không phải
là ký hiệu mã
• Thường trong mã hoá, dấu phân tách là một tổ
hợp mã đặc biệt mà ta không gặp nó trong từ mã
hoặc chuỗi liên tục các từ mã
• Mã có dấu phân tách là một trường hợp riêng
của mã hệ thống có tính prefix
Ví dụ: Bộ mã gốc: 1, 01: tổ hợp sơ đẳng; 001: tổ
hợp cuối
Nếu nhận được chuỗi mã:
10010101001111001
41
42. Bài giảng lý thuyết hệ thống thông tin
=>Ta dễ dàng tách ra được các từ mã: 1001-
0101001-111001
5. Mã thống kê tối ưu
Mã thống kê tối ưu(Shannon-Fano)
•Cho nguồn XN có các lớp tin {x1, x2,…,xN} và
xác suất xuất hiện tương ứng {p(x1), p(x2),…,
p(xN)}
• Bộ chữ mã M có hai chữ mã (0, 1)
Cách thức Shannon: Các bước lập mã
• Sắp xếp các ký hiệu nguồn theo thứ tự giảm dần
của xác su
• Với mỗi ký hiệu
- Tính tổng các xác suất của các ký hiệu đứng
trước
- Biểu diễn tổng thu được theo hệ nhị phân,
độ chính xác là xác suất của ký hiệu
- Từ mã tương ứng là chuỗi chữ số phần lẻ
của biểu diễn trên
VD: cho nguồn tin U có xác suất nhau sau:
42
43. Bài giảng lý thuyết hệ thống thông tin
Entropy của nguồn 2.3828
Số ký hiệu nhị phân trung bình 2.99
Hiệu quả của nguồn: 0.7969
Cách thức Fano: Các bước lập mã
• Sắp xếp nguồn tin theo thứ tự tăng dần hoặc
giảm dần của XS
• Chia nguồn tin thành 2 nhóm sao cho xs xhiện
của mỗi nhóm xấp xỉ bằng nhau nhất
• Gán cho mỗi nhóm một ký hiệu mã 0 hoặc 1
• Coi mỗi nhóm như một nguồn tin mới và quay
trở lại bước 2 thực hiện cho đến khi mỗi nhóm
chỉ còn chứa duy nhất một tin
• Từ mã ứng với mỗi lớp tin là tổ hợp tất cả các ký
mã của các nhóm mà lớp tin đó phụ thuộc vào,
lấy tương ứng từ nhóm lớn đến nhóm nhỏ (trái
-> phải)
43
44. Bài giảng lý thuyết hệ thống thông tin
Nhận xét
• Mã Shannon – Fano là bộ mã có tính prefix
• Mã Shannon – Fano có từ mã tương ứng với lớp
tin có xác suất xuất hiện lớn sẽ ngắn và ngược
lại
• Mã Shannon – Fano không là duy nhất
• Phương pháp Fano cho kết quả tốt hơn phương
pháp Shannon
Ví dụ: Cho nguồn tin X5 có các lớp tin và xác suất
xuất hiện tương ứng như bảng sau, hãy lập mã Fanno
cho nguồn tin
Lớp tin x1 x2 x3 x4 x5
P(xi) 0.25 0.15 0.2 0.3 0.1
Số lần chia nhóm
xi p(xi) Từ mã ni
1 2 3
x5 0.1 0 000 3
0
x2 0.15 0 1 001 3
x3 0.2 1 01 2
x1 0.25 0 10 2
1
x4 0.3 1 11 2
44
45. Bài giảng lý thuyết hệ thống thông tin
Mã thống kê tối ưu (Huffman)
Các bước lập mã
• Sắp xếp nguồn tin theo thứ tự tăng dần hoặc giảm
dần của xác suất xuất hiện
• Chọn 2 lớp tin nhỏ nhất gán cho mỗi lớp tin là
nhánh của một nút cây
• Thay thế 2 lớp tin bằng một lớp tin có xác suất
bằng tổng hai xác suất
• Ta coi như có một nguồn tin mới, quay lại làm từ
bước 1 cho đến khi tổng 2 xác suất bằng 1 thì
dừng
• từ mã ứng với mỗi lớp tin là tổ hợp các ký mã 0
hoặc 1 của các nhánh cây mà lớp tin đó phụ thuộc
vào, lấy từ nút gốc đến nút cuối
Nhận xét
• Mã Huffman là bộ mã có tính prefix
• Mã Huffman có từ mã tương ứng với lớp tin có
xác suất xuất hiện lớn sẽ ngắn và ngược lại
Ví dụ
45
46. Bài giảng lý thuyết hệ thống thông tin
II. Mã mật
Tổng quan về hệ thống mật mã
Tính bí mật của các hệ thống mật mã
Hệ thống mật mã công khai
Hệ thống mật mã đối xứng
1. Tổng quan về hệ thống mật mã
a. Tổng quan về hệ thống mật mã
• Mong muốn được trao đổi thông tin một cách bí mật
là một trong những đòi hỏi của con người xuất hiện
từ rất sớm trong lịch sử
• Ngành học nghiên cứu cách thức che dấu thông tin
đối với những đối tượng không mong muốn được gọi
là mật mã học
• Một hệ thống mật mã là một hệ thống gồm 5 thành
phần (P, C, K, E, D) thoả mãn các điều kiện sau:
46
47. Bài giảng lý thuyết hệ thống thông tin
• P(plaintext): tập hợp hữu hạn các văn bản gốc hay
văn bản rõ
• C (Ciphertext): tập hợp hữu hạn các văn bản mã hoá
• K (key): không gian khoá hay tập hợp hữu hạn khoá
• Đối với mỗi Ki∈K, tồn tại một luật mã hoá Eki
∈E(Eki: P->C)
• và một luật giải mã Dki ∈D(Dki: C->P) sao cho đối
với văn bản gốc X∈P bất kỳ thì Dki(Eki(x)) = x
b. Mục đích việc sử dụng mật mã
• Đảm bảo tính riêng tý (privacy): ngăn cản
những người sử dụng trái phép thong tin trên kênh
truyền
• Cung cấp khả năng nhận thực
(authentication): ngăn cản những người không có
thẩm quyền đưa hoặc thay đổi thông tin trên kênh
truyền
Ví dụ: trong một số trường hợp như chuyển tiền điện
tử hay ký kết hợp đồng qua mạng, cần phải cung cấp
một phương tiện tương đương với chữ ký trong hợp
đồng viết để có thể giải quyết những tranh chấp
c. Hệ thống mật mã
47
48. Bài giảng lý thuyết hệ thống thông tin
Người gửi Người nhận
Plaintext (P) Plaintext (P)
Encryption Decryption
Key Key (K)
Method Method
(K)
Ek(P) Dk(C)
Ciphertext (C) Ciphertext (C)
Kênh
• Một bản tin nguyên thuỷ (plaintext) được mã hoá bởi
một biến đổi đối xứng Ek tạo nên một bản tin mã hoá
(ciphertext): C=Ek(M)
• Bản tin mã hoá được truyền đi trên một kênh không
đảm bảo hay kênh công khai
• Khi người sử dụng nhận được bản tin mã hoá C sẽ
thực hiện việc giải mã với phép biến đổi: D k =Ek-1 để
nhận được bản tin gốc theo công thức: Dk(C) = Ek-
1
(Ek(M)) = M
• Khoá được cung cấp cùng với văn bản gốc để thực
hiện mã hoá và cùng với văn bản mã để thực hiện
quá trình giải mã
• Người có khoá có thể thực hiện cả quá trình mã hoá
và giải mã
• Khoá được phân phối đến cộng đồng người sd hợp
pháp theo một kênh nào đó đảm bảo độ an toàn cần
48
49. Bài giảng lý thuyết hệ thống thông tin
thiết và thường không thay đổi cho một số lượng
cuộc truyền nhất định
d. Điểm khác nhau giữa mã hoá và mã hoá kênh
• Mã hoá: văn bản gốc không bao giờ xuất hiện trực
tiếp trong văn bản mã
• Mã hoá kênh: kết quả thường ở dạng hệ thống với
các bít gốc không bị thay đổi cùng với các bit chẵn lẻ
• Mã hoá khối: 1 bit lỗi trong khối -> nhiều lỗi khác
-> người sử dụng không hợp lệ (không có khoá) sẽ
rất khó khăn trong việc dự đoán
• Mã hoá kênh: ta mong muốn hệ thống sửa được
càng nhiều lỗi càng tốt để đầu ra ít bị ảnh hưởng của
lỗi xảy ra tại đầu vào.
e. Phân loại hệ thống mật mã
• Dựa vào cách thức tiến hành mã hoá:
- Mã hoá khối
- Mã hoá chuỗi dữ liệu
• Dựa vào mối quan hệ giữa quá trình mã hoá và giải
mã
- Hệ thống mật mã đối xứng
- Hệ thống mật mã không đối xứng (công khai)
• Dựa vào cách thức áp dụng hệ thống mật mã vào quá
trình truyền thông tin
49
50. Bài giảng lý thuyết hệ thống thông tin
- Tiếp cận theo đường truyền
- Tiếp cận từ nút tới nút
f. Một số hệ thống mật mã sơ khởi
Một số hệ thống được sử dụng khi máy tính chưa tham
gia vào hoạt động truyền và xử lý thông tin và khả
năng phá vỡ các hệ thống này
• Bảng chữ cái
• Mỗi ký tự trong văn bản gốc được thay thế bởi một
ký tự khác bằng cách dịch các chữ cái đi một số vị
trí
• Khoá của quá trình chính là số chữ cái dịch, mã
được thay đổi bằng cách sử dụng một khoá mới
• Hình vuông polybius
• Bảng chữ cái được sắp xếp thành một ma trận 5 x
5. Các chữ I, J được gộp lại xem như mọt chữ, đến
khi giải mã sẽ tuỳ ngữ cảnh để xác định.
• Mã luỹ tiến
• Hàng mang nhãn dịch 0 giống như bảng chữ cái
thông thường
• Các chữ cái ở hàng tiếp theo dịch một chữ cái sang
trái so với hàng ngay dưới nó. Điều này tiếp tục
cho đến khi các chữ cái ở tất cả các vị trị trong
vòng
50
51. Bài giảng lý thuyết hệ thống thông tin
• Từ mã được thiết lập bằng cách chọn chữ mã hoá
đầu tiên từ hàng 1, chữ thứ 2 từ hàng 2,…
• Nhận xét:
• Các phương pháp mật mã trên đều đơn giản và
được sử dụng chủ yếu khi máy tính chưa xuất hiện
• Hiện nay các phương pháp này không thể sử dụng
cho thông tin mật được vì có thể phá vỡ dễ dàng
trong một khoảng thời gian ngắn
2. Tính bí mật của các hệ thống mật mã
Việc đánh giá độ an toàn của mỗi phương pháp mật
mã có ý nghĩa rất quan trọng, vì đây là căn cứ để chọn
lựa các phương án phù hợp cho việc đảm bảo an toàn
thông tin
(1). Bí mật tuyệt đối
Có 2 phương pháp cơ bản để xác định độ an toàn
của 1 HT mật mã: An toàn tính toán và an toàn
không điều kiện.
• An toàn tính toán
• Một HT được gọi là an toàn tính toán nếu thuật toán
tốt nhất để phá vỡ nó đòi hỏi N phép tính, với N là
một số xác định rất lớn khiến cho không một hệ
thống tính toán nào có thể hoàn thành công việc
51
52. Bài giảng lý thuyết hệ thống thông tin
trong một khoảng thời gian mà việc phá vỡ HT còn
có ý nghĩa
• Tuy nhiên không có một hệ thống nào có thể được
chứng minh là an toàn theo điều kiện này một cách
tuyệt đối, đơn giản vì không xác định được thuật
toán nào là thuật toán tốt nhất
• Một hệ thống được coi là an toàn tính toán nếu thuật
toán dược biết đến nhiều nhất cũng đòi hỏi một
khoảng thời gian cực lớn để hoàn thành.
• An toàn không điều kiện
• Một hệ thống được gọi là an toàn không điều kiện
nếu không tồn tại một giới hạn tính toán nào để có
thể phá vỡ được hệ thống
• Một hệ thống mã hoá trong đó số lượng các bản tin
gốc bằng số khoá và bằng số bản tin mã hoá được
coi là bí mật tuyệt đối nếu thoả mãn 2 điều kiện:
(a). Chỉ có một khoá duy nhất để chuyển đổi một
bản tin gốc nào đó sang một bản tin mã hoá
(b). Tất cả các khoá đều hoàn toàn tương đương
=> Bí mật tuyệt đối là một mục tiêu rất quan trọng vì
điều này có nghĩa hệ thống sẽ đạt được an toàn không
điều kiện
(2). Entropi và độ không chắc chắn
52
53. Bài giảng lý thuyết hệ thống thông tin
• Độ không chắc chắn được định nghĩa là entropi có
điều kiện của X đối với Y, là cách đánh giá chính xác
hơn để một hệ thống phân tích mật mã có thể phá
khoá được
• Độ không chắc chắn có thể được xem là xác suất bản
tin gốc X không được gửi khi nhận được bản tin mã
hoá Y. Người phân tích mật mã mong muốn H(X,Y)
tiến tới 0, tức là khả năng phân tích Y tăng lên.
• Tỷ lệ của ngôn ngữ và độ dư
• Tỷ lệ thực của một ngôn ngữ ( r) là số bit thông tin
trung bình của một ký tự và được xác định theo độ
dài của bản tin N:
r = H(X)/N
Với H(X) là entropi của bản tin
• Tỷ lệ tuyệt đối của một ngôn ngữ hay entropi tuyệt
đối r’ là số bit thông tin tối đa trong mỗi ký tự với giả
thiết mọi chuỗi ký tự có xác suất xảy ra như nhau: r’
= log2L
với L: là số chữ cái của ngôn ngữ cần xác định
Ví dụ: đối với tiếng Anh thì L=26
-> r’ = log2 26 ≈ 4.7 (bit/ký tự)
• Độ dư D của một ngôn ngữ là hiệu số giữa tỷ lệ tuyệt
đối và tỷ lệ thực: D = r’ - r
53
54. Bài giảng lý thuyết hệ thống thông tin
• Khoảng cách unicity và bí mật lý tưởng
• Khoảng cách unicity là số bản tin mã hoá nhỏ nhất
(N ) sao cho độ không chắc chắn của khoá gần tới 0
(Nghĩa là: khoảng cách unicity chính là số bản tin mã
hoá cần thiết để xây dựng khoá và phá vỡ hệ thống)
• Một hệ thống bí mật lý tưởng là hệ thống mà độ
không chắc chắn của khoá không tiến tới 0 khi số
lượng bản tin mã hoá hữu hạn (nghĩa là: khoá không
bị phát hiện cho dù người phân tích thu được bao
nhiêu bản tin đi nữa)
3. Hệ thống mật mã khóa công khai
• (P,C,K,E,D)
– P: văn bản gốc
– C: văn bản mã
– K: không gian khoá
– E: hàm mã hoá
– D: hàm giải mã
• Một số câu hỏi đưa ra:
– Mật mã và toán học có thể tách rời được
không? tại sao có hoặc tại sao không?
• Hệ thống mật mã khoá công khai sử dụng 2 khoá:
một cho mã hoá và một cho giải mã
54
55. Bài giảng lý thuyết hệ thống thông tin
• Thuật toán mã hoá và khoá có thể được công bố rộng
rãi
• Khoá cho giải mã bắt buộc phải bí mật
• Hệ thống mật mã khoá công khai:
• Tính chất cơ bản
• Thuật toán mã hoá EK và thuật toán giải mã DK có thể
đổi chỗ trong việc chuyển đổi bản tin gốc M và bản
tin mã hoá C
Nghĩa: nếu C = EK(M) thì M = DK(C) = DK(EK(M))
• Khi cho trước K thì E K và DK có thể dễ dàng tìm ra.
Đối với K bất kỳ thì việc xác định DK từ EK không
thể thực hiện được trong một khoảng thời gian có ý
nghĩa
• Hệ thống mật mã khoá công khai không bao giờ đạt
được an toàn thông tin không điều kiện
• Hệ thống mật mã khoá công khai có tốc độ chậm
Ngoài ra, hệ thống mật mã khoá công khai tỏ ra có
nhiều triển vọng trong một số vấn đề như nhận thực
và chữ ký điện tử.
a. Mô hình Rivest–Shamir–Adeiman (RSA)
• Trong mô hình RSA, bản tin gốc được xem như là
các số nguyên trong khoảng từ 0 đến n-1
55
56. Bài giảng lý thuyết hệ thống thông tin
• Mỗi người sử dụng lựa chọn số n riêng của mình và
một cặp số nguyên dương e và d
• Khoá mã hoá (e, n) được công bố rộng rãi
• Khoá giải mã (d, n) được giữ bí mật
• Quá trình mã hoá M và giải mã C được mô tả như
sau:
Mã hoá: C = E(M) = (M)e mod n
Giải mã: M = D(C) = (C)d mod n
Các phép tính này đều có thể dễ dàng tính toán và kết
quả thu được cũng là các số nguyên trong khoảng từ 0
đến n-1
• Thuật toán RSA
• Bản tin gốc là số nguyên trong khoảng 0 đến n-1
• Chọn n là số nguyên với n = p*q, trong đó p và q là
hai số nguyên tố đủ lớn (trong khi n được công bố
rỗng rãi thì p và q được bảo mật)
• Tính Φ(n) = (p-1)(q-1)
• Chọn một số nguyên tố d ngẫu nhiên sao cho:
USCLN(Φ(n), d) = 1
• Chọn e sao cho: e*d mod Φ(n) = 1
Ví dụ:
• Giả sử chọn p = 47; q = 59
Ta có: n = p*q = 47*59 = 2773
56
57. Bài giảng lý thuyết hệ thống thông tin
Φ(n) = (p-1)(q-1) = 2668
• Chọn d sao cho: USCLN(Φ(n), d) = 1 => chọn d
= 157
• Chọn e để: e*d mod Φ(n) = 1 hay 157*e mod
2668 = 1 => e = 17
Giả sử cần gửi bản tin 0112 1200 0718. Ở đây ta
có thể mã hoá trên các khối 4 số tại mỗi thời
điểm: 4 số đầu: C = (M)e mod n = (0112)17 mod
2773 = 1084
Tiếp tục cho đến hết ta thu được chuỗi: 1084
1444 2663
Bản tin gốc được xác định từ bản tin mã hoá:
M=(C)157 mod 2773
b. Mô hình Merkle - Hellman
Thuật toán Merkle –Hellman (còn gọi là thuật toán
knapsack) do xuất phát từ một bài toán cổ điển gọi là
bài toán knapsack
• Bài toán knapsack
• Một ba lô chứa một tập hợp các vật được đặc trưng
bởi trọng lượng của nó. Cho biết tổng khối lượng của
các đồ vật trong ba lô và một tập hợp các đồ vật có
khối lượng cho trước. Hãy xác định các đồ vật chứa
trong ba lô.
57
58. Bài giảng lý thuyết hệ thống thông tin
• Đối với bài toán trên ta biểu diễn dưới dạng 2 vectơ:
- vectơ knapsack
- vectơ dữ liệu
• Vectơ knapsack là một vectơ n chiều tương ứng với
đồ vật có thể: a = {a1, a2, …, an}
• Vectơ dữ liệu là vectơ n chiều với các thành phần là
các số nhị phân: X = {x1, x2, …, xn}
• S là khối lượng của ba lô, là tổng các thành phần của
vectơ knapsack: S = a1x1 + a2x2 + … + anxn = a.X
• Bài toán cho trước S, hãy xác định X
• Thuật toán Merkle- Hellman
• Thiết lập vectơ a có các thành phần thoả mãn điều
i -1
kiện tăng trội: a > ∑a
i (i = 1, 2,..., n)
j
j =1
n
M > ∑ ai
i =1
• Chọn một số nguyên tố M sao cho:
• Chọn một số W bất kỳ: 1 < W < M
và W-1 sao cho: W.W-1 mod M =1
(vectơ a, M, W, W-1 được giữ bí mật)
• Thiết lập vectơ a’ từ a như sau: ai’ = W.ai mod M
(Vectơ a’ được tạo ra chính là vectơ knapsack với
cửa sập một chiều)
58
59. Bài giảng lý thuyết hệ thống thông tin
• Khi muốn truyền đi một vectơ X ta nhân chúng vơi
a’ để thu được S rồi gửi S đi trên kênh truyền: S =
a’.X
-1
• Người nhận sẽ biến đổi S thành S’: S’ = W . S mod
M= a.X
Do người sử dụng hợp pháp biết được a và vectơ
này tăng trội nên có thể dễ dàng giải mã để tìm ra X
Ví dụ 1:
• Giả sử thuê bao A muốn tạo nên một hàm mật mã
và giải mã khoá công khai
• Đầu tiên thuê bao A phải tạo nên một vectơ tăng
trội a:
a = (171, 197, 459, 1191, 2410, 4517)
Ta có: ∑ ai’ = 8945
•Chọn một số nguyên tố M >8945
một số ngẫu nhiên W: 1 < W < M
và xác định W-1: W.W-1 mod M =1
Ta có: M = 9109; W = 2251 => W-1 = 1388
• Tạo vectơ một chiều a’ với ai’ = W. ai mod M
Ta có: a’ = (2343, 6215, 3892, 2895, 5055, 2123)
Rõ ràng a’ không tăng trội
Ví dụ 2:
• Giả sử thuê bao A muốn gửi thông tin cho B:
59
60. Bài giảng lý thuyết hệ thống thông tin
Nếu thông tin muốn gửi là X = 010110 thì A sẽ
gửi S với
S = a’.X = 14165
• Khi B nhận được S sẽ chuyển thành S’:
S’ = a.X = W-1. S mod M
= 1388 x 14165 mod 9109 = 3798
• với S’ = 3798 và a đã biết có thể dễ dàng tìm lại
được X
60
61. Bài giảng lý thuyết hệ thống thông tin
Chương 4: MÃ HÓA KÊNH
I. Mã khối tuyến tính
1. Giới thiệu
Mã khối tuyến tính được xây dựng dựa trên các kết
quả của đại số tuyến tính, là một lớp mã được dùng rất
phổ biến trong việc chống nhiễu
Định nghĩa
- Một mã khối có chiều dài n gồm 2 k từ mã được gọi
là mã tuyến tính C(n,k) nếu và chỉ nếu 2 k từ mã
hình thành một không gian vectơ con k chiều của
không gian vectơ n chiều gồm tất cả các vectơ n
thành phần trên trường GF(2)
- Mã tuyến tính C(n,k) có mục đích mã hoá những
khối tin (hay thông báo) k bit thành những từ mã n
61
62. Bài giảng lý thuyết hệ thống thông tin
bit. Nghĩa là, trong n bit của từ mã có chứa k bit
thông tin
- Quy ước viết dấu + thay cho dấu ⊕ và dấu cộng
được hiểu theo ngữ cảnh
2. Các khái niệm và nguyên lý hoạt động
Cách biểu diễn mã – Ma trận sinh
- Mã tuyến tính C(n,k) là một không gian con k
chiều của không gian vectơ n thành phần, do đó tồn
tại k từ mã độc lập tuyến tính. Chẳng hạn (g 0, g1, …,
gk-1) sao cho mỗi từ mã trong C là một tổ hợp tuyến
tính của k từ mã này (với ai ∈{0,1} ∀i=0, 1, …, k-
1)
W = a0g0 + a1g1 + … + ak-1gk-1
k từ mã này tạo thành một ma trận cấp k x n sau:
g0 g00 g01 … g0(n-1)
g1 g10 g11 … g1(n-1).
Gkxn = . =
. . … .
. . . … .
. . . … .
gk-1 g(k-1)0 g(k-1)1 … g(k-1)(n-1)
62
63. Bài giảng lý thuyết hệ thống thông tin
Với gi = (gi0, gi1, …, gi(n-1)), với i= 0, 1, …, k-1
Cách mã hóa
- Nếu u = (a0, a1, …, ak-1) là thông tin cần được mã
hoá thì từ mã w tương ứng với u được lấy bằng
cách:
W = u x G = (a0, a1, …, ak-1) x G
Hay: w = a0g0 + a1g1 + … + ak-1gk-1
- Vì các từ mã tương ứng với các thông báo được
sinh ra bởi G theo cách trên nên G được gọi là ma
trận sinh của bộ mã.
Chú ý:
- Bất kỳ k từ mã độc lập tuyến tính nào cũng có thể
được dùng làm ma trận sinh cho bộ mã
- Một bộ mã tuyến tính (hay còn gọi là không gian
mã ) có thể có nhiều ma trận sinh khác nhau cùng
biểu diễn
- Mỗi ma trận sinh tương ứng với một cách mã hoá
khác nhau.
VD: Cho một ma trận sinh của một mã tuyễn tính
C(7,4)
63
64. Bài giảng lý thuyết hệ thống thông tin
g 0 1101000
g
1011100
G4x7= =
1
g 2 0100011
g 3 1010001
- Nếu u=(1101) là thông tin cần mã hóa thì từ
mã tương ứng w
- W= 1*g0+1*g1+0*g2+1*g3 = 11001001
Cách giải mã
- Lấy ma trận sinh như ở ví dụ trên
- u=(a0,a1,a2,a3) là thông báo và w=(b0,b1,b2,b3,
b4,b5,b6) la từ mã tương ứng
- Chúng ta có hệ phương trình sau liên hệ giữa u và
w
W=u*G b0=a0+a1+a3 (1)
b1=a0+a2 (2)
b2=a1+a3 (3)
b3=a0+a1 (4)
b4=a1 (5)
b5=a2 (6)
b6=a2+ a3 (7)
64
65. Bài giảng lý thuyết hệ thống thông tin
- Chọn 4 phương trình đơn giản nhất để giải a i theo
các bj. Chẳng hạn các phuơng trình 4,5,6,7 chúng ta
giải được
- Hệ phương trình trên được gọi là hệ phương trình
giải mã
- Có thể có nhiều hệ phuơng trình giải mã khác
nhau nhưng cho kết quả giống nhau
W=1001011 ?
W=0101110 ?
Mã tuyến tính hệ thống
Một mã tuyến tính C(n, k) được gọi là mã tuyến tính
hệ thống nếu mỗi từ mã có một trong hai dạng sau:
Dạng 1: k bit thông tin n- k bit kiểm tra
n- k bit kiểm tra k bit thông tin
Dạng 2:
65
66. Bài giảng lý thuyết hệ thống thông tin
Trong đó: k bit thông tin ban đầu
n- k bit được gọi là phần dư thừa hay phần
kiểm tra
Ma trận sinh hệ thống
1 0 … 0 P00 P01 … P0(n-k-1)
0 1 … 0 P10 P11 … P1(n-k-1)
Ikk | Pk(n-k) . . . . . .
. . . . . .
Gkxn = = . . . . . .
0 0 … 1 P(k-1)0 P(k-1)1 … P(k-1)(n-k-1)
3. Phát hiện sai và sửa sai
Nguyên lý phát hiện sai: Kiểm tra xem tổ hợp
nhận có phải là từ mã hay không, nếu không thì tổ hợp
nhận là sai.
Nguyên lý sửa sai: Kiểm tra xem tổ hợp nhận có
khoảng cách Hamming gần với từ mã nào nhất thì đó
chính là từ mã đúng được phát đi.
Nguyên lý này được gọi là nguyên lý khoảng cách
Hamming tối thiểu
Không gian bù trực giao:
66
67. Bài giảng lý thuyết hệ thống thông tin
• Cho S là một không gian con k chiều của không gian
V n chiều.
• Gọi Sd là tập tất cả các vectơ v trong V sao cho ∀ u ∈
S, u x v = 0 (phép nhân vô hướng của hai vectơ). S d
được chứng minh là một không gian con của V và có
số chiều dài là n – k. Sd được gọi là không gian bù
trực giao của S và ngược lại.
Hệ quả:
• Mỗi ma trận G bất kỳ kích thước k x n với k hàng
độc lập tuyến tính luôn tồn tại ma trận H kích thước
(n- k) x n với (n – k) hàng độc lập tuyến tính sao cho
G x HT = 0, trong đó HT là ma trận chuyển vị của ma
trận H.
• Nói cách khác, các vectơ hàng của H đều trực giao
với các vectơ hàng của G
Cách phát hiện sai:
Nếu v là một từ mã được sinh ra từ ma trận sinh G có
ma trận trực giao tương ứng là H thì
V x HT=0
Nếu ngược lại: V x HT=0 thì v là từ mã
Ma trận kiểm tra:
67
68. Bài giảng lý thuyết hệ thống thông tin
• Ma trận kiểm tra của một bộ mã có ma trận sinh G kxn
là ma trận H có kích thước (n-k)xn sao cho: GxH T =
0
T
• Vectơ sửa sai: vxH được gọi là vecto sửa sai của v
và được kí hiệu là s(v). v là từ mã khi và chỉ khi
s(v)=0
• Ví dụ: Tìm ma trận kiểm tra ứng với ma trận sinh
sau:
- H có kích thước 3x7
- Gọi h=(a0,a1,a2,a3,a4,a5,a6) là một hàng bất kỳ
của H, h trực giao với mọi hàng của G nên chúng ta
có hệ bốn phương trình sau:
-Vấn đề là tìm được 3 vecto h độc lập tuyến tính là
nghiệm của hệ phương trình trên.
68
69. Bài giảng lý thuyết hệ thống thông tin
-Chú ý: Hệ phương trình trên có thể cho phép chúng
ta giải bốn biến theo 3 biến còn lại. Chẳng hạn
chúng ta giải a3,a4,a5,a6 theo a0,a1,a2 như sau:
- Cho (a0,a1,a2) lần lượt các giá trị (1,0,0), (0,1,0),
(0,0,1) (độc lập tuyến tính với nhau), ta xác định được
(a3,a4,a5,a6) lần lượt là (1,0,1,1), (1,1,1,0), (0,1,1,1)
Chú ý: Có thể tồn tại nhiều ma trận kiểm tra khác
nhau của cùng một bộ mã và chúng đều có khả năng
kiểm tra như nhau
II. Mã vòng
1. Giới thiệu
Định nghĩa: Một mã tuyến tính C(n,k) được gọi là
mã vòng nếu w=a0a1a2an-1 là một từ mã thì v= an-
1a0a1an-2 cũng là một từ mã
Mã vòng là mã có tính vòng, có nghĩa là dịch vòng
một từ mà thì kết quả cũng là một từ mã.
69
70. Bài giảng lý thuyết hệ thống thông tin
Đa thức mã: Nếu w=a0a1a2an-1 là một từ mã thì
w(x)=a0 + a1x +…+ an-2xn-2 + an-1xn-1 là đa thức mã
tương ứng với từ mã w
2. Các tính chất của mã vòng.
Đa thức mã khác 0 có bậc nhỏ nhất là duy nhất. Hay
nói cách khác tồn tại hai đa thức mã khác 0, khác
nhau và cùng có bậc nhỏ nhất.
Hệ số tự do g0 phải bằng 1
Một đa thức v(x) trên trường GF(2) có bậc <= n-1 là
đa thức mã nếu và chỉ nếu nó là một bội số của g(x),
Tức là nó có thể viết v(x)=q(x)*g(x), g(x) gọi là đa
thức sinh
Đa thức sinh của một mã vòng C(n,k) có bậc r=n-k
Đa thức sinh của một mã vòng C(n,k) là một ước số
của xn +1
Nếu g(x) là một đa thức có bậc (n-k) và là ước số
của (xn + 1) thì g(x) sinh ra mã vòng C(n,k), hay nói
cách khác g(x) là đa thức sinh của mã vòng C(n,k)
nào đó
VD: Bảng sau đây trình bày mã vòng C(7,4). Đây là
một mã tuyến tính và có tính vòng.
70
71. Bài giảng lý thuyết hệ thống thông tin
3. Ma trận sinh và ma trận hệ thống
a. Ma trận sinh của mã vòng
Một từ mã là một tổ hợp tuyến tính của các từ mã
tương ứng với các đa thức mã g(x), x*g(x),…,xk-
1
*g(x). Với chú ý rằng các đa thức g(x), x*g(x),…,xk-
1
*g(x) độc lập tuyến tính với nhau. Vì vậy ma trận
sinh của mã vòng C(n,k) sẽ là, trong đó
g0=gn-k=1.
Ví dụ: Tìm mã vòng C(7,4)
71
72. Bài giảng lý thuyết hệ thống thông tin
Đa thức sinh của mã vòng bậc bằng 3 và là một ước số
của x7+1. Phân tích đa thức ta được.
- 2 thừa số của x7+1 cùng có bậc 3, mỗi thừa số sẽ sinh
ra một mã vòng C(7,4). Bây giờ chúng ta chọn chẳng
hạn:
- Ma trận sinh của mã vòng:
b. Tìm mã vòng hệ thống
- Cho ma trận sinh như trên:
- Biến đổi ma trận sinh thành ma trận sinh dạng hệ
thống.
- Từ dạng hệ thống loại 1 ta dịch k bit để biến đổi sang
dạng hệ thống loại 2 và ngược lại.
Ví dụ: Với ma trận sinh hệ thống dạng 1 như sau. Biến
đổi về ma trận hệ thống dạng 2. - Sau khi biến đổi
72
73. Bài giảng lý thuyết hệ thống thông tin
h3=h3+h1, h4=h4+h1+h2 ta được ma trận sinh hệ thống
dạng 2
- Dịch 4 bit đối với ma trận sinh hệ thống dạng 2 ta
được ma trận hệ thống dạng 1
c. Mã hóa thành từ mã hệ thống
Ngoài việc dùng ma trận sinh hệ thống để mã hóa một
thông báo thành từ mã hệ thống, ta có thể dùng cách
sau đây để mã hóa thông báo u=a0a1…. ak-1 thành từ mã
hệ thống dạng 2 là w= b0b1….bn-k ak-a0a1…. ak-1 trong đó
n-k bit bi là các n-k bit kiểm tra
• Gọi u(x) là đa thức tương ứng với thông báo u.
• Vì vậy bậc của u(x)<= k-1.
n-k
• Chi x * u(x) cho g(x) ta được
73
74. Bài giảng lý thuyết hệ thống thông tin
Vì xn-k*u(x) + a(x) là bội của g(x) nên nó là đa thức
mã
VD:
d. Ma trận kiểm tra mã vòng
VD:
III. Mã chập
1. Khái niệm
Trường hợp sử dụng
74
75. Bài giảng lý thuyết hệ thống thông tin
- Nếu kênh có hệ số nhiễu nhỏ: Sử dụng nhiều ký
hiệu, nhiều mức tín hiệu, xử lý tức khắc từng ký
hiệu
- Nếu kênh có hệ số nhiễu lớn: dùng càng ít ký
hiệu càng tốt, xử lí một khối các ký hiệu nhận
được, dùng tất cả các thông tin của đầu ra kênh
tin, sử dụng các tiêu chuẩn thống kê
• Phép toán chập: Nhiều ký hiệu của nguồn đầu vào
được đưa tuần tự vào các bộ biến đổi. Kết quả của
các phép biến đổi được tổng hợp lại thành đầu ra
• Mã chập biến đổi các ký hiệu nguồn thành các ký
hiệu đầu ra sử dụng một bộ nhớ
• Khác với các phương pháp mã hóa đã học, mã chập
mãhóa một số lượng tùy ý các ký hiệu cùng một lúc
• Tốc độ lập tin đầu ra của mã chập nhỏ hơn tốc độ lập
tin đầu vào: 1/R
2. Mã hóa
Nguyên tắc
• Sử dụng một thanh ghi dịch để lưu trữ các ký hiệu
đầu vào
• Sử dụng các mạch logic để tính toán các ký hiệu đầu
ra
75
76. Bài giảng lý thuyết hệ thống thông tin
• Sử dụng bộ dồn kênh để xếp các ký hiệu đầu ra vào
một chuỗi tuần tự
3. Giải mã
Thuật toán Viterby
• Bài toán tìm đường ngắn nhất trong đồ thị
Độ phức tạp NP
Chỉ có các lời giải gần đúng
Đặc biệt: Trellis. VD 1000 ký hiệu
• Dựa trên cơ sở khẳng định
• Trong một treliss, nếu Ek+1 là đường đi tối ưu thì Ek
là đường đi tối ưu
• Giải thuật Viterby giảm độ phức tạp xuống còn tuyến
tính
76