Dữ liệu là gì? Cách biểu diễn thông tin trong máy tính

Related Articles

4.9 / 5 – ( 301 bầu chọn ) Dữ liệu là gì ? big data là gì ? những loại dữ liệu và cách sử dụng. Cách trình diễn thông tin trong máy tính Kể từ khi ý tưởng ra máy tính, con người đã sử dụng thuật ngữ dữ liệu để chỉ thông tin máy tính, và thông tin này được truyền đi hoặc tàng trữ. Nhưng đó không phải là định nghĩa dữ liệu duy nhất ; cũng sống sót những loại dữ liệu khác. Vậy, dữ liệu là gì ? Dữ liệu hoàn toàn có thể là văn bản hoặc số được viết trên sách vở, hoặc nó hoàn toàn có thể là byte và bit bên trong bộ nhớ của những thiết bị điện tử, hoặc nó hoàn toàn có thể là những dữ kiện được tàng trữ bên trong tâm lý của một người.

Dữ liệu là gì?

Dữ liệu ( data ) là chuỗi bất kể của một hoặc nhiều ký hiệu có ý nghĩa trải qua việc lý giải một hành vi đơn cử nào đó. Dữ liệu cần phải được thông dịch để trở thành thông tin. Để dữ liệu thành thông tin, cần xem xét 1 số ít tác nhân gồm có người tạo ra dữ liệu và thông tin được mong ước từ dữ liệu đó. ( Nguồn Wikipedia )

Bây giờ, nếu chúng ta nói về dữ liệu chủ yếu trong lĩnh vực khoa học, thì câu trả lời cho “dữ liệu là gì” sẽ là dữ liệu là các loại thông tin khác nhau thường được định dạng theo một cách cụ thể.

Dữ liệu máy tính là gì?

Dữ liệu máy tính là thông tin giải quyết và xử lý hoặc tàng trữ bởi một máy tính. tin tức này hoàn toàn có thể ở dạng tài liệu văn bản, hình ảnh, đoạn âm thanh, chương trình ứng dụng hoặc những dạng dữ liệu khác. … Điều này được cho phép truyền dữ liệu từ máy tính này sang máy tính khác bằng liên kết mạng hoặc những thiết bị đa phương tiện khác nhau.

Các kiểu dữ liệu phổ biến bao gồm:

  • Số nguyên
  • Số dấu phẩy động
  • Ký tự
  • Chuỗi
  • Boolean
  • Âm thanh
  • Hình ảnh

Để đạt được hiệu suất cao cao khi giải quyết và xử lý, tàng trữ và truyền thông tin điều thiết yếu là phải tìm cách tổ chức triển khai và trình diễn ( bộc lộ ) thông tin trong MTĐT một cách hài hòa và hợp lý. Như đã biết, dữ liệu là hình thức màn biểu diễn thông tin. Vậy so với máy tính dữ liệu chính là những thông tin đã được mã hoá dưới dạng số nhị phân. Dữ liệu – thông tin được máy tính giải quyết và xử lý hoàn toàn có thể có những dạng khác nhau. Máy tính hoàn toàn có thể đo lường và thống kê trên những số, hoàn toàn có thể giải quyết và xử lý thông tin chữ hay thông tin logic, hoàn toàn có thể giải quyết và xử lý những thông tin đa phương tiện ( multimedia ) như âm thanh và hình ảnh. Máy tính còn hoàn toàn có thể giải quyết và xử lý tri thức ( knowledge ). tin tức về một đối tượng người dùng hoàn toàn có thể rất phức tạp và hoàn toàn có thể được bộc lộ bằng nhiều dữ liệu có kiểu khác nhau. Ví dụ thông tin về một cán bộ hoàn toàn có thể có tên, nơi sinh là văn bản ; ngày sinh, lương là số ; ảnh chân dung là ảnh … Để tàng trữ trong MTĐT cả dữ liệu số, phi số và tri thức đều được mã hóa bằng những mã nhị phân. Theo nghĩa đó mọi dữ liệu dù là thực chất có khác nhau nhưng đều được số hoá.

Dữ liệu kiểu số

Biểu diễn số dấu phảy tĩnh

Với kiểu màn biểu diễn số dấu phảy tĩnh, người ta chọn một độ rộng n bít nào đó cho một số ít. Trong n bit này, bít tiên phong dùng để mã dấu của số theo cách bít 0 dùng để mã dấu dương, bít 1 dùng để mã dấu âm. Trong n-1 bít còn lại, lấy một số ít bít cho phần nguyên và phần còn lại cho phần lẻ. Ví dụ trong dãy 16 bít sau nếu ta dùng 7 bít cho phần nguyên và 8 bít cho phần lẻ và một bít cho dấu thì trình diễn sau bộc lộ số 1100101,11011011 Biểu diễn số dấu phảy tĩnh fixed point numberBiểu diễn số dấu phảy tĩnh fixed point number Do với mỗi kiểu màn biểu diễn đã chọn, vị trí dấu phảy mang tính quy ước nằm ở một vị trí cố định và thắt chặt nên kiểu màn biểu diễn này gọi là kiểu dấu phảy tĩnh. Trên trong thực tiễn hầu hết những thiên nhiên và môi trường giải quyết và xử lý quy ước dấu phảy đứng sau ô sau cuối có nghĩa là chỉ vận dụng chính sách dấu phảy tĩnh cho số nguyên. Độ dài của trình diễn tuỳ thuộc vào nhu yếu. Các số nguyên thường dùng đa phần có những loại độ dài 8 bit, 16 bít và 32 bit. Mã số nguyên trình diễn trên đây được gọi là mã thuận. Thực ra để tiện cho việc triển khai những phép tính đại số, người ta còn sử dụng nhiều loại mã số nguyên khác như mã ngược, mã bù … mà ta sẽ không trình diễn ở đây.

Biểu diễn số dấu phảy động

Biểu diễn số dấu phảy động - floating point numberBiểu diễn số dấu phảy động – floating point number Biểu diễn dấu phảy tĩnh không cung ứng được một số ít nhu yếu, đặc biệt quan trọng trong giám sát gần đúng. Đối với những bài toán tính gần đúng người ta hoàn toàn có thể gật đầu những sai số là lớn về tuyệt đối nhưng tỉ số của sai số trên giá trị thực của số là nhỏ ( sai số tương đối ). Mặt khác cách màn biểu diễn số trong dấu phảy tĩnh không đủ mềm dẻo để bộc lộ những số quá lớn hoặc quá bé. Đã từ lâu, khi có nhu yếu giám sát gần đúng trên máy tính người ta thường dùng một loại trình diễn số khác là biểu dấu phảy động.

Dữ liệu phi số

Mã hoá chữ và dữ liệu kiểu văn bản.

Đơn vị cơ sở của dữ liệu văn bản là chữ. Ở đây khái niệm chữ cần được hiểu theo nghĩa rộng, không riêng gì là những vần âm la tinh mà kể cả chữ số, những dấu chính tả, những dấu toán học, những kí hiệu để trình diễn. Mặt khác không phải dân tộc bản địa nào cũng dùng chữ latinh nên so với 1 số ít dân tộc bản địa hoàn toàn có thể có những chữ riêng. Ví dụ bộ chữ Trung hoa có đến hơn 60 nghìn chữ. Để đỡ gây nhầm lẫn giữa khái niệm chữ theo nghĩa vần âm thường thì ( letter ) với “ chữ ” dùng trong văn bản nói chung kể cả văn bản máy tính, từ đây trở đi tất cả chúng ta sẽ dùng thuật ngữ ký tự ( character ) với ý nghĩa là một ký hiệu dùng trong văn bản. Nếu dùng một vùng nhớ k bit để mã hoá một chữ thì chỉ hoàn toàn có thể trình diễn được tối đa là 2 k kí tự vì chỉ hoàn toàn có thể tạo được đúng 2K những mã nhị phân khác nhau. Điều này lý giải tại sao người Mỹ chỉ cần 7 bit để mã cho những chữ của họ ; để có thêm những mặt chữ châu Âu, chữ Hy lạp và một số ít ký hiệu trình diễn cũng chỉ cần 8 bít ; trong khi đó người Trung hoa hay người Nhật phải dùng những mã 16 bít. Các văn bản được tưởng tượng như một chuỗi kí tự. Nội dung một cuốn sách, một bài thơ được đưa vào máy tính là những ví dụ đơn cử về thông tin văn bản. Hầu hết những máy tính và thiên nhiên và môi trường lập trình lúc bấy giờ đều sử dụng một byte để mã hoá một chữ.

Các dữ liệu logic

Dữ liệu loại logic chỉ biểu lộ một trong hai trạng thái trái chiều là đúng / sai, hoặc có / không.

Điều này ta thường thấy trong rất nhiều loại hồ sơ. Ví dụ trong lý lịch cá nhân: họ tên, quê quán là dữ liệu kiểu văn bản, ngày tháng năm sinh, lương có thể thể hiện bằng số, còn các thông tin như có là đoàn viên không, có gia đình hay không là các thông tin có kiểu logic.

Các thông tin kiểu logic chịu ảnh hưởng tác động của những phép toán đặc trưng như những phép toán so sánh, những phép toán nhân logic “ và ”, cộng logic “ hoặc ” hay phủ định logic “ không ” ví dụ trong một mạng lưới hệ thống quản trị sinh viên người ta hoàn toàn có thể phải đặt những câu hỏi như : In ra list những sinh viên ( mà ) tuổi Dữ liệu hình ảnh

Hình ảnh cũng hoàn toàn có thể giải quyết và xử lý bằng máy tính. Khác với hình ảnh thường thì, hình ảnh trong máy tính được mã hoá dưới dạng nhị phân. Có rất nhiều kiểu mã hoá ảnh trong đó hai kiểu thông dụng nhất.

Ảnh bitmap

Ảnh bitmapẢnh bitmap Ảnh bitmap ( nghĩa là map những bít ) thể hiện ảnh như một lưới điểm. Như vậy mỗi điểm sẽ phải nằm trong một hàng và một cột nào đó trong lưới, ngoài ra màu của điểm cũng được mã hoá. Các ảnh khí tượng do những vệ tinh chụp gửi về, ảnh cảnh sắc, chân dung đều hoàn toàn có thể bộc lộ theo kiểu này. Ta cũng hoàn toàn có thể đưa một ảnh bất kể vào máy dưới dạng bitmap bằng máy quét ảnh ( scanner ), máy quay video số ( digital video camera ) hay máy chụp ảnh số ( digital camera ) … Nói chung dữ liệu ảnh bitmap là dữ liệu lớn. Vì vậy, người ta thường sử dụng những kỹ thuật nén ảnh trước khi đưa vào máy tàng trữ và Phục hồi ảnh khi trình diễn. Có rất nhiều chuẩn ảnh khác nhau, hầu hết khác nhau ở cách tổ chức triển khai để nén được ảnh mà vẫn giữ được chất lượng và biểu lộ được những hiệu ứng ảnh. Còn lúc hiển thị để xem thì ảnh sẽ được Phục hồi dưới dạng bitmap. Ảnh bộc lộ theo từng điểm còn gọi là ảnh raster.

Ảnh vector

Kiểu thứ 2 thể hiện ảnh theo cách vẽ. Kiểu này chỉ tương thích với những ảnh có thành phần là những điểm rời rạc, những đường hoặc hình bộc lộ bằng những đường biên giới như bản vẽ kiến trúc, những bản vẽ kỹ thuật, map. Cách tàng trữ là lưu thông tin về những thành phần của ảnh. Đối với một đoạn thẳng thì chỉ lưu toạ độ những đầu mút, so với một hình tròn trụ thì chỉ lưu toạ độ tâm và nửa đường kính … Vì thế những ảnh này thường ngăn nắp và dễ phóng to thu nhỏ ( vì chỉ dùng những phép biến hóa toạ độ ). Các ảnh kiểu này gọi là ảnh vector.

Dữ liệu âm thanh

Âm thanh cũng hoàn toàn có thể được giải quyết và xử lý bằng máy tính. Cũng có nhiều giải pháp mã hoá âm thanh. Cách đơn thuần nhất là mã hoá bằng cách xê dịch xê dịch sóng âm bằng một chuỗi những byte bộc lộ biên độ dao dộng tương ứng theo từng khoảng chừng thời hạn bằng nhau. Dĩ nhiên những đơn vị chức năng thời hạn này cần phải đủ nhỏ để không làm nghèo âm thanh. Đơn vị thời hạn này gọi là chu kỳ luân hồi lấy mẫu. Hình vẽ minh hoạ cách tàng trữ giao động sóng âm, theo đó sẽ lưu lại dãy những giá trị sau : Dữ liệu âm thanhDữ liệu âm thanh Khi phát, một mạch điện sẽ Phục hồi lại sóng âm với một rơi lệch gật đầu được. Một cách khác là nghiên cứu và phân tích giao động âm thanh thành tổng những xê dịch điều hoà ( những xê dịch hình sinh với tần số và biên độ khác nhau ) và chỉ lưu lại những đặc trưng về tần số, và biên độ. Còn có nhiều cách mã hoá âm thanh dựa theo những nguyên tắc nén dữ liệu rất hiệu suất cao. Việc số hoá âm thanh cũng được triển khai nhờ những thiết bị chuyên sử dụng. Xử lý âm thanh trên máy tính gồm những việc sau :

  1. Thu và mã hoá âm thanh
  2. Biên tập (sửa chữa, ghép, cắt)
  3. Phân tích (tìm các đặc trưng để nhận dạng tiếng nói). Một số máy tính đã có thể nghe được các lệnh đơn giản. Các máy điện thoại di động hiện nay đã có khả năng nhận dạng tiếng nói
  4. Tổng hợp tiếng nói. Ở mức độ đơn giản máy tính có thể đọc văn bản thành lời.

Biểu diễn vật lý của thông tin trong máy tính

Đối với bộ nhớ trong, những thông tin dữ liệu sau khi mã hoá dưới dạng nhị phân được đưa vào bộ nhớ theo quy ước. Mỗi ngăn của ô nhớ sẽ lưu giữ một trong hai trạng thái được quy ước là một trong hai bit 0 hoặc 1. Với đĩa từ, người ta không ghi mã hoá bit 0 hay 1 theo chiều của từ thông của những vùng nhiễm từ. Vấn đề là khi đọc, đầu đọc trên nguyên tắc cảm ứng từ chỉ hoàn toàn có thể cảm nhận được những trạng thái khác nhau qua sự biến thiên của từ trường. Nếu dùng chiều của từ thông để mã hoá thì không hề phân biệt được những bít giống nhau đứng liền nhau. Thông thường những bít được ghi theo kiểu điều tần. Các bít được biểu lộ qua những kiểu biến thiên của từ trường chứ không phải chiều của từ thông một vùng nhiễm từ trên đĩa. Thực ra cách ghi trên đĩa từ khá phức tạp vì người ta không những chỉ ghi dữ liệu mà còn có những thông tin về địa chỉ và những thông tin đồng nhất giúp cho việc đọc thông tin được đúng chuẩn.

Truyền tin giữa các máy tính như thế nào?

Người ta muốn truyền những bít từ máy này đến máy khác và cách đơn thuần nhất là phân biệt những bit bằng điện áp, ví dụ điện áp 5 v để biểu lộ bít 1, điện áp – 5 v biểu lộ bit 0. Thực tế không khi nào hoàn toàn có thể truyền và nhận những tín hiệu dưới dạng những xung vuông mà khi nào khi chuyển từ mức điện áp nọ đến mức điện áp kia cũng có những quá trình điện áp nhận những giá trị trung gian. Không những thế còn rất nhiều ảnh hưởng tác động khác làm tín hiệu lúc nhận khác với tín hiệu mức thu như sự suy yếu tín hiệu làm biên độ thay đối, hình dạng tín hiệu đổi khác – bị méo và đường cong tín hiệu không trơn như lúc đầu do nhiễu. Những yếu tố này cần được khắc phục bằng những mạch vật lý. Thể hiện những bít bằng mức điện áp chỉ là một cách điều chế tín hiệu mà ta gọi là điều biên. Còn có những chiêu thức điều chế tín hiệu khác gọi là điều tần theo đó, những bít biểu lộ bằng sự biến hóa tần số của tín hiệu và giải pháp điều pha theo đó những bít được bộc lộ bằng pha của tín hiệu hình sin. Người ta cũng tích hợp cả nhiều cách điều chế để hoàn toàn có thể tăng vận tốc truyền tin. Điều chế tín hiệuĐiều chế tín hiệu Một trong những thiết bị được cho phép truyền tin giữa những máy qua mạng điện thoại cảm ứng là modem. Tên “ modem ” có nguồn gốc từ cặp từ “ modulation – demodulation ” nghĩa là điều chế và giải điều chế. Các dữ liệu truyền ra từ một máy tính sẽ được modem điều chế thành tín hiệu tựa như và gửi đi theo đường điện thoại cảm ứng. Modem nhận sẽ giải điều chế từ tín hiệu tựa như thành những bít chuyển cho máy tính nhận. Một cách mã hoá để truyền trong modem là phối hợp điều biên và điều pha được cho phép hoàn toàn có thể truyền tin với vận tốc cao hơn tần số của sóng mang. Còn rất nhiều kiểu truyền thông online khác như truyền thông online nhờ những môi trường tự nhiên không dây như sóng điện từ hay tia hồng ngoại. Đối với mỗi kiểu tiếp thị quảng cáo đó đều có một cách điều chế tín hiệu riêng.

Big data là gì?

Big data – Thuật ngữ Dữ liệu lớn – được sử dụng trong định nghĩa dữ liệu để miêu tả dữ liệu nằm trong khoanh vùng phạm vi petabyte hoặc cao hơn. Dữ liệu lớn cũng được miêu tả dưới dạng 5V : phong phú, khối lượng, giá trị, tính xác nhận và tốc độ. Ngày nay, Thương mại điện tử dựa trên web đã phổ cập thoáng đãng, những quy mô kinh doanh thương mại dựa trên Dữ liệu lớn đã tăng trưởng và chúng coi dữ liệu như một gia tài. Và có rất nhiều quyền lợi của Dữ liệu lớn, ví dụ điển hình như giảm ngân sách, nâng cao hiệu suất cao, nâng cao doanh thu bán hàng, v.v.

Ý nghĩa của dữ liệu mở rộng ra ngoài quá trình xử lý dữ liệu trong các ứng dụng máy tính. Khi nói đến khoa học dữ liệu là gì, một cơ quan được tạo nên từ các dữ kiện được gọi là khoa học dữ liệu. Theo đó, tài chính, nhân khẩu học, sức khỏe và tiếp thị cũng có các ý nghĩa khác nhau của dữ liệu, cuối cùng tạo nên các câu trả lời khác nhau cho dữ liệu là gì.

Nguồn : Dữ liệu là gì ? Big data là gì ? Dữ liệu máy tính là gì ? Cách trình diễn thông tin trong máy tính

Bài viết này có hữu ích với bạn không?

CóKhông

More on this topic

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Advertismentspot_img

Popular stories