Dữ liệu lớn – Wikipedia tiếng Việt

Related Articles

[1]Sự tăng trưởng và số hóa những năng lực tàng trữ thông tin trên toàn thế giới

Dữ liệu lớn (Tiếng Anh: Big data) là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư. Thuật ngữ này thường chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu.[2] “Vài nghi ngờ cho rằng số lượng của dữ liệu có sẵn hiện nay thực sự lớn, nhưng đó không phải là đặc trưng phù hợp nhất của hệ sinh thái dữ liệu mới này.”[3]

Phân tích tập dữ hợp liệu hoàn toàn có thể tìm ra đối sánh tương quan mới tới ” khuynh hướng kinh doanh thương mại hiện tại, phòng bệnh tật, chống tội phạm và vân vân “. [ 4 ] Các nhà khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và những cơ quan chính phủ cũng tiếp tục gặp những khó khăn vất vả với những tập hợp tài liệu lớn trong những nghành gồm có tìm kiếm internet, thông tin kinh tế tài chính doanh nghiệp. Các nhà khoa học gặp số lượng giới hạn trong việc làm cần thống kê giám sát rất lớn, gồm có khí tượng học, bộ gen, [ 5 ] mạng thần kinh, những mô phỏng vật lý phức tạp, sinh vật học và điều tra và nghiên cứu môi trường tự nhiên. [ 6 ]

Tập dữ liệu đang tăng rất nhanh một phần vì chúng được thu thập bởi số lượng thiết bị internet vạn vật ngày càng rẻ và nhiều, ví dụ như các thiết bị di động, anten, nhật ký phần mềm, các thiết bị thu hình, thu thanh, đầu đọc RFID và mạng cảm biến không dây.[7][8] Khả năng lưu trữ thông tin của thế giới đã tăng bình quân gấp đôi sau mỗi 40 tháng từ những năm 1980[9]; riêng năm 2012, mỗi ngày thế giới tạo ra 2.5 exabytes (2.5×1018)[10]. Một câu hỏi cho các tổ chức kinh doanh lớn là xác định ai nên sở hữu các sáng kiến dữ liệu lớn có ảnh hưởng tới toàn bộ tổ chức.[11]

Hệ quản trị cơ sở tài liệu quan hệ, máy bàn và những gói ảo hóa thường khó giải quyết và xử lý tài liệu lớn. Công việc khổng lồ này nhu yếu được giải quyết và xử lý bởi hàng chục, hàng trăm, hoặc thậm chí còn hàng nghìn sever. [ 12 ] Người ta ý niệm tài liệu lớn khác nhau nhờ vào vào năng lực của người dùng và công cụ họ dùng, và năng lực lan rộng ra làm cho tài liệu lớn luôn đổi khác. ” Các tổ chức triển khai đối lập với hàng trăm gigabytes tài liệu ở thời hạn đầu gây ra sự thiết yếu phải xem xét lại những tùy chọn quản trị tài liệu. Mặt khác, hoàn toàn có thể tạo ra hàng chục hoặc hàng trăm terabytes trước khi size tài liệu trở thành một nguyên do quan trọng “. [ 13 ]

Hình ảnh trực quan của sửa đổi trên Wikipedia hằng ngày được tạo ra bởi IBM. Với kích cỡ vài terabyte, những văn bản và hình ảnh trên Wikipedia là một ví dụ của tài liệu lớn .

Dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi. Như năm 2012 thì phạm vi một vài tá terabytes tới nhiều petabytes dữ liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và có quy mô lớn.

Trong báo cáo giải trình nghiên cứu và điều tra năm 2001 và những diễn thuyết tương quan, META Group ( giờ đây là Gartner ) nhà nghiên cứu và phân tích Doug Laney định nghĩa những thử thách và thời cơ tăng tài liệu như thể 3 chiều, tăng giá trị tài liệu, vận tốc vào ra của tài liệu ( velocity ), và khổ số lượng giới hạn của kiểu tài liệu ( variety ). Gartner, và nhiều ngành công nghiệp liên tục sử dụng quy mô ‘ 3V s ‘ để diễn đạt tài liệu lớn. Trong năm 2012, Gartner đã update định nghĩa như sau : ” Dữ liệu lớn là khối lượng lớn, vận tốc cao và / hoặc mô hình thông tin rất phong phú mà nhu yếu phương pháp giải quyết và xử lý mới để cho phép tăng cường ra quyết định hành động, mày mò bên trong và giải quyết và xử lý tối ưu “. Định nghĩa ‘ 3V s ‘ của Gartner vẫn được sử dụng thoáng rộng, và trong tương thích với định nghĩa đồng thuận. là : ” Dữ liệu lớn tiêu biểu vượt trội cho tập thông tin mà đặc thù như khối lượng lớn ( Volume ), vận tốc cao ( Velocity ) và phong phú ( Variety ) để nhu yếu phương pháp nghiên cứu và phân tích và công nghệ tiên tiến riêng không liên quan gì đến nhau để biến nó thành có giá trị “. Thêm nữa, vài tổ chức triển khai đã thêm vào tính xác nhận ( Veracity ) để diễn đạt về nó. 3V s đã được lan rộng ra để bổ trợ đặc tính của tài liệu lớn .

  • Volume: Khối lượng – dữ liệu lớn không có mẫu; nó chỉ thực hiện và lần theo những gì diễn ra
  • Velocity: Tốc độ – dữ liệu lớn thường được xử lý thời gian thực
  • Variety: Đa dạng – dữ liệu lớn có thể thu thập từ văn bản, hình ảnh, âm thanh, video, cộng với nó hoàn thành các phần dữ liệu thiếu thông qua tổng hợp dữ liệu
  • Machine Learning: Máy học – dữ liệu lớn thường không hỏi tại sao và đơn giản xác định hình mẫu.
  • Digital footprint: Dấu chân kỹ thuật số – dữ liệu lớn thường là phụ sinh miễn phí của quá trình tương tác kỹ thuật số.

Big Data được miêu tả bởi những đặc trưng sau :

Volume (Dung lượng)

Số lượng tài liệu được tạo ra và tàng trữ. Kích thước của tài liệu xác lập giá trị và tiềm năng insight – và liệu nó hoàn toàn có thể thực sự được coi là tài liệu lớn hay không .

Variety (Tính đa dạng)

Các dạng và kiểu của tài liệu. Dữ liệu được tích lũy từ nhiều nguồn khác nhau và những kiểu tài liệu cũng có rất nhiều cấu trúc khác nhau .

Velocity (Vận tốc)

Trong trường hợp này nghĩa là vận tốc những tài liệu được tạo ra và giải quyết và xử lý để phân phối những nhu yếu và thử thách trên con đường tăng trưởng và tăng trưởng .

Veracity (Tính xác thực)

Chất lượng của tài liệu thu được hoàn toàn có thể khác nhau rất nhiều, ảnh hưởng tác động đến sự nghiên cứu và phân tích đúng chuẩn .Nhà máy và những mạng lưới hệ thống không thực-ảo hoàn toàn có thể có một mạng lưới hệ thống 6C gồm có :• Kết nối ( cảm ứng và mạng )• Đám mây ( đo lường và thống kê và tài liệu theo nhu yếu )• Nội dung ảo ( mẫu và bộ nhớ )• Nội dung / ngữ cảnh ( ý nghĩa và đối sánh tương quan )• Cộng đồng ( san sẻ và cộng tác )• Tuỳ chỉnh ( cá nhân hoá và giá trị )Dữ liệu phải được giải quyết và xử lý bằng những công cụ tiên tiến và phát triển ( nghiên cứu và phân tích và thuật toán ) để cho ra những thông tin có ý nghĩa. Ví dụ, để quản trị một xí nghiệp sản xuất phải xem xét cả hai yếu tố hữu hình và vô hình dung với những thành phần khác nhau. Các thuật toán tạo thông tin phải phát hiện và xử lý những yếu tố không nhìn thấy được như sự xuống cấp trầm trọng của máy, mài mòn linh phụ kiện, vv. trong xí nghiệp sản xuất .

Nguồn tài liệu lớn đã sống sót dưới nhiều hình thức, thường được thiết kế xây dựng bởi những công ty cho những nhu yếu đặc biệt quan trọng. Bắt đầu từ những năm 1990, những nhà sản xuất thương mại tham gia phân phối những mạng lưới hệ thống quản trị cơ sở tài liệu song song cho những tài liệu lớn. Trong nhiều năm, WinterCorp là công ty phát hành báo cáo giải trình lớn nhất về cơ sở tài liệu. [ 14 ]Năm 1984, Tập đoàn Teradata đưa ra thị trường mạng lưới hệ thống giải quyết và xử lý tài liệu song song DBC 1012. Các mạng lưới hệ thống của Teradata là những mạng lưới hệ thống tiên phong tàng trữ và nghiên cứu và phân tích đến 1 terabyte tài liệu vào năm 1992. Ổ đĩa cứng đã đạt đến mức dung tích 2.5 GB vào năm 1991 nên định nghĩa dữ liệu lớn liên tục tăng trưởng theo quy luật Kryder. Teradata đã thiết lập mạng lưới hệ thống tiên phong dựa trên RDBMS hoàn toàn có thể nghiên cứu và phân tích hàng petabytes tài liệu vào năm 2007. Đến năm 2017, có hàng chục những cơ sở tài liệu dựa trên mạng lưới hệ thống của Teradata có dung tích hàng petabyte, trong đó tài liệu lớn nhất vượt quá 50 petabytes. Cho đến năm 2008, 100 % mạng lưới hệ thống đều giải quyết và xử lý những tài liệu quan hệ có cấu trúc. Do đó, Teradata đã thêm những kiểu tài liệu phi cấu trúc gồm có XML, JSON và Avro .Năm 2000, Seisint Inc. ( nay là Tập đoàn LexisNexis ) đã tăng trưởng một khung san sẻ tệp dựa trên cấu cấu trúc C + + để tàng trữ và truy vấn tài liệu. Hệ thống này tàng trữ và phân phối tài liệu có cấu trúc, bán cấu trúc, và phi cấu trúc trên nhiều sever. Người dùng hoàn toàn có thể truy vấn bằng một phương ngữ C + + gọi là ECL. ECL sử dụng phương pháp ” vận dụng giản đồ khi truy vấn tài liệu ” để suy luận cấu trúc tài liệu được tàng trữ khi nó được truy vấn, thay vì khi nó được tàng trữ. Năm 2004, LexisNexis mua lại Seisint Inc. [ 15 ] và trong năm 2008 đã mua lại ChoicePoint, Inc. [ 16 ] cùng với nền tảng giải quyết và xử lý song song vận tốc cao của họ. Hai nền tảng đã được sáp nhập vào mạng lưới hệ thống HPCC ( High-Performance Computing Cluster ) và HPCC có mã nguồn mở dựa trên giấy phép Apache v2. 0 vào năm 2011. Khoảng cùng thời gian đó, mạng lưới hệ thống Quantcast File đã được phát hành. [ 17 ]Năm 2004, Google xuất bản một bài báo về một quy trình gọi là MapReduce sử dụng một kiến ​ ​ trúc tựa như. MapReduce phân phối một quy mô giải quyết và xử lý song song, và phát hành những ứng dụng tương quan để giải quyết và xử lý lượng tài liệu khổng lồ. Với MapReduce, những truy vấn được chia nhỏ và truyền đi qua những nút mạng song song và được giải quyết và xử lý song song ( bước Map ). Các tác dụng sau đó được tích lũy và phân phối ( Bước Reduce ). Khuôn mẫu này rất thành công xuất sắc [ 18 ] nên những công ty khác cũng muốn sao chép những thuật toán của nó. Do đó, Google đã tiến hành khuôn mẫu MapReduce trải qua dự án Bất Động Sản mã nguồn mở Apache Hadoop. [ 19 ]Các nghiên cứu và điều tra vào năm 2012 cho thấy cấu ​ ​ trúc nhiều lớp là một lựa chọn để xử lý những yếu tố của giải quyết và xử lý tài liệu lớn. Một kiến ​ ​ trúc phân tán song song phân tán tài liệu trên nhiều sever ; những thiên nhiên và môi trường thực thi song song này hoàn toàn có thể cải tổ đáng kể vận tốc giải quyết và xử lý tài liệu. Kiểu cấu ​ ​ trúc này chèn tài liệu vào một DBMS song song, triển khai việc sử dụng những khung nền MapReduce và Hadoop. Loại khung nền này sẽ tăng sức mạnh giải quyết và xử lý thông suốt đến người dùng cuối bằng cách sử dụng một sever ứng dụng đầu cuối. [ 20 ]Phân tích tài liệu lớn ứng dụng vào việc sản xuất được ra mắt như một cấu ​ ​ trúc 5C ( connection – liên kết, conversion – quy đổi, cyber – khoảng trống mạng, cognition – nhận thức và configuration – thông số kỹ thuật ). [ 21 ]Hồ dữ liệu cho phép một tổ chức triển khai biến hóa xu thế từ quy mô trấn áp tập trung chuyên sâu sang quy mô san sẻ thông tin để năng động cung ứng với sự biến hóa của việc quản trị thông tin. Điều này được cho phép phân tách nhanh gọn tài liệu vào hồ tài liệu, do đó làm giảm thời hạn giải quyết và xử lý thông tin. [ 22 ] [ 23 ]

Báo cáo của Viện nghiên cứu và điều tra Toàn cầu McKinsey năm 2011 diễn đạt những thành phần chính và hệ sinh thái của tài liệu lớn như sau :• Các kỹ thuật để nghiên cứu và phân tích tài liệu, ví dụ điển hình như kiểm thử A / B, học máy và giải quyết và xử lý ngôn từ tự nhiên• Công nghệ dữ liệu lớn, như thông tin kinh doanh thương mại, điện toán đám mây và cơ sở tài liệu• Công cụ trực quan như biểu đồ, đồ thị và những giải pháp biểu lộ khác của tài liệu

Các dữ liệu lớn đa chiều cũng có thể được biểu diễn dưới dạng tensor, có thể được xử lý hiệu quả hơn bằng cách tính toán dựa trên cơ sở dựa trên Tensor, chẳng hạn như nghiên cứu không gian đa cấp. Các công nghệ bổ sung đang được áp dụng cho dữ liệu lớn bao gồm cơ sở dữ liệu MPP, các ứng dụng dựa trên tìm kiếm, khai thác dữ liệu, hệ thống phân tán tập tin, phân tán cơ sở dữ liệu, điện toán đám mây và HPC (ứng dụng, lưu trữ và các tài nguyên máy tính) và Mạng Internet. Mặc dù nhiều phương thức tiếp cận cũng như các công nghệ xử lý đã được phát triển, vẫn còn khó khăn để thực hiện việc học máy với dữ liệu lớn.

Một vài cơ sở tài liệu tương quan đến MPP có năng lực tàng trữ và quản trị hàng petabytes tài liệu. Đó chính là một nguồn tận dụng năng lực tải về, theo dõi, sao lưu và tối ưu hóa việc sử dụng những bảng tài liệu lớn trong RDBMS .Chương trình Phân tích Dữ liệu Topological của DARPA tìm ra cấu trúc cơ bản của bộ tài liệu khổng lồ và đến năm 2008, công nghệ tiên tiến này được công bố cùng với sự ra đời của công ty Ayasdi .Những nhân viên nghiên cứu và phân tích tài liệu lớn thường không sử dụng việc tàng trữ bằng những ổ đĩa san sẻ vì chúng chậm, họ thích tàng trữ trực tiếp ( DAS ) dưới nhiều hình thức khác nhau từ ổ SSD ( SATA ) đến ổ đĩa SATA dung tích cao được tích hợp bên trong những nút giải quyết và xử lý song song. Các kiến ​ ​ trúc tàng trữ dùng chung – Mạng tàng trữ ( SAN ) và Lưu trữ trên Mạng ( NAS ) tương đối chậm, phức tạp và tốn kém. Những yếu tố này không tương thích với những mạng lưới hệ thống nghiên cứu và phân tích tài liệu lớn đang tăng trưởng can đảm và mạnh mẽ về hiệu năng mạng lưới hệ thống, hạ tầng và ngân sách thấp .Việc gửi thông tin thời hạn thực hoặc gần với thời hạn thực là một trong những đặc thù xác lập của nghiên cứu và phân tích tài liệu lớn. Do đó độ trễ được tránh bất kỳ khi nào và bất kỳ khi nào hoàn toàn có thể. Dữ liệu trong bộ nhớ là tài liệu trên một đĩa quay tròn với một đầu kia là FC SAN. Chi tiêu của một SAN ở quy mô thiết yếu cho những ứng dụng nghiên cứu và phân tích cao hơn rất nhiều so với những kỹ thuật tàng trữ khác .Có nhiều lợi thế cũng như bất lợi khi sử dụng những ổ đĩa chung trong nghiên cứu và phân tích tài liệu lớn, nhưng những chuyên viên nghiên cứu và phân tích tài liệu lớn vào năm 2011 đã không ủng hộ chuyện này .

Quản lý nhà nước[sửa|sửa mã nguồn]

Việc sử dụng những tài liệu lớn trong những quy trình tiến độ của cơ quan chính phủ được cho phép tăng hiệu suất cao về mặt ngân sách, hiệu suất và sự thay đổi, nhưng không phải là không có sai sót của nó. Phân tích tài liệu thường nhu yếu nhiều bộ phận của cơ quan chính phủ ( TW và địa phương ) hợp tác và tạo ra những tiến trình mới và phát minh sáng tạo để mang lại tác dụng mong ước. Dưới đây là một số ít ví dụ về những sáng tạo độc đáo ​ ​ tương quan đến tài liệu lớn của cơ quan chính phủ .

• Năm 2012, chính quyền sở tại của Tổng thống Obama công bố Sáng kiến ​ ​ Nghiên cứu và Phát triển Dữ liệu lớn để tìm hiểu và khám phá xem tài liệu lớn hoàn toàn có thể được sử dụng như thế nào để xử lý những yếu tố quan trọng mà chính phủ nước nhà phải đương đầu. Sáng kiến ​ ​ gồm có 84 chương trình tài liệu lớn khác nhau trải rộng trên sáu phòng ban .• Phân tích tài liệu lớn đã đóng một vai trò lớn trong chiến dịch bầu cử lại thành công xuất sắc của Barack Obama năm 2012 .• nhà nước liên bang Hoa Kỳ sở hữu sáu trong số mười siêu máy tính mạnh nhất trên quốc tế .• Trung tâm Dữ liệu Utah đã được NSA ( Cơ quan An ninh Quốc gia Hoa Kỳ ) kiến thiết xây dựng. Khi hoàn tất, cơ sở sẽ hoàn toàn có thể giải quyết và xử lý một số lượng lớn thông tin tích lũy được bởi NSA qua Internet. Số lượng đúng mực của khoảng trống tàng trữ là không rõ, nhưng những nguồn gần đây hơn cho rằng nó lên đến vài exabyte .

• Phân tích số liệu lớn đã được thử nghiệm cho BJP để giành thắng lợi trong Tổng tuyển cử Ấn Độ, năm trước .• nhà nước Ấn Độ sử dụng nhiều kỹ thuật để xác lập phương pháp cử tri Ấn Độ phản ứng lại hành vi cũng như những sáng tạo độc đáo của cơ quan chính phủ về biến hóa chủ trương .

Vương quốc Anh[sửa|sửa mã nguồn]

Ví dụ về việc sử dụng tài liệu lớn trong những dịch vụ công :• Dữ liệu về thuốc theo toa : bằng cách liên kết nguồn gốc, vị trí và thời hạn của mỗi toa thuốc, một đơn vị chức năng nghiên cứu và điều tra hoàn toàn có thể theo dõi việc phân phối bất kỳ loại thuốc nào trong đơn thuốc, và hướng dẫn Viện Y tế và Chăm sóc Quốc gia kiểm soát và điều chỉnh cho đúng chuẩn. Điều này khiến cho những loại thuốc mới nhất sẽ tốn ít thời hạn hơn khi đến với bệnh nhân đại trà phổ thông .• Kết nối tài liệu : những cơ quan địa phương link những tài liệu về những dịch vụ với nhau, ví dụ như mạng lưới hệ thống giao thông vận tải, với những dịch vụ công, như thể việc phân loại thức ăn cho người tàn tật. Việc liên kết tài liệu được cho phép chính quyền sở tại địa phương tránh được những chậm trễ tương quan đến thời tiết, đường sá …

Sự tăng trưởng quốc tế[sửa|sửa mã nguồn]

Nghiên cứu về việc sử dụng hiệu suất cao những công nghệ thông tin và truyền thông online cho mục tiêu tăng trưởng ( hay còn gọi là ICT4D ) cho thấy công nghệ dữ liệu lớn hoàn toàn có thể có nhiều góp phần quan trọng nhưng cũng là thử thách so với sự tăng trưởng của quốc tế. Những văn minh trong nghiên cứu và phân tích tài liệu lớn giúp giảm ngân sách cho việc ra quyết định hành động trong những nghành quan trọng như chăm nom sức khoẻ, việc làm, hiệu suất kinh tế tài chính, tội phạm, bảo mật an ninh, thiên tai và quản trị tài nguyên. Tuy nhiên, những thử thách so với những nước đang tăng trưởng như hạ tầng công nghệ tiên tiến không rất đầy đủ và sự khan hiếm về kinh tế tài chính và nguồn nhân lực sẽ làm nghiêm trọng thêm những mặt trái của tài liệu lớn như sự riêng tư hoặc những yếu tố khác .

Việc sử dụng những tài liệu lớn dưới dạng lịch sử vẻ vang những thanh toán giao dịch kinh tế tài chính được gọi là nghiên cứu và phân tích kỹ thuật. Sử dụng tài liệu phi kinh tế tài chính để Dự kiến thị trường nhiều lúc được gọi là tài liệu sửa chữa thay thế .

Theo bài Nghiên cứu xu thế toàn thế giới TCS 2013, sự nâng cấp cải tiến trong kế hoạch sản xuất và chất lượng loại sản phẩm là quyền lợi lớn nhất của tài liệu lớn cho ngành sản xuất. Dữ liệu lớn phân phối hạ tầng cho ngành công nghiệp sản xuất, đó là năng lực cải tổ hiệu suất và tính khả dụng. Việc lên kế hoạch sản xuất chính là một cách tiếp cận tài liệu lớn được cho phép giảm thời hạn chết về gần như bằng không và cụ thể hóa số lượng lớn tài liệu và những công cụ Dự kiến khác được cho phép tạo ra một quy trình nhằm mục đích hệ thống hóa dữ liệu thành những thông tin hữu dụng. Khái niệm về việc dự báo sản xuất mở màn bằng việc thu thập dữ liệu cảm quan khác nhau như âm thanh, hoạt động, áp suất, điện áp … Số lượng lớn những tài liệu cảm quan cộng với tài liệu lịch sử vẻ vang sản xuất tạo thành tài liệu lớn trong sản xuất. Các tài liệu lớn này như là nguồn vào cho những công cụ dự báo và những kế hoạch phòng ngừa tựa như như việc dự báo trong nghành Quản lý Y tế .

Chăm sóc sức khỏe thể chất[sửa|sửa mã nguồn]

Phân tích tài liệu lớn đã giúp cải tổ việc chăm nom sức khoẻ bằng cách cá thể hóa những phương pháp trị liệu và chẩn đoán lâm sàng, làm giảm thiểu ngân sách và thời hạn khám bệnh, tự động hóa báo cáo giải trình và tàng trữ thông tin sức khỏe thể chất và tài liệu bệnh nhân trong nội bộ cũng như lan rộng ra ra bên ngoài, chuẩn hóa những thuật ngữ y học và chống phân mảnh trong tàng trữ tài liệu và thông tin của bệnh. Một số nghành nghề dịch vụ có sự nâng cấp cải tiến mang tính hướng dẫn hơn là thực hành thực tế. Lượng tài liệu được tạo ra trong những mạng lưới hệ thống chăm nom sức khoẻ là không nhỏ. Với sự bổ trợ thêm của mHealth, eHealth và những thiết bị công nghệ tiên tiến theo dõi sức khỏe thể chất được thì khối lượng tài liệu sẽ liên tục ngày càng tăng. Điều này gồm có tài liệu ghi chép sức khoẻ điện tử, tài liệu hình ảnh, tài liệu được tạo ra của bệnh nhân, tài liệu cảm ứng và những dạng tài liệu khó giải quyết và xử lý khác. Hiện nay, nhu yếu lớn hơn so với những môi trường tự nhiên như vậy là quan tâm nhiều hơn đến chất lượng tài liệu và thông tin. ” Dữ liệu lớn rất thường có nghĩa là tài liệu chưa được giải quyết và xử lý và một phần số liệu không đúng mực tăng lên khi có sự tăng trưởng khối lượng tài liệu. ” Việc theo dõi bằng con người ở quy mô tài liệu lớn là không hề và có một nhu yếu cấp thiết về những công cụ mưu trí để trấn áp đúng chuẩn và giải quyết và xử lý thông tin bị mất trong dịch vụ y tế. Mặc dù tài liệu trong nghành nghề dịch vụ chăm nom sức khoẻ lúc bấy giờ thường được tàng trữ dưới dạng điện tử, nhưng nó nằm ngoài khoanh vùng phạm vi của tài liệu lớn vì hầu hết không có cấu trúc và khó sử dụng .

Một điều tra và nghiên cứu của Viện nghiên cứu và điều tra toàn thế giới McKinsey cho thấy, ngành tài liệu lớn đang thiếu vắng 1,5 triệu chuyên viên cũng như nhà quản trị tài liệu, và một số ít trường ĐH gồm có Đại học Tennessee và UC Berkeley đã tạo ra những chương trình thạc sĩ để cung ứng nhu yếu này. Các khóa đào tạo và giảng dạy tư nhân cũng tăng trưởng những chương trình để phân phối nhu yếu đó, gồm có những chương trình không lấy phí như The Data Incubator hoặc chương trình trả tiền như General Assembly .

Để hiểu phương pháp những phương tiện đi lại truyền thông online sử dụng tài liệu lớn như thế nào, thứ nhất cần hiểu rõ 1 số ít ngữ cảnh trong chính sách sử dụng cho quy trình truyền thông online. Nick Couldry và Joseph Turow yêu cầu rằng những học viên trong ngành Truyền thông và Quảng cáo cần tiếp cận tài liệu lớn như là nhiều điểm thông tin về hàng triệu cá thể. Ngành công nghiệp có vẻ như đang chuyển hướng từ cách tiếp cận truyền thống lịch sử bằng cách sử dụng những môi trường tự nhiên tiếp thị quảng cáo đơn cử như báo chí truyền thông, tạp chí hoặc chương trình truyền hình và thay vào đó là những người tiêu dùng với công nghệ tiên tiến tiếp cận những người này được nhắm tiềm năng vào những thời gian tối ưu ở những vị trí tối ưu. Mục đích ở đầu cuối là để Giao hàng hoặc truyền tải, một thông điệp hoặc nội dung ( theo cách thống kê ) tương thích với tâm lý của người tiêu dùng. Ví dụ, thiên nhiên và môi trường xuất bản ngày càng làm cho những thông điệp ( quảng cáo ) và nội dung ( bài viết ) được cải tổ để lôi cuốn người tiêu dùng đã được tích lũy độc quyền trải qua những hoạt động giải trí khai thác tài liệu khác nhau .• Nhắm đến người tiêu dùng tiềm năng ( so với quảng cáo của những nhà tiếp thị )• Thu thập dữ liệu• Dữ liệu trong báo chí truyền thông : nhà xuất bản và nhà báo sử dụng những công cụ tài liệu lớn để phân phối thông tin chi tiết cụ thể và những bản đồ họa cụ thể độc lạ và phát minh sáng tạo .Kênh 4, một kênh phát thanh truyền hình công cộng của Anh, đang đứng vị trí số 1 trong nghành tài liệu lớn và nghiên cứu và phân tích tài liệu .

Mạng lưới vạn vật liên kết Internet ( IoT )[sửa|sửa mã nguồn]

Dữ liệu lớn hoàn toàn có thể phối hợp với công nghệ tiên tiến Mạng lưới vạn vật liên kết Internet. Dữ liệu được chiết xuất từ ​ ​ những thiết bị IoT phân phối một map liên kết giữa những thiết bị. Những sự liên kết này đã được ngành công nghiệp truyền thông online, những công ty và chính phủ nước nhà sử dụng để nhắm tiềm năng đúng chuẩn hơn đối tượng người dùng của họ và tăng hiệu suất cao của phương tiện đi lại truyền thông online. IoT cũng ngày càng được gật đầu như một phương tiện đi lại thu thập dữ liệu cảm xúc, và tài liệu cảm xúc này đã được sử dụng trong những ngành như y học và sản xuất .Kevin Ashton, chuyên viên thay đổi kỹ thuật số người được cho là người tạo ra thuật ngữ định nghĩa Internet vạn vật đã phát biểu : ” Nếu tất cả chúng ta có máy tính biết toàn bộ mọi thứ – nó sẽ sử dụng tài liệu mà nó tích lũy được mà không có sự trợ giúp từ tất cả chúng ta – tất cả chúng ta sẽ hoàn toàn có thể theo dõi và trấn áp mọi thứ, giảm đáng kể lượng chất thải, tổn thất và ngân sách. Chúng ta sẽ biết khi nào cần thay thế sửa chữa, thay thế sửa chữa hoặc tịch thu lại, và liệu rằng thức ăn tất cả chúng ta đang ăn có tươi hay không. ”

Từ năm năm ngoái, tài liệu lớn trở nên điển hình nổi bật trong hoạt động giải trí kinh doanh thương mại như một công cụ để giúp nhân viên cấp dưới thao tác hiệu suất cao hơn cũng như tối ưu hóa việc tích lũy và san sẻ thông tin. Việc sử dụng tài liệu lớn để xử lý những yếu tố thu thập dữ liệu và CNTT trong một doanh nghiệp được gọi là IT Operations Analytics ( ITOA ). Bằng cách vận dụng những nguyên tắc tài liệu lớn vào những khái niệm về trí mưu trí của máy móc và giám sát sâu, những bộ phận CNTT hoàn toàn có thể Dự kiến những yếu tố tiềm ẩn và đưa ra những giải pháp trước khi yếu tố xảy ra. Vào thời gian này, những doanh nghiệp ITOA cũng mở màn đóng vai trò quan trọng trong việc quản trị mạng lưới hệ thống bằng cách phân phối những nền tảng mang những tài liệu cá thể riêng không liên quan gì đến nhau và tạo ra những hiểu biết thâm thúy từ hàng loạt mạng lưới hệ thống chứ không phải từ những tài liệu riêng không liên quan gì đến nhau .• EBay sử dụng hai kho tài liệu với vận tốc 7.5 petabyte và 40PB cũng như một cụm 40PB Apache Hadoop để tìm kiếm, khuyến nghị người tiêu dùng và bán hàng .• Amazon. com giải quyết và xử lý hàng triệu hoạt động giải trí back-end hàng ngày, cũng như những truy vấn từ hơn nửa triệu người bán hàng bên thứ ba. Công nghệ cốt lõi mà Amazon hoạt động giải trí dựa trên Linux và đến năm 2005 họ có ba cơ sở tài liệu Linux lớn nhất quốc tế, với dung tích 7,8 TB, 18,5 TB và 24,7 TB .

• Facebook xử lý 50 tỷ hình ảnh từ cơ sở người dùng của nó.

• Google đã giải quyết và xử lý khoảng chừng 100 tỷ lượt tìm kiếm mỗi tháng vào tháng 8 năm 2012 .• Cơ sở tài liệu Oracle NoSQL đã được kiểm tra để vượt qua mốc 1 triệu giải quyết và xử lý mỗi giây với 8 nhân và đạt vận tốc 1.2 triệu giải quyết và xử lý mỗi giây với 10 nhân .

More on this topic

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Advertismentspot_img

Popular stories