Doanh nghiệp Việt có thể thu thập dữ liệu theo kiểu ve, nhện, hay cáo?
Chuyên gia Việt kiều đưa ra 3 mô hình thu thập dữ liệu theo kiểu ve, nhện, cáo mà doanh nghiệp có thể áp dụng.
Hầu hết các doanh nghiệp đều xác định được tầm quan trọng của dữ liệu trong quá trình chuyển đổi số, phát triển công ty. Song không ít người chưa hiểu rõ cách xây dựng dữ liệu, xác định dữ liệu nào cần sử dụng, và áp dụng dữ liệu như thế nào để hiệu quả.
Hiểu thế nào về dữ liệu lớn?
Trong sự kiện Vietnam Data Summit 2022 mới đây, ông Albert Antoine – chuyên gia ngành khoa học dữ liệu và trí tuệ nhân tạo, đồng sáng lập công ty Avaiga – đã giải đáp những thắc mắc nói trên, đồng thời đưa ra một số lời khuyên cho doanh nghiệp trên hành trình chuyển đổi số.
Vị chuyên gia Việt kiều cho rằng dữ liệu hiện có mặt khắp mọi nơi, trong đó, chiếc smartphone mọi người đang sử dụng chính là vật thu thập dữ liệu phổ biến nhất.
Song, để xây dựng dữ liệu lớn, cần xác định rõ các tiêu chí ngay từ đầu. Về cơ bản, big data được định nghĩa xoay quanh 5 chữ V. Đầu tiên, khối lượng (volume) dữ liệu phải đủ lớn. Chẳng hạn, mỗi ngày hệ thống bán lẻ Walmart tại Mỹ tạo ra khối dữ liệu khoảng 24-25 TB (trong khi chiếc smartphone mạnh nhất hiện nay có dung lượng lưu trữ tối đa 1TB).
Tiếp đến, dữ liệu phải có tính đa dạng (variety), từ hình ảnh, âm thanh, chữ viết,… đến video, bài viết. Việc thu thập, khai thác dữ liệu cũng cần dựa trên yếu tố tốc độ (velocity), chẳng hạn khi vận hành xe tự lái thì khối lượng dữ liệu thu thập và xử lý phải được thực hiện theo thời gian thực để giúp xe xử lý tình huống ngay tức khắc.
Thêm vào đó, dữ liệu thu thập phải chính xác (veracity), vì nếu thu thập sai sẽ dẫn đến kết quả sai. Do đó, người ta phải tốn đến 80% công sức cho việc “làm sạch” dữ liệu trước khi đem vào sử dụng. Cuối cùng, dữ liệu phải có giá trị (value).
Video đang HOT
Ông Albert Antoine đang trình bày tại sự kiện Vietnam Data Summit 2022.
Chiến lược thu thập dữ liệu của nhện và cáo
Sau khi đã xác định được tầm quan trọng của dữ liệu và loại dữ liệu cần thu thập, có 3 cách để lấy được dữ liệu.
Với doanh nghiệp chưa từng có cơ sở dữ liệu thì cần phải đi xin, hoặc đi mua dữ liệu. Cách này được ông Antoine ví von như kiểu của con ve trong truyện ngụ ngôn: mùa hè con ve mải lo ca hát nên mùa đông không có thức ăn, phải xin của con kiến vốn cần cù làm lụng quanh năm.
Ở cách thứ hai, một số doanh nghiệp áp dụng nguyên tắc con nhện giăng tơ, tức cung cấp các dịch vụ để khách hàng sử dụng, từ đó thu thập dữ liệu. Chẳng hạn, khi bạn dùng Wi-Fi công cộng miễn phí thường phải cung cấp địa chỉ email – cũng là một dạng dữ liệu.
Những doanh nghiệp có sẵn cơ sở hạ tầng tiên tiến sẽ áp dụng nguyên tắc của con cáo: cung cấp công cụ phân tích cho những người sở hữu sẵn dữ liệu, sau đó dùng kết quả phân tích để bán cho bên có nhu cầu. Ví dụ các doanh nghiệp toàn cầu như Facebook, Google đang áp dụng cả chiến lược của nhện lẫn cáo.
“Khi đọc sách Kindle của Amazon, bạn tưởng bạn đang đọc sách nhưng thực ra sách đang “đọc” bạn”, vị chuyên gia từng tư vấn cho nhiều doanh nghiệp và chính phủ ví von.
Ông ám chỉ việc mỗi lần bạn dừng lại, đọc lâu hơn một đoạn nào đó chính là đang cung cấp hành vi để máy thu thập dữ liệu.
Thế giới đang dùng dữ liệu vào việc gì?
Sau khi đã có dữ liệu lớn, trên thế giới hiện nay có nhiều xu hướng sử dụng. Dễ thấy nhất là mô hình bot/công nhân số. Nhờ dữ liệu lớn và máy học, các doanh nghiệp xây dựng nên những con bot để giao tiếp với khách hàng trên mạng. Tại Việt Nam hay trên toàn cầu, khi bạn chat với tổng đài, thường là bạn đang trò chuyện với hệ thống máy tính (bot). Các con bot hiện nay khá thông minh, thậm chí có thể chốt đơn hàng mà không cần con người can thiệp vào.
Ngoài ra, các thông tin thu thập có thể dùng trong ngành phân tích dữ liệu. Qua hệ thống máy tính, dữ liệu có thể dùng vào việc phân tích các sự kiện đã diễn ra, chẳng hạn đưa ra các kết quả kinh doanh phục vụ doanh nghiệp. Nếu áp dụng AI/ML, có thể dự báo được những xu hướng kinh doanh, những sự việc xảy ra tiếp đến. Các thuật toán cũng có thể đưa ra lời khuyên để hỗ trợ con người đưa ra các hành động tiếp theo.
Mặc dù rất nhiều doanh nghiệp đã nhận ra được tầm quan trọng của dữ liệu trong quá trình chuyển đổi số, song không phải doanh nghiệp nào cũng đi đúng lộ trình.
“Nhiều doanh nghiệp cho rằng chuyển đổi số chỉ cần mua phần mềm về là xong, nhưng thực tế không phải vậy. Điều quan trọng là sự sắp xếp vận hành của doanh nghiệp trong quá trình thay đổi của công ty”, ông Antoine nhấn mạnh.
Vị chuyên gia cho rằng trong quá trình chuyển đổi số và xây dựng dữ liệu, mọi người đều phải tham gia. Thông thường, giữa các bộ phận và các đơn vị trong một tổ chức không chịu chia sẻ dữ liệu với nhau, vì nó không thuộc phạm vi công việc của họ. Do đó, cần đưa nội dung hợp tác và chia sẻ dữ liệu như một nhiệm vụ trong công việc hàng ngày để nhân viên làm việc.
Ngoài ra, để có được dữ liệu, doanh nghiệp cần cung cấp công cụ công nghệ cho nhân viên. Vì nếu không hoạt động trên nền tảng công nghệ thì không thể nào sản sinh ra dữ liệu.
Cuối cùng, để xây dựng dữ liệu thì những nhà lãnh đạo phải xác định doanh nghiệp xoanh quanh dữ liệu. Phải truyền đạt rõ ràng và minh bạch với nhân viên ngay từ đầu để nâng cao ý thức cho họ. Từ đó, mọi người đều chuyên tâm vào việc xây dựng và sản sinh dữ liệu.
Ít nhất 60 triệu người cài ứng dụng Android thu thập dữ liệu trái phép
Theo Thời báo Phố Wall, các ứng dụng bị gỡ khỏi Google Play do chứa yếu tố bí mật khai thác dữ liệu người dùng.
Tác giả của đoạn code khai thác dữ liệu là Measurement Systems S. de R.L. Theo hồ sơ doanh nghiệp và đăng ký web, công ty này có liên quan tới một nhà thầu quốc phòng tại Virginia (Mỹ), chuyên về tình báo mạng, phòng thủ mạng và đánh chặn tình báo.
Đoạn code chạy trên hàng triệu thiết bị Android và có mặt trong vài ứng dụng cầu nguyện với lượt tải hơn 10 triệu. Ngoài ra, nó còn nhúng trong các phần mềm như phát hiện máy bắn tốc độ trên cao tốc, đọc mã QR hay thời tiết. Tổng cộng, các ứng dụng đã được tải trên tối thiểu 60 triệu thiết bị. Hai nhà nghiên cứu Serge Egelman và Joel Reardon đã chia sẻ phát hiện với Google, nhà chức trách liên bang và Thời báo Phố Wall.
Measurement Systems trả tiền cho các nhà phát triển khắp thế giới để nhúng đoạn mã - hay SDK - vào ứng dụng của họ. Nó cho phép công ty bí mật thu thập dữ liệu người dùng. Theo ông Egelman, chèn SDK vào ứng dụng sẽ giúp nhà phát triển có thêm thu nhập cũng như dữ liệu chi tiết về người dùng của họ. Tài liệu của Thời báo Phố Wall cho thấy mỗi nhà phát triển có thể kiếm được từ 100 tới 10.000 USD mỗi tháng hoặc hơn, tùy thuộc vào số lượng người dùng hoạt động.
Hai chuyên gia nhận xét đây là SDK xâm phạm quyền riêng tư nhiều nhất họ từng ghi nhận trong 6 năm làm công việc phân tích ứng dụng di động, có thể xem là mã độc mà không cần do dự.
Người phát ngôn Google cho biết các ứng dụng chứa phần mềm của Measurement Systems đã bị xóa tính đến ngày 25/3. Chúng được quay trở lại nếu gỡ bỏ đoạn code theo dõi. Tuy nhiên, việc gỡ bỏ khỏi Google Play không ảnh hưởng gì đến khả năng thu thập từ hàng triệu điện thoại đã cài đặt chúng. Tuy nhiên, SDK đã ngừng thu thập dữ liệu người dùng sau khi hai chuyên gia bắt đầu công bố phát hiện.
Báo cáo chỉ ra đoạn code có khả năng xác định sự tồn tại của các thiết bị khác (cũng dùng ứng dụng chứa đoạn code) đang kết nối cùng mạng Wi-Fi, về cơ bản cung cấp một cách để lập bản đồ mạng lưới. Measurement Systems báo cho các nhà phát triển ứng dụng rằng họ muốn dữ liệu chủ yếu từ Trung Đông, Trung và Đông Âu, châu Á. Một số còn được yêu cầu ký thỏa thuận không tiết lộ.
SDK khai thác lượng lớn dữ liệu, bao gồm vị trí chính xác, định danh cá nhân (email, số điện thoại), dữ liệu về máy tính và điện thoại di động lân cận. Nó cũng có thể thu thập thông tin lưu trong clipboard điện thoại như mật khẩu mỗi khi người dùng sử dụng tính năng copy paste. Thậm chí, nó còn quét được một vài phần trong hệ thống tập tin thiết bị như các tập tin lưu trong thư mục tải xuống của WhatsApp.
TikTok tăng thời lượng video lên 10 phút Sau thời gian dài thử nghiệm, TikTok chính thức nâng thời lượng tối đa của video trên nền tảng này lên 10 phút. TikTok tăng thời lượng video tối đa lên 10 phút "Chúng tôi luôn nghĩ về những cách mới để mang lại giá trị cho cộng đồng người dùng và làm phong phú thêm trải nghiệm TikTok. Năm ngoái, chúng tôi...