Công nghệ số trong chuyển đổi báo chí

65

Vụ Khoa học và Công nghệ của Bộ TT&TT vừa phát hành tài liệu “hướng dẫn ứng dụng, khai thác công nghệ số phục vụ chuyển đổi số báo chí”. Với mục tiêu thúc đẩy việc ứng dụng các công nghệ mới vào lĩnh vực báo chí, cụ thể cho báo in và báo điện tử đúng với xu thế chuyển đổi số toàn diện hiện nay, tài liệu này bước đầu đã dựa vào khảo sát hiện trạng thực hiện khi xây dựng Dự thảo “Chiến lược chuyển đổi số báo chí giai đoạn 2025-2030” để phân tích, đánh giá sơ bộ về các ưu thế và kinh nghiệm khai thác, ứng dụng các công nghệ mới trong lĩnh vực báo chí ở Việt Nam hiện nay. Đây có thể hiểu là những vấn đề cơ bản, được nghiên cứu, tổng hợp có tính chất sơ khởi để cùng khai thác, nghiên cứu và định hình việc ứng dụng một cách cụ thể trong thời gian tới.

Minh họa mô hình hệ thống thông tin tổng thể của tòa soạn ứng dụng công nghệ số

  Sau đây xin giới thiệu một số nội dung việc ứng dụng công nghệ số trong sản xuất nội dung báo chí. Với AI (Artificial intelligence), trí tuệ nhân tạo hay trí thông minh nhân tạo là một ngành thuộc lĩnh vực khoa học máy tính (Computer science); tuy trí thông minh nhân tạo có nghĩa rộng nhưng thực tế các công cụ AI là một hệ thống đưa ra dự đoán kết hợp với một hệ thống được phép thực hiện một số hành động thay mặt hoặc hỗ trợ con người.  Công nghệ AR (Augmented Reality – Thực tế Tăng cường) là công nghệ dựa trên kỹ thuật nhận dạng hình ảnh thực từ đó đưa ra các thông tin bổ trợ như âm thanh, hình ảnh 2D, 3D, video… trên không gian thực, nơi người dùng đang xem hoặc chứng kiến, giúp người dùng có thêm thông tin đầy đủ hơn, chi tiết hơn. VR là công nghệ tạo ra một môi trường không gian ba chiều được giả lập bằng máy tính nhằm mô phỏng lại thế giới thực, trong môi trường đó con người có thể quan sát, cảm nhận và tương tác như đang đứng giữa bối cảnh thật.

 

AI hỗ trợ tìm kiếm, xác định thông tin

Mục tiêu: Sử dụng các phần mềm ứng dụng công nghệ AI để phát hiện đề tài, thu thập xử lý thông tin để theo dõi sự kiện, trích xuất thông tin và xác định xu hướng. Các chức năng được AI hỗ trợ phổ biến gồm:

  1. Phát hiện tự động các chủ đề đang được quan tâm và thông báo cho phóng viên:

Tính năng: Giúp người dùng có thể nhận được thông tin mới nhất từ các từ khoá đã được bạn cài đặt với các chủ đề từ đời sống xã hội đến khoa học, thể thao, chứng khoán… thông qua email hoặc tin nhắn.

Một số phần mềm điển hình:

– Miễn phí như Google Alerts, Meltwater, Google trend, Tubular Labs;

– Có thu phí như Chartbeat, Sharablee, Parsley, Newswhip, Social News Desk, Storyful …

  1. Tự động quét website và tải dữ liệu xuống (crawl):

Tính năng: Quét dữ liệu hay còn gọi là Crawl dữ liệu là một quá trình thu nhập và lấy dữ liệu từ một trang web bất kỳ, sau đó phân tích mã nguồn HTML để đọc ra dữ liệu và bóc tách thông tin dữ liệu theo yêu cầu mà người dùng đặt ra. Tải xuống và gắn thẻ (index) toàn bộ phần nội dung được tải xuống từ Internet.

Một số phần mềm điển hình:

– Phần mềm miễn phí Scan Web Pro, Portia crawl dữ liệu; Phần mềm UiPath tự động hóa quá trình robot (quét); Dịch vụ dựa trên đám mây để quét web, trích xuất dữ liệu Diggernaut; Dịch vụ quét web giúp các công ty thu thập dữ liệu từ các trang web Datahut;

– Có thu phí như Webhose là một ứng dụng web dựa trên trình duyệt sử dụng công nghệ thu thập dữ liệu độc quyền để thu thập dữ liệu khổng lồ từ nhiều kênh trong một API; Phần mềm Dexi.io hỗ trợ thu thập dữ liệu từ bất kỳ trang web nào và không yêu cầu tải xuống….

  1. Khai thác thông tin từ các trang mạng xã hội:

Tính năng: Hỗ trợ cơ quan báo chí khai thác thông tin từ mạng xã hội (Social listening) để phát hiện sự kiện. Thực hiện tự động qua các bộ lọc đặt theo từ khóa.

Một số phần mềm điển hình:

– Miễn phí như Social Pilot trên google, Hootsuite, Sprout Social;

– Có thu phí như Kompa.ai, Adview, Talkwaker, Mentionlytics…

  1. Tạo dựng kho dữ liệu từ các báo giấy đã xuất bản bằng phần mềm chuyển từ hình ảnh sang văn bản (OCR):

Tính năng: OCR là viết tắt của cụm từ Optical Character Recognition, đây là phần mềm nhận dạng ký tự quang học, được áp dụng để nhận dạng các ký tự trên một file ảnh chụp hoặc pdf, sau đó trích xuất các trường thông tin trên hình ảnh và lưu trữ dưới dạng text nhằm số hóa tài liệu, cụ thể là các thông tin, dữ liệu trên ảnh chụp đó thành văn bản. Sử dụng công cụ này, các tòa soạn có thể lưu trữ các thông tin từ báo giấy một cách nhanh chóng và chính xác trong các cơ sở dữ liệu của mình.

Một số phần mềm điển hình:

Dịch vụ số hóa tài liệu VNPT edig, công cụ Smart RPA của VNPT, Viettel AI open platform, Viettel OCR, IONE – Giải pháp nhận dạng và bóc tách thông tin tự động, VietOCR…

  1. Tìm kiếm, khai thác nội dung sẵn có trong kho dữ liệu:

Tính năng: Tự động phân loại, sắp xếp và trích xuất thông tin từ văn bản để xác định nguồn trích dẫn, mối quan hệ giữa các văn bản (dựa trên từ khóa), tóm tắt nội dung văn bản.  Tòa soạn có thể sử dụng phần mềm phân tích văn bản để xử lý văn bản thu thập từ nhiều nguồn (như email, tài liệu, nội dung trên mạng xã hội và đánh giá của độc giả về sản phẩm) một cách hiệu quả và chính xác như con người.

Một số phần mềm điển hình: Amazon Comprehend, Plagiarism Detector, Wordsmith của Automated Insight…

  1. Tìm và kiểm tra nội dung, xác định trùng lặp:

Tính năng: Phân tích văn bản tự động, kiểm tra đạo văn, so sánh các nội dung được lựa chọn với các nội dung đã có …

Một số phần mềm điển hình:  Miễn phí như DoIT (Document Improvement Tool) là sản phẩm của Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội phát triển; hay trang web kiểm tra kiemtradaovan.com…

  1. Nhận dạng từ hình ảnh:

Tính năng: Giúp nhà báo phân tích giới tính, tuổi, trạng thái và xác định nhân vật trong các bức ảnh. Các phần mềm này sử dụng nền tảng công nghệ nhận dạng mẫu từ các thông tin hữu ích thu được về một đối tượng như con người, động vật, đồ vật… thông qua các phương pháp thu thập, xử lý, phân tích hình ảnh hoặc video (thuộc lĩnh vực khoa học gọi là thị giác máy tính – Computer vision). Sau đó máy tính sẽ kết hợp với AI để phỏng đoán các đối tượng, các thực thể có mặt trong một khung cảnh được yêu cầu, đặt tên chính xác cho từng đối tượng và đưa ra các quyết định xử lý phù hợp với mỗi loại đối tượng.

Một số phần mềm điển hình:

Có thu phí như: Animetrics Face Recognition (http://api.animetrics.com/documentation , http://api.animetrics.com/demo) ; Phần mềm Eyedea Recognition (http://face.eyedea.cz:8080/api/face/docs , http://cloud.eyedea.cz/api/face) ; Phần mềm Betaface (https://www.betafaceapi.com/wpa/index.php/documentation, https://www.betafa ceapi.com/demo.html) ; Phần mềm Imagga (https://docs.imagga.com/ , https://imagga.com/auto-tagging-demo) …

  1. Xác định nội dung nào phù hợp hơn với khán giả dựa vào việc phân tích thái độ, cảm xúc của người dùng (https://tech.ebu.ch/news/2020/04/swedish-radio-leverages-peach-recommendations-for-content-production) :

Tính năng: Phân tích thái độ người dùng dựa trên các thuật ngữ chính để phân biệt (https://fullfact.org/blog/2019/dec/how-we-use-ai-help-fact-check-party-manifestos/). Các phần mềm này thường tích hợp được vào các trang web của tòa soạn. Một tính năng nữa có thể lựa chọn là sắp xếp các bình luận theo mức độ quan tâm, giúp tòa soạn dễ dàng đánh giá mức độ quan tâm (theo thời gian lưu lại trang) của người dùng đối với nội dung.

Một số phần mềm điển hình:

– Miễn phí như Crazy Egg, Perspective API của google, Sankey Diagram, SentimentBuilder;

– Có thu phí như công cụ Reputa của Viettel…

  1. Tự động phân tích và gán thẻ cho các bài báo theo chủ đề hoặc từ khóa định sẵn, tạo kho dữ liệu (https://medium.com/scmp-inside-the-wonton/digitizing-a-century-of-history-with-data-fd934f4394ba) .

Triển lãm số Hoàng Sa -Trường Sa ứng dụng VR 3D (sản phẩm của Viện CDiT, Bộ TT&TT)

AI tăng tốc sản xuất nội dung

Sử dụng các công cụ AI hỗ trợ quá trình viết bài, biên tập, kiểm duyệt nội dung để gia tăng tốc độ sản xuất tin bài, các tòa soạn báo. Cụ thể:

  1. Tự động viết các nội dung: Tự động sản xuất các nội dung có cấu trúc lặp lại. Ví dụ như tin về thời tiết, thể thao, tin bầu cử…bằng cách xây dựng phần mềm tạo văn bản tự động (NLG).
  2. Nhập văn bản bằng giọng nói:

Tính năng: Chuyển trực tiếp từ giọng nói hoặc chuyển đổi file âm thanh thành dạng văn bản (text) một cách nhanh chóng, dễ dàng. Phần mềm là công cụ hữu ích giúp soạn thảo nhanh chóng, giúp người dùng tiết kiệm hàng giờ thời gian ngồi nghe và gõ lại văn bản, hơn thế văn bản còn đảm bảo đầy đủ nội dung, không sót ý và được lưu thành các file trên thiết bị.

Một số phần mềm điển hình:

Miễn phí như: Phần mềm Otter, Ứng dụng SpeechTexter trên trình duyệt Google Chrome…

Có thu phí như: Phần mềm V-IONE của công ty FSI…

  1. Chuyển văn bản thành giọng nói (Text to Speech):

Tính năng: Tự động chuyển các tin bài dưới dạng văn bản thành tập tin âm thanh. Đây là công cụ hữu hiệu để tạo một sản phẩm báo nói; chỉ cần đầu vào là nội dung văn bản, phần mềm sẽ tự động chuyển từ văn bản sang âm thanh. Công nghệ AI sẽ tự động giúp các tòa soạn xuất bản báo nói đồng thời cùng với báo viết mà không cần qua bất kỳ bước thu âm hay xử lý âm thanh nào khác. Nhờ sử dụng công nghệ học sâu (deep learning) tiên tiến thay vì áp dụng các kỹ thuật truyền thống như HMM (Hidden Markov Model) hay ghép nối các từ… giúp cho giọng đọc tự nhiên, diễn cảm và có thể lựa chọn theo vùng miền.

Một số phần mềm điển hình:

Có thu phí như: Voice AI Text To Speech của Viettel, AI Text to Speech(AI- TTS) của Mobifone, VNPT Smart Voice…

  1. Phiên dịch nội dung:

Tính năng: Tự động dịch một cách nhanh chóng, chuyên nghiệp các nội dung văn bản sang ngôn ngữ khác. Công cụ này hỗ trợ nhà báo tiết kiệm được thời gian và giúp loại bỏ những rủi ro hay gặp trong quá trình dịch.

Một số phần mềm điển hình:

Miễn phí như Google dịch, Translate Voive, Voice Translator with Offline Dictionary Pro, iTranslate, Waygo…

  1. Tạo tin bài từ dữ liệu có sẵn (https://medium.com/ft-product-technology/predicting-ft-trending-topics-7eda85ece727) :

Tính năng: Tạo nội dung dạng Infographic từ các dữ liệu có sẵn

Một số phần mềm điển hình: Miễn phí tại trang chủ Visual.ly và Easel.ly

  1. Trực quan hóa dữ liệu

(https://onecms.vn/cach-truc-quan-hoa-du-lieu-de-tang-do-hap-dan-cho-tac-pham-bao-chi-49849.html#:~:text=huy%20%C3%BD%20t%C6%B0%E1%BB%9Fng.- ,Flourish,h%E1%BB%8Da%20th%C6%B0%C6%A1ng%20hi%E1%BB%87u%20c%E1%BB%A7a%20m%C3 %ACnh) :

Tính năng: Các công cụ này cho phép nhà báo tạo các công cụ trực quan dữ liệu như biểu đồ, đồ thị có hoạt ảnh, đồ họa thông tin, ảnh, bản đồ, bản đồ nhiệt và các tùy chỉnh khác từ các dữ liệu có sẵn.

Một số phần mềm điển hình:

– Miễn phí như phần mềm Flourish, phần mềm trực tuyến Canva, Datawrapper, Infogram, tableau public, Google data studio, OpenRefine, KNIME,  Google Fusion tables, NodeXL…;

– Có thu phí như Narrativa Gabriele, Công cụ “new/s/leak” dùng để trích xuất và xử lý hình ảnh cho nhà báo…

  1. Phân tích hình ảnh và nhận dạng:

Tính năng: Các công cụ này thường được sử dụng để phỏng đoán các đối tượng, các thực thể có mặt trong một khung cảnh được yêu cầu; Gợi ý tên hoặc nhận dạng từng đối tượng dựa trên cơ sở dữ liệu ảnh nhận dạng sẵn có của tòa soạn.

Một số phần mềm điển hình: Các phần mềm có thu phí như Animetrics Face Recognition (http://api.animetrics.com/documentation , http://api.animetrics.com/demo) ; Phần mềm Eyedea Recognition (http://face.eyedea.cz:8080/api/face/docs , http://cloud.eyedea.cz/api/face) ; Phần mềm Betaface (https://www.betafaceapi.com/wpa/index.php/documentation, https://www.betafa ceapi.com/demo.html) ; Phần mềm Imagga (https://docs.imagga.com/ , https://imagga.com/auto-tagging-demo) …

  1. Hỗ trợ kiểm chứng thông tin độc lập (fact-checking), tự động xác định các yêu cầu từ độc giả:

Tính năng: “Fact check” nghĩa là kiểm tra tính thực tế, xác minh tính chính xác của thông tin đã công bố trước đó (thông cáo báo chí…)

Một số phần mềm điển hình: Miễn phí như phần mềm Full fact; Tính năng Fact check của Google… hoặc có thể tự xây dựng phần mềm dựa trên mẫu trong thư viện AI như NLTK, Scikit-Learn…

  1. Hỗ trợ tổ chức các thông tin và gợi ý liên kết giữa các chủ đề:

Tính năng: Phần mềm thực hiện chức năng quản lý và lưu trữ thông tin văn bản/ số liệu/ bảng tính (dữ liệu). Phần mềm này có thể tích hợp tính năng gợi ý liên kết giữa các văn bản trong hệ thống thông qua các từ khóa được đặt khi lưu trữ dữ liệu, hoặc dựa vào các từ khóa có tần suất xuất hiện cao nhất trong văn bản.

Một số phần mềm điển hình:

Miễn phí như: NodeXL là một phần mềm biểu diễn và phân tích các mối quan hệ trên mạng xã hội; Phần mềm Google Fusion tables là một công cụ tốt cho việc phân tích dữ liệu, biểu diễn các tập dữ liệu lớn và lập bản đồ (mapping).

Ứng dụng công nghệ thực tế tăng cường AR, thực tế ảo VR

Công nghệ AR (Augmented Reality – Thực tế tăng cường) là công nghệ dựa trên kỹ thuật nhận dạng hình ảnh thực từ đó đưa ra các thông tin bổ trợ như âm thanh, hình ảnh 2D, 3D, video… trên không gian thực, nơi người dùng đang xem hoặc chứng kiến, giúp người dùng có thêm thông tin đầy đủ hơn, chi tiết hơn. Tuy nhiên, để có được các thông tin bổ trợ hấp dẫn cho công nghệ AR thì cần phải có sự hỗ trợ kỹ thuật lập trình và kỹ thuật đồ họa. Ứng dụng của công nghệ này trong báo chí bao gồm:

  1. Thêm nội dung đa phương tiện cho quảng cáo in:

Tính năng: AR bổ sung thêm những nội dung, hình ảnh, âm thanh kỹ thuật số vào quảng cáo trên sách, báo, tạp chí, sản phẩm in ấn, phương tiện ngoài trời… làm chúng trở nên sống động, “phá vỡ” hạn chế của các kênh truyền thống bằng cách và hiển thị chúng trên các thiết bị điện tử hỗ trợ như điện thoại thông minh, máy tính…

Một số phần mềm điển hình:

Quảng cáo kết hợp AR đã xuất hiện tại Việt Nam từ cách đây 10 năm và ngày càng trở nên phổ biến. Cách đơn giản là in mã QR trên hình quảng cáo. Nội dung tăng cường sẽ được đọc khi quét mã QR in trên quảng cáo để kết nối vào cơ sở dữ liệu cung cấp nội dung quảng cáo nâng cao; Cách nâng cao là dùng công cụ phần mềm chuyên biệt quét trực tiếp ảnh quảng cáo để nhận dạng và kết nối cơ sở dữ liệu bổ sung.

Miễn phí: Hình thức tích hợp AR trên hình quảng cáo bằng mã QR hoặc quét ảnh thường sử dụng phần mềm quét QR hoặc phần mềm AR Scan Packaging. Các phần mềm này đều được sử dụng miễn phí trên Apple store hoặc trong các thư viện phần mềm có sẵn, tòa soạn chỉ cần xây dựng cơ sở dữ liệu đồ họa và âm thanh cho các hình ảnh cần quảng cáo.

Ngoài ra, bên cạnh các thiết bị chuyên dụng, website hay những phần mềm mobile app riêng biệt, công nghệ AR/VR đã được hỗ trợ nhiều trên các nền tảng mạng xã hội như Facebook, Instagram, Youtube, Tiktok, Snapchat… Tòa soạn có thể sử dụng công nghệ AR đã được tích hợp sẵn trên mạng xã hội để tạo ra các trò chơi (minigame) hay hiệu ứng (filter) thú vị nhúng trong tin, bài. Có thu phí: Hiện đã có một số công ty Việt Nam chuyên nghiên cứu và cung cấp các giải pháp ứng dụng công nghệ tương tác thực tế ảo như ADT Creative, VNi – Visualize Imagination (Holomia), CO – WELL Asia, 3Dart, Bread n’ Tea… Điển hình triển khai: Tờ báo Thanh Niên, Tạp chí di sản đã triển khai chức năng xem video clip (https://tinhte.vn/thread/tnsnap-xem-phim-hinh-tren-bao-giay-thanh-nien.2322476/) sử dụng công nghệ AR trên tin bài, trên quảng cáo.

  1. AR/VR hỗ trợ tổ chức sự kiện và là công cụ phát triển các hình thức tham quan/sự kiện ảo:

Tính năng: Tạo sự bất ngờ, đột phá trong trải nghiệm của những người tham dự. Ví dụ như biến một tấm thiệp mời hay phông nền sự kiện thành các nội dung ảo sinh động có thể tương tác với công chúng. Cung cấp trải nghiệm du lịch ấn tượng.

Một số phần mềm điển hình:

Miễn phí như công cụ video 360 độ, nền tảng Aryel…

Hiện nay, một số trang báo điện tử về du lịch hoặc báo có chuyên trang du lịch như Viettravel, Vietnamplus, Vnexpress thường sử dụng công nghệ VR 360 cho mục “du lịch ảo 360” bằng cách nhúng hình ảnh 360 hoặc video 360 vào nội dung tin bài….

Ở mức ứng dụng VR đầy đủ cùng ảnh 3D, có kênh truyền hình VTV sử dụng công nghệ đồ họa 3D để mô phỏng lại các tình huống, sự kiện giúp người xem có thể nắm bắt đầy đủ hơn thông tin về sự kiện đó. Bộ Thông tin và Truyền thông tổ chức sự kiện Triển lãm số Hoàng Sa -Trường Sa ứng dụng VR 3D. Giúp người tham gia có thể trải nghiệm cảm giác như đi xem bảo tàng thông qua các giác quan nghe, nhìn, chạm vào hiện vật được mô phỏng bằng kỹ thuật số 3D.

SÁU NGHỆ ( tạp chí T3/2023 )