Điều quan trọng về Web Scraping
Việc thu thập dữ liệu từ các trang web là một nhiệm vụ tương đối phức tạp mà cho đến gần đây, yêu cầu một mức độ kỹ thuật cao. Việc đào sâu vào mã code hoặc script để trích xuất dữ liệu dường như là một thách thức lớn đối với nhiều người, kể cả tôi.
Web scraping có thể hỗ trợ nhiều công việc SEO, như kiểm tra, phân tích đối thủ và xem xét cấu trúc trang web và dữ liệu.
Google Sheets cung cấp các giải pháp đơn giản để hỗ trợ việc này.
Một trong những giải pháp đó là chức năng IMPORTXML cho phép người dùng trích xuất dữ liệu từ trang web chỉ với vài tham số. Điều này giúp việc trích xuất dữ liệu trở nên dễ tiếp cận hơn với một đối tượng rộng lớn, đặc biệt là với những người chưa thành thạo về ngôn ngữ lập trình.
Trong hướng dẫn này, chúng tôi sẽ hướng dẫn bạn cách sử dụng Google Sheets và trí tuệ nhân tạo, đặc biệt là ChatGPT, cho việc web scraping mà không cần kỹ năng lập trình cao cấp.
Hình ảnh liên quan
Công cụ: Trí Tuệ Nhân Tạo và Chatbots
Chúng ta đã quen thuộc với trí tuệ nhân tạo, ChatGPT và các chatbot tương tự.
Thực tế, nhiều người trong chúng ta sử dụng các giải pháp như ChatGPT để viết mã, script và chương trình của chính mình mà không cần hoặc chỉ cần kiến thức lập trình hạn chế.
Chỉ cần cung cấp hướng dẫn chi tiết dưới dạng gợi ý và làm việc với chatbot để xây dựng các công cụ mà cho đến gần đây chúng ta tin rằng là quá khó khăn với chúng ta.
Nhưng quan trọng nhất, đây là những công cụ đang thay đổi cách chúng ta tiếp cận công việc hàng ngày của chúng ta.
Hình ảnh liên quan
Nhiệm Vụ
Vậy làm thế nào nếu chúng ta muốn trích xuất dữ liệu không phải là tiêu đề chuẩn so với một trang web?
Ví dụ, làm thế nào nếu chúng ta muốn trích xuất dữ liệu từ trang PPC front page của Search Engine Journal?
Liệt kê tất cả các bài viết nổi bật, tác giả của họ, các liên kết URL và mô tả bài viết cho các cột được liệt kê trên https://www.searchenginejournal.com/category/paid-media/pay-per-click/.
Chúng ta có thể thực hiện điều đó trực tiếp với ChatGPT không?
Hình ảnh liên quan
Thực Hiện Với ChatGPT
Khi tạo các gợi ý, cần một số lần thử để cung cấp hướng dẫn đủ chi tiết để chatbot hiểu đúng mục tiêu của nhiệm vụ và trả về kết quả tốt.
Trong nhiều trường hợp, cảm giác như trí tuệ nhân tạo đang chịu áp lực để trả kết quả nhanh chóng mặc dù độ chính xác của chúng.
Nhưng để tôi giải thích.
Nhiệm vụ là phân tích trang và liệt kê tất cả các bài viết nổi bật, tác giả của họ, liên kết URL và mô tả cho mỗi trong số 30 bài viết được liệt kê trên trang. Sau đó tổng hợp dữ liệu vào bảng và cuối cùng xuất nó vào một tệp CSV.
Đơn giản phải không?
Ban đầu, ChatGPT chỉ trả về một số mẫu bài viết và chỉ tiêu đề và URL của chúng; sau khi sửa đổi gợi ý, nó đã quản lý liệt kê và xuất tất cả 30 bài viết và các liên kết của chúng.
Đó là tốt. Vì vậy, để hoàn thành nhiệm vụ, chúng ta chỉ cần thêm tác giả và mô tả của bài viết.
Nhưng đây là nơi mà chatbot gặp khó khăn và không thể cung cấp một mô tả chính xác cho mỗi bài viết mặc dù chúng tôi cung cấp ví dụ về phần tử trang mà nó cần tìm và sao chép.
ChatGPT tiếp tục bỏ qua hướng dẫn và cung cấp mô tả bài viết của riêng mình lần sau lần.
ChatGPT thậm chí còn thất bại khi chúng tôi thử với một phương pháp khác và tải xuống và tải lên một bản sao của trang HTML.
Hình ảnh liên quan
ChatGPT + Google Sheets
Vậy, quay trở lại với IMPORTXML và Google Sheets.
Lần này, việc yêu cầu ChatGPT cung cấp các công thức cho mỗi trường như một cơn gió.
Dưới đây là một số công thức, theo đề xuất của chatbot, mà bạn có thể dễ dàng thử trong Google Sheets để trích xuất:
Tiêu đề
=IMPORTXML('https://www.searchenginejournal.com/category/paid-media/pay-per-click/', '//*[@id='archives-wrapper']/article/div/div[2]/h2/a')
Tên Tác Giả
=IMPORTXML('https://www.searchenginejournal.com/category/paid-media/pay-per-click/', '//*[@id='archives-wrapper']/article/div/div[2]/p[1]/a')
Liên Kết URL
=IMPORTXML('https://www.searchenginejournal.com/category/paid-media/pay-per-click/', '//*[@id='archives-wrapper']/article/div/div[2]/h2/a/@href')
Mô Tả
=IMPORTXML('https://www.searchenginejournal.com/category/paid-media/pay-per-click/', '//*[@id='archives-wrapper']/article/div/div[2]/p[2]')
Trong thời gian ngắn, chúng tôi đã có thể trích xuất dữ liệu vào bảng tính.
Hình ảnh liên quan
Ngoài ra, bằng cách sử dụng các công thức lồng nhau đơn giản, chúng ta có thể nhanh chóng trích xuất dữ liệu từ nhiều trang cùng một lúc.
Kết quả là tổng cộng 300 bài viết bị cắt xén trong thời gian dưới một phút!
So Sánh Hai Phương Pháp
Vậy ChatGPT so với ChatGPT + Google Sheets IMPORTXML có gì khác biệt?
Theo trải nghiệm của tôi, tôi không thể tìm thấy cách tiện lợi và nhanh chóng để sử dụng ChatGPT để trích xuất dữ liệu mà tôi đang tìm kiếm - hãy nhớ rằng điều đó không có nghĩa là điều này không thể, và có thể có nhiều cách để làm điều này, nhưng tôi không tìm thấy bất kỳ cách nào.
Điều hoạt động với tôi là sự kết hợp của các công cụ khác nhau, và điều đó phục vụ tôi rất tốt cho mục đích đã đề ra.
ChatGPT rất hữu ích để viết các công thức IMPORTXML mà tôi cần sử dụng trong Google Sheets, và những công thức đó đã thực hiện phần còn lại.
Một lợi ích bổ sung của lựa chọn ChatGPT + Google Sheets là bạn chỉ cần sử dụng phiên bản miễn phí 3.5 của ChatGPT và có công cụ để xây dựng các công thức IMPORTXML của mình, thay vì phải có phiên bản 4 để quét trang và trích xuất dữ liệu.
Kết Luận Quan Trọng
Điều này nhấn mạnh một khía cạnh quan trọng về cách trí tuệ nhân tạo đã thay đổi cách chúng ta suy nghĩ và làm việc.
Công cụ tốt nhất cho công việc không chỉ đơn giản là sử dụng trí tuệ nhân tạo, Google Sheets hoặc bất kỳ phần mềm cụ thể nào mà là sự kết hợp giữa các công cụ và kỹ năng.
Chính trong cách tiếp cận tích hợp này, chúng ta phát triển quy trình làm việc hiệu quả và hiệu quả, từ đó cải thiện năng suất tổng thể của chúng ta.