Sử dụng trình duyệt văn bản như Lynx để kiểm tra trang web của bạn, bởi vì hầu hết nhện công cụ tìm kiếm nhìn thấy site của bạn giống như Lynx.
Đây là một khái niệm cơ bản trong việc đảm bảo rằng công cụ tìm kiếm có thể hiểu được nội dung trên trang web của bạn. Một ví dụ điển hình là các trang web được được xây dựng chủ yếu là sử dụng các công nghệ như Flash hoặc Silverlight.
Trong khi các trang được xây dựng sử dụng các ngôn ngữ thường rất tốt đẹp để nhìn vào, họ gần như không thể đối với công cụ tìm kiếm để giải thích, vì vậy bạn nên nhìn vào trang web của bạn hoặc sử dụng một văn bản chỉ trình duyệt (như Lynx), hoặc nếu bạn không muốn cài đặt nó bạn có thể sử dụng các plugin khác nhau cho các trình duyệt phổ biến hơn để vô hiệu hóa tất cả các yếu tố phong cách và tiên tiến của một trang.
Nếu bạn không thể sử dụng trang web của bạn trong chế độ văn bản duy nhất, sau đó tôi không mong đợi công cụ tìm kiếm để có thể sử dụng nó, hoặc.
Cho phép các bot tìm kiếm để thu thập thông tin trang web của bạn mà không cần ID phiên hoặc đối số theo dõi đường dẫn qua trang web.
Trong khi ít phổ biến hơn vào năm 2014, đây là lịch sử là một vấn đề rất lớn đối với rất nhiều trang web. Nhiều ứng dụng CMS có chứa ID phiên nối vào cuối của một URL, có thể gây ra một vấn đề đáng kể cho công cụ tìm kiếm.
Nếu một con nhện hoặc công cụ tìm kiếm được một session ID mới vào cuối URL của bạn mỗi khi truy cập vào trang web của bạn, nó có thể giả định rằng mỗi trang là khác nhau, ngay cả khi nội dung là chính xác giống như lần cuối cùng nó đã đến thăm.
Trong khi có rất nhiều cách để giải quyết, chẳng hạn như thực hiện một thẻ kinh điển trong trang web của bạn, bạn không cần phải dựa vào ID phiên năng động trong các địa chỉ trang web của bạn như có những cách tốt hơn để xử lý này - cho cookie của trình duyệt ví dụ.
Một yếu tố quan trọng là bao nhiêu thời gian công cụ tìm kiếm sẽ chi tiêu cho trang web của bạn. Mỗi khi Google hoặc Bing ghé thăm trang web của bạn phải mất tài nguyên, băng thông, không gian đĩa cứng và các chu trình xử lý. Nếu bạn làm cho nó khó khăn cho họ để xử lý trang web của bạn, họ sẽ tìm đến nó ít thường xuyên và thứ hạng của bạn sẽ bị ảnh hưởng.
Hãy chắc chắn rằng máy chủ web của bạn hỗ trợ tiêu đề HTTP If-Modified-Since.
Điều này liên quan đến số lượng tài nguyên cần công cụ tìm kiếm để thu thập thông tin trang web của bạn. Như trên, mỗi khi một Spider đến thăm trang web của bạn phải mất các nguồn lực từ không chỉ là công cụ tìm kiếm, mà còn lưu trữ của bạn mà cuối cùng bạn sẽ mất tiền.
Bằng cách bao gồm các Nếu thay đổi từ tiêu đề trong trang web của bạn, khi chương trình thăm họ có thể thiết lập ngay lập tức cho dù họ phải đọc phần còn lại của trang để tìm nội dung có thể đã thay đổi.
Nếu bạn đã cấu hình chúng một cách chính xác sau đó công cụ tìm kiếm có nhiều khả năng để dành nhiều thời gian tìm kiếm các nội dung mà ĐÃ thay đổi hoặc được tạo ra kể từ khi họ truy cập trước đó, và nội dung mới của bạn sẽ được lập chỉ mục nhanh hơn. Nếu bạn không có cấu hình chúng sau đó công cụ tìm kiếm phải kiểm tra tất cả các trang trên trang web của bạn "thủ công" để tìm thấy bất kỳ thay đổi mà có thể hoặc không có thể xảy ra.
Hãy sử dụng các tập tin robots.txt trên máy chủ web của bạn. Tệp này sẽ cho trình thu thập các thư mục mà có thể hoặc không thể được thu thập. Hãy chắc chắn rằng đó là hiện tại cho trang web của bạn để bạn không vô tình chặn các trình thu thập Googlebot.
Các file Robots.txt là một tập tin cấu hình máy chủ được mở ra cho nhện để kiểm tra, và luôn luôn được lưu trữ trên các tên miền gốc của trang web của bạn với /robots.txt ở cuối dòng (ví dụ, trên trang web này nó sẽ là webmarketingschool.com /robots.txt).
Mục đích của nó là để cho bất kỳ trình thu thập mà bit của trang web mà họ có thể, và không thể nhìn vào. Mục đích chính của nó là để đảm bảo rằng các phần của trang web của bạn, bạn không muốn lập chỉ mục không vô tình kết thúc được liệt kê trên công cụ tìm kiếm, và bằng cách hướng họ ra khỏi các thư mục này nó làm cho những con nhện hiệu quả hơn và có khả năng sẽ cho phép nhiều bộ phận của trang web của bạn, bạn không muốn lập chỉ mục để được đọc.
Hầu hết các hệ thống CMS xử lý này cho bạn tự động, nhưng trong hoàn cảnh mà bạn không thể tìm ra lý do tại sao một số phần của trang web của bạn không xuất hiện trong các chỉ số một ý tưởng tốt để kiểm tra tập tin này để xem nếu bạn đã vô tình dừng lại tìm kiếm động cơ từ nhìn thấy chúng.
Hãy nỗ lực hợp lý để đảm bảo rằng quảng cáo không ảnh hưởng đến thứ hạng công cụ tìm kiếm. Ví dụ, quảng cáo AdSense của Google DoubleClick và các liên kết bị chặn được thu thập bởi một tập tin robots.txt.
Hướng dẫn Google Đây không phải là đặc biệt rõ ràng, đơn giản chỉ vì nó sử dụng các ví dụ không áp dụng trong thế giới thực.
Những gì họ đang nhận được ở đây là để đảm bảo rằng bất kỳ quảng cáo trả tiền không được dùng liên kết "sạch" cho các trang web mà đã trả tiền cho họ, và sau đó có thể được hiểu là liên kết thanh toán được cấm trong điều khoản dịch vụ của Google để đưa vào danh sách hữu cơ.
Nếu bạn có mạng lưới quảng cáo của bên thứ ba bao gồm trên trang web của bạn, hoặc liên kết được trả tiền cho các nhà quảng cáo (dù là văn bản hoặc hình ảnh / banner liên kết) sau đó bạn có nên đảm bảo chúng có chứa một nofollow tag trong các liên kết, hoặc các quảng cáo bị chặn được đọc bằng cách sử dụng một chỉ thị robots.txt.
Nếu công ty bạn mua một hệ thống quản lý nội dung, hãy chắc chắn rằng hệ thống tạo ra các trang web và các liên kết mà công cụ tìm kiếm có thể thu thập thông tin.
Điều này nên được khá rõ ràng, nhưng luôn luôn kiểm tra giá trị của nó trước khi bạn mua một hệ thống quản lý nội dung mới. Nếu công cụ tìm kiếm không thể đọc được các trang được tạo ra bởi hệ thống sau đó họ sẽ không chỉ họ, và bạn sẽ không thể nhận được bất kỳ lưu lượng truy cập miễn phí từ họ. Nó cũng sẽ làm cho quảng cáo chúng trên adwords đắt hơn nhiều.
Cách dễ nhất để kiểm tra điều này trên trang web của bạn chỉ đơn giản là sao chép và qua các URL của trang bạn muốn thử nghiệm và kiểm tra nó trong Google Webmaster Tools sử dụng của họ "lấy như Googlebot" chức năng.
Nếu các trang web mà bạn mong đợi để xem xuất hiện trong kết quả, bạn biết CMS được sản xuất nội dung mà các công cụ tìm kiếm có thể đọc.
Sử dụng robots.txt để ngăn chặn bò của các trang kết quả tìm kiếm hoặc các trang tự động tạo ra khác mà không thêm nhiều giá trị cho người dùng đến từ công cụ tìm kiếm.
Điều này đã trở thành đặc biệt quan trọng kể từ khi Google giới thiệu của "Panda" cập nhật một vài năm trước đây.
Khi mọi người chạy một tìm kiếm trên trang web của bạn, họ thường xem kết quả tại một URL mà là năng động để tìm kiếm. Nhiều hệ thống CMS (bao gồm cả wordpress) cũng tạo ra các trang năng động như thẻ hoặc lưu trữ các trang nội dung của bạn. Đây có thể sản xuất trùng lặp nội dung trên các trang web của bạn mà có hại cho lập chỉ mục và SEO, nhưng nó có thể hữu ích cho người dùng của bạn.
Nếu trang web của bạn dựa vào các loại trang cho người sử dụng, nhưng họ sẽ không thêm bất kỳ giá trị cho công cụ tìm kiếm, sau đó nó làm cho tinh thần để không cho phép họ được lập chỉ mục.
Nếu bạn có thể làm điều này bằng cách sử dụng một tập tin robots.txt đó là giải pháp tối ưu vì nó có nghĩa là công cụ tìm kiếm sẽ không dành nhiều thời gian tải chúng. Nếu bạn không thể đạt được điều này bằng cách sử dụng robots.txt sau đó thay thế tốt nhất tiếp theo là bao gồm một thẻ noindex trong tiêu đề của trang đó, để đảm bảo bạn không bị các vấn đề nội dung trùng lặp.
Kiểm tra trang web của bạn để đảm bảo rằng nó xuất hiện một cách chính xác trong các trình duyệt khác nhau.
Điều này có vẻ hiển nhiên đối với một số nhà phát triển web, nhưng nếu bạn là người mới để xây dựng, tiếp thị trang web mà bạn nên biết rằng ngay cả khi trang web của bạn trông hoàn hảo cho bạn - nó có thể trông khủng khiếp cho người khác tùy thuộc vào cách họ đang truy cập nó.
Tất cả các trang web được hiển thị trên màn hình thiết bị của bạn bằng cách diễn giải mã (thường HTML và CSS), và một số trình duyệt hiển thị những thứ khác nhau.
Luôn luôn cố gắng và kiểm tra trang web của bạn trong nhiều trình duyệt càng tốt, những người phổ biến là Chrome, Firefox, Internet Explorer, Safari và Opera. Tất cả những máy tính để bàn hoặc máy tính xách tay trên máy tính, nhưng bạn cũng nên biết rằng rất nhiều người dân trong năm 2014 truy cập trang web của bạn từ các thiết bị di động, chẳng hạn như máy tính bảng hay điện thoại, tất cả đều có khả năng trông hơi khác nhau.
Theo dõi hiệu suất trang web của bạn và tối ưu hóa thời gian tải.
Trong vài năm gần đây Google đã bắt đầu sử dụng tốc độ trang web như là một yếu tố trong thuật toán xếp hạng của nó, nhưng suy nghĩ về tốc độ trang web nên được xem xét thủ thậm chí không có điều đó.
Các nhanh hơn tải trang web của bạn, càng có nhiều người sẽ tiêu thụ nội dung của nó. Các trang web nhanh hơn tỷ lệ thoát thấp hơn. Các trang web thương mại điện tử nhanh hơn cũng có tỷ lệ chuyển đổi cao hơn. Tất nhiên, nhanh hơn một trang web là dễ dàng hơn cho công cụ tìm kiếm để thu thập thông tin là tốt, vì vậy bạn cũng sẽ được hưởng lợi từ các chỉ số được tốt hơn và bảng xếp hạng có khả năng tốt hơn.
Có rất nhiều cách để tăng tốc độ trang web của bạn, nhưng đảm bảo hiệu quả của nó là thực sự quan trọng để đảm bảo rằng bạn sẽ có được những điều cơ bản phải có, chẳng hạn như hình ảnh phục vụ tối ưu hóa, sử dụng nén và như vậy.