ஒரு வாடிக்கையாளருக்காக நான் ஒரு வலைத்தளத்தை இயக்குகிறேன், அங்கு அவர்கள் பல ஆண்டுகளாக துல்லியமாகவும் மெதுவாகவும் சேகரித்த தகவல்களின் பெரிய தரவுத்தளத்தைக் காண்பிப்பார்கள். அவர்கள் வலை முழுவதும் பல்வேறு இடங்களில் தங்கள் தரவைக் கண்டுபிடித்து வருகின்றனர். ஒரு ஸ்கிராப்பர் தங்கள் தளப் பக்கத்தின் பக்கமாகச் சென்று அவர்களுக்குத் தேவையான தகவல்களைத் தங்கள் தரவுத்தளத்தில் பிரித்தெடுப்பதன் காரணமாக இருக்கலாம். நீங்கள் ஆச்சரியப்படுகிறீர்கள் என்றால், அவர்களின் தளத்தில் ஒவ்வொரு வகையிலும் ஒரு நடப்பட்ட தரவு இருப்பதால் அது அவர்களின் தரவு என்று அவர்களுக்குத் தெரியும்.
கடந்த இரண்டு நாட்களில் நான் இதைப் பற்றி நிறைய ஆராய்ச்சி செய்துள்ளேன், சரியான பிடிப்பு-எல்லா தீர்வும் இல்லை என்று நான் உங்களுக்கு சொல்ல முடியும். இருப்பினும் இதைச் செய்வதற்கு சற்று கடினமாக இருப்பதை நான் செய்ய பல விஷயங்களைக் கண்டேன். இதை நான் வாடிக்கையாளருக்காக செயல்படுத்தினேன்.
அஜாக்ஸிஃபைட் பக்கினேட் தரவு
உங்களிடம் நிறைய பக்க தரவு இருந்தால், உங்கள் URL இன் முடிவில் வேறு எண்ணைச் சேர்ப்பதன் மூலம் உங்கள் தரவைப் பின்தொடர்கிறீர்கள், அதாவது http://www.domain.com/category/programming/2 - பின்னர் நீங்கள் செய்கிறீர்கள் கிராலரின் வேலை மிகவும் எளிதானது. முதல் சிக்கல் என்னவென்றால், இது எளிதில் அடையாளம் காணக்கூடிய வடிவத்தில் உள்ளது, எனவே இந்த பக்கங்களில் ஒரு ஸ்கிராப்பரை தளர்வாக அமைப்பது பை போல எளிதானது. இரண்டாவது சிக்கல், வகையின் அடுத்தடுத்த பக்கங்களின் URL ஐப் பொருட்படுத்தாமல், அவை இணைக்க அடுத்த மற்றும் முந்தைய இணைப்பு இருக்கும்.
பக்க மறுஏற்றம் இல்லாமல் ஜாவாஸ்கிரிப்ட் மூலம் பக்கமாக்கப்பட்ட தரவை ஏற்றுவதன் மூலம், இது அங்கு நிறைய ஸ்கிராப்பர்களுக்கான வேலையை கணிசமாக சிக்கலாக்குகிறது. கூகிள் சமீபத்தில் தான் ஜாவாஸ்கிரிப்டை பக்கத்தில் பாகுபடுத்தத் தொடங்கியது. இது போன்ற தரவை மீண்டும் ஏற்றுவதில் சிறிய தீமை இல்லை. கூகிளுக்கு குறியீட்டுக்கு நீங்கள் சில குறைவான பக்கங்களை வழங்குகிறீர்கள், ஆனால், தொழில்நுட்ப ரீதியாக, பக்க தரவு அனைத்தும் எப்படியாவது நியமனமாக்கல் வழியாக ரூட் வகை பக்கத்தை சுட்டிக்காட்ட வேண்டும். உங்கள் தரவுகளின் பக்கங்களை அஜாக்ஸிஃபை செய்யுங்கள்.
வார்ப்புரு வெளியீட்டை சீரற்றதாக்கு
ஸ்கிராப்பர்கள் பெரும்பாலும் உங்கள் தரவிற்காக சற்று தனிப்பயனாக்கப்படும். அவை தலைப்புக்கு ஒரு குறிப்பிட்ட டிவி ஐடி அல்லது வகுப்பு, உங்கள் விளக்கத்திற்கான ஒவ்வொரு வரிசையிலும் 3 வது செல் போன்றவற்றைப் பொருத்துகின்றன. ஒரே அட்டவணையில் இருந்து வரும் பெரும்பாலான தரவுகளுடன் வேலை செய்ய பெரும்பாலான ஸ்கிராப்பர்களுக்கு எளிதில் அடையாளம் காணக்கூடிய முறை உள்ளது, அதே வார்ப்புரு மூலம் காட்டப்படும். உங்கள் div ids மற்றும் class பெயர்களை சீரற்றதாக்குங்கள், வெற்று அட்டவணை நெடுவரிசைகளை 0 அகலத்துடன் சீரற்ற முறையில் செருகவும். உங்கள் தரவை ஒரு பக்கத்தில் உள்ள அட்டவணையில், ஸ்டைல் டிவிகளில் மற்றும் மற்றொரு டெம்ப்ளேட்டில் சேர்க்கவும். உங்கள் தரவை கணிக்கக்கூடிய வகையில் வழங்குவதன் மூலம், அதை கணிக்கக்கூடிய மற்றும் துல்லியமாக ஸ்கிராப் செய்யலாம்.
தேன் கிண்ணம்
இது அதன் எளிமையில் மிகவும் சுத்தமாக இருக்கிறது. தள ஸ்கிராப்பிங்கைத் தடுப்பது பற்றி பல பக்கங்களில் இந்த முறையைப் பார்த்தேன்.
- உங்கள் சேவையகத்தில் gotcha.html என்ற புதிய கோப்பை உருவாக்கவும்.
- உங்கள் robots.txt கோப்பில், பின்வருவனவற்றைச் சேர்க்கவும்:
பயனர் முகவர்: *
அனுமதி: /gotcha.html
இது எல்லா ரோபோக்களுக்கும் சிலந்திகளுக்கும் உங்கள் தளத்தை குறியீட்டுக்கு கோட்சா.ஹெச்.எம். எந்தவொரு சாதாரண வலை கிராலரும் உங்கள் robots.txt கோப்பின் விருப்பங்களை மதிக்கும் மற்றும் அந்த கோப்பை அணுகாது. அதாவது கூகிள் மற்றும் பிங். நீங்கள் உண்மையில் இந்த படிநிலையை செயல்படுத்த விரும்பலாம், அடுத்த கட்டத்திற்குச் செல்வதற்கு 24 மணி நேரம் காத்திருக்கவும். உங்கள் robots.txt கோப்பைப் புதுப்பிக்கும்போது அது ஏற்கனவே நடுப்பகுதியில் வலம் வந்ததால் ஒரு கிராலர் தற்செயலாக உங்களால் தடுக்கப்படுவதில்லை என்பதை இது உறுதி செய்யும். - உங்கள் இணையதளத்தில் எங்காவது gotcha.html க்கு இணைப்பை வைக்கவும். எங்கே என்பது முக்கியமல்ல. அடிக்குறிப்பில் நான் பரிந்துரைக்கிறேன், இருப்பினும், இந்த இணைப்பு CSS இல், காட்சி இல்லை என்பதை உறுதிப்படுத்திக் கொள்ளுங்கள்: எதுவும் இல்லை;
- இப்போது, இந்தப் பக்கத்தைப் பார்வையிட்ட நபரின் ஐபி / பொதுத் தகவல்களைப் பதிவுசெய்து அவற்றைத் தடுக்கவும். மாற்றாக, தவறான மற்றும் குப்பை தரவை அவர்களுக்கு வழங்க ஸ்கிரிப்டைக் கொண்டு வரலாம். அல்லது உங்களிடமிருந்து அவர்களுக்கு ஒரு நல்ல தனிப்பட்ட செய்தி இருக்கலாம்.
வழக்கமான வலை பார்வையாளர்களால் இணைப்பைக் காண முடியாது, எனவே அது தற்செயலாக கிளிக் செய்யப்படாது. புகழ்பெற்ற கிராலர்கள் (எடுத்துக்காட்டாக கூகிள்), உங்கள் robots.txt இன் விருப்பங்களை மதிக்கும் மற்றும் கோப்பைப் பார்வையிடாது. எனவே, இந்தப் பக்கத்தில் தடுமாற வேண்டிய ஒரே கணினிகள் தீங்கிழைக்கும் நோக்கங்களைக் கொண்டவை, அல்லது யாராவது உங்கள் மூலக் குறியீட்டைப் பார்த்து தோராயமாக கிளிக் செய்கிறார்கள் (அது நடந்தால் நன்றாக இருக்கும்).
இது எப்போதும் செயல்படாத இரண்டு காரணங்கள் உள்ளன. முதலாவதாக, நிறைய ஸ்கிராப்பர்கள் சாதாரண வலை கிராலர்களைப் போல செயல்படாது, மேலும் உங்கள் தளத்தின் ஒவ்வொரு பக்கத்திலிருந்தும் ஒவ்வொரு இணைப்பையும் பின்பற்றுவதன் மூலம் தரவைக் கண்டறிய வேண்டாம். ஸ்கிராப்பர்கள் பெரும்பாலும் சில பக்கங்களை சரிசெய்யவும் சில கட்டமைப்புகளை மட்டுமே பின்பற்றவும் கட்டப்பட்டுள்ளன. எடுத்துக்காட்டாக, ஒரு ஸ்கிராப்பர் ஒரு வகை பக்கத்தில் தொடங்கப்படலாம், பின்னர் ஸ்லக்கில் உள்ள சொல் / தரவுடன் URL களைப் பார்வையிட மட்டுமே கூறப்படுகிறது. இரண்டாவதாக, யாரோ ஒருவர் தங்கள் ஸ்கிராப்பரை மற்றவர்களைப் போலவே அதே நெட்வொர்க்கில் இயக்கினால், பகிரப்பட்ட ஐபி பயன்படுத்தப்படுகிறது என்றால், நீங்கள் முழு நெட்வொர்க்கையும் தடை செய்வீர்கள். இது ஒரு பிரச்சனையாக இருக்க நீங்கள் மிகவும் பிரபலமான வலைத்தளத்தை வைத்திருக்க வேண்டும்.
பறக்கும்போது படங்களுக்கு தரவை எழுதுங்கள்
தரவின் சிறிய புலத்தைக் கண்டுபிடி, உரையின் நீண்ட சரங்கள் அவசியமில்லை, ஏனெனில் இது பக்கத்தை ஸ்டைலிங் செய்வது சற்று கடினமாக இருக்கும். ஒரு படத்தின் உள்ளே இந்தத் தரவை வெளியிடுங்கள், ஒவ்வொரு நிரலாக்க மொழியிலும் ஒரு படத்திற்கு உரையை எழுதுவதற்கு முறைகள் உள்ளன என்று நான் நம்புகிறேன் (php, imettettftext இல்). எண்கள் மிகவும் அற்பமான எஸ்சிஓ நன்மையை அளிப்பதால் இது எண் மதிப்புகளுடன் மிகவும் பயனுள்ளதாக இருக்கும்.
மாற்று
இந்த திட்டத்திற்கான விருப்பம் இதுவல்ல. ஒரு குறிப்பிட்ட அளவு பக்கக் காட்சிகளுக்குப் பிறகு உள்நுழைவு தேவைப்படுகிறது, அல்லது உள்நுழையாமல் ஒரு குறிப்பிட்ட அளவு தரவைக் காண்பிக்கும். அதாவது, உங்களிடம் 10 நெடுவரிசைகள் இருந்தால், உள்நுழைந்த பயனர்களுக்கு 5 ஐ மட்டுமே காண்பி.
இந்த தவறை செய்யாதீர்கள்
போட்டின் பயனர் முகவரை அடிப்படையாகக் கொண்டு ஒருவித தீர்வைக் கொண்டு வர முயற்சிக்க வேண்டாம். அவர்கள் என்ன செய்கிறார்கள் என்பதை அறிந்த ஒரு ஸ்கிராப்பரால் இந்த தகவலை எளிதில் ஏமாற்றலாம். எடுத்துக்காட்டாக google போட் எளிதில் பின்பற்றப்படலாம். நீங்கள் Google ஐ தடை செய்ய விரும்பவில்லை.
