]> git.ipfire.org Git - thirdparty/AWStats.git/commitdiff
Major update of databases.
authoreldy <>
Sun, 2 Aug 2009 23:25:26 +0000 (23:25 +0000)
committereldy <>
Sun, 2 Aug 2009 23:25:26 +0000 (23:25 +0000)
Increase seriously bot detection.

wwwroot/cgi-bin/awstats.pl
wwwroot/cgi-bin/lib/browsers.pm
wwwroot/cgi-bin/lib/browsers_phone.pm
wwwroot/cgi-bin/lib/operating_systems.pm
wwwroot/cgi-bin/lib/robots.pm

index 37fd7ab585e05682b570a843596f3b7700ea13b8..a5a4f13c511f4e089b75ad9f9f0de045a112166c 100644 (file)
@@ -11566,8 +11566,8 @@ if ( $UpdateStats && $FrameName ne 'index' && $FrameName ne 'mainleft' )
                        }
                }
 
-   # Analyze: Robot from "hit on robots.txt" file (=> countedtraffic=5 if robot)
-   # -------------------------------------------------------------------------
+               # Analyze: Robot from "hit on robots.txt" file (=> countedtraffic=5 if robot)
+               # -------------------------------------------------------------------------
                if ( !$countedtraffic ) {
                        if ( $urlwithnoquery =~ /$regrobot/o ) {
                                if ($Debug) { debug( "  It's an unknown robot", 2 ); }
@@ -11685,8 +11685,7 @@ if ( $UpdateStats && $FrameName ne 'index' && $FrameName ne 'mainleft' )
                # Do DNS lookup
                #--------------
                my $Host         = $field[$pos_host];
-               my $HostResolved = ''
-                 ; # HostResolved will be defined in next paragraf if countedtraffic is true
+               my $HostResolved = '';  # HostResolved will be defined in next paragraf if countedtraffic is true
 
                if ( !$countedtraffic ) {
                        my $ip = 0;
@@ -11711,7 +11710,7 @@ if ( $UpdateStats && $FrameName ne 'index' && $FrameName ne 'mainleft' )
                                        }
                                        elsif ( $DNSLookup == 1 ) {
 
-                  # Check in session cache (dynamic DNS cache file + session DNS cache)
+                                               # Check in session cache (dynamic DNS cache file + session DNS cache)
                                                $HostResolved = $TmpDNSLookup{$Host};
                                                if ( !$HostResolved ) {
                                                        if ( @SkipDNSLookupFor && &SkipDNSLookup($Host) ) {
index 749dc04db5414ad2564add9d9a5a29a794063f18..982dcfe092a2819b11d1d32353b1c756d4564658 100644 (file)
 # RSS Readers
 'abilon',
 'aggrevator',
+'aiderss',
 'akregator',
 'applesyndication',
 'betanews_reader',
 'ericsson',                            # Ericsson (must be after sonyericsson)
 'mmef',
 'mspie',
+'vodafone',
 'wapalizer',
 'wapsilon',
+'wap',                                 # Generic WAP phone (must be after 'wap*')
 'webcollage',
 'up\.',                                        # Works for UP.Browser and UP.Link
+# PDA/Phonecell browsers
 'blackberry',
-# PDA/Phonecell I-Mode browsers
 'docomo',
+'iphone',
 'portalmmm',
 # Others (TV)
 'webtv',
 'microsoft\-webdav\-miniredir', 
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\scache\smanager',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sdav',
-'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sprotocol\sdiscovery',
-'microsoft\soffice\sprotocol\sdiscovery',
-'microsoft\soffice\sexistence\sdiscovery',
 'POE\-Component\-Client\-HTTP',
 'mozilla',                             # Must be at end because a lot of browsers contains mozilla in string
 'libwww',                              # Must be at end because some browser have both 'browser id' and 'libwww'
 # RSS Readers
 'abilon','Abilon (RSS Reader)',
 'aggrevator', 'Aggrevator (RSS Reader)',
+'aiderss', 'AideRSS (RSS Reader)',
 'akregator','<a href="http://akregator.sourceforge.net/" title="Browser home page [new window]" target="_blank">Akregator (RSS Reader)</a>',  
 'applesyndication','<a href="http://www.apple.com/macosx/features/safari/" title="Browser home page [new window]" target="_blank">AppleSyndication (RSS Reader)</a>',
 'betanews_reader','Betanews Reader (RSS Reader)',
 'ericsson','Ericsson Browser (PDA/Phone browser)',                     # Must be after SonyEricsson
 'mmef','Microsoft Mobile Explorer (PDA/Phone browser)',
 'mspie','MS Pocket Internet Explorer (PDA/Phone browser)',
+'vodafone','Vodaphone browser (PDA/Phone browser)',
 'wapalizer','WAPalizer (PDA/Phone browser)',
 'wapsilon','WAPsilon (PDA/Phone browser)',
+'wap','Unknown WAP browser (PDA/Phone browser)',                       # Generic WAP phone (must be after 'wap*')
 'webcollage','WebCollage (PDA/Phone browser)',
 'up\.','UP.Browser (PDA/Phone browser)',                                       # Works for UP.Browser and UP.Link
+# PDA/Phonecell browsers
 'blackberry','BlackBerry (PDA/Phone browser)',
-# PDA/Phonecell I-Mode browsers
 'docomo','I-Mode phone (PDA/Phone browser)',
+'iphone','IPhone (PDA/Phone browser)',
 'portalmmm','I-Mode phone (PDA/Phone browser)',
 # Others (TV)
 'webtv','WebTV browser',
 'microsoft\-webdav\-miniredir', 'Microsoft Data Access Component Internet Publishing Provider',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\scache\smanager', 'Microsoft Data Access Component Internet Publishing Provider Cache Manager',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sdav', 'Microsoft Data Access Component Internet Publishing Provider DAV',
-'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sprotocol\sdiscovery', 'Microsoft Data Access Component Internet Publishing Provider Protocol Discovery',
-'microsoft\soffice\sprotocol\sdiscovery','Microsoft Office Protocol Discovery',
-'microsoft\soffice\sexistence\sdiscovery','Microsoft Office Existence Discovery',
 'POE\-Component\-Client\-HTTP','HTTP user-agent for POE (portable networking framework for Perl)',
 'mozilla','Mozilla',
 'libwww','LibWWW',
 'xaudio','mediaplayer',
 'xine','mediaplayer',
 'xmms','mediaplayer',
-# PDA/Phonecell browsers
-'alcatel','pdaphone',                          # Alcatel
-'lg\-','pdaphone',                  # LG
-'ericsson','pdaphone',                         # Ericsson
-'mot\-','pdaphone',                                    # Motorola
-'nokia','pdaphone',                                    # Nokia
-'panasonic','pdaphone',                                # Panasonic
-'philips','pdaphone',                          # Philips
-'sagem','pdaphone',                 # Sagem
-'samsung','pdaphone',               # Samsung
-'sie\-','pdaphone',                 # SIE
-'sec\-','pdaphone',                 # Sony/Ericsson
-'sonyericsson','pdaphone',                     # Sony/Ericsson
-'mmef','pdaphone',
-'mspie','pdaphone',
-'wapalizer','pdaphone',
-'wapsilon','pdaphone',
-'webcollage','pdaphone',
-'up\.','pdaphone',                                     # Works for UP.Browser and UP.Link
-'blackberry','pdaphone',
-# PDA/Phonecell I-Mode browsers
-'docomo','pdaphone',
-'portalmmm','pdaphone',
-# Others (TV)
-'webtv','webtv',
-# Anonymous Proxy Browsers (can be used as grabbers as well...)
-'cjb\.net','cjbnet',
 # RSS Readers
 'abilon', 'abilon',
 'aggrevator', 'rss',
+'aiderss', 'rss',
 'akregator', 'rss',
 'applesyndication', 'rss',
 'betanews_reader','rss',
 'syndirella', 'rss',
 'vienna', 'rss',
 'wizz\srss\snews\sreader','wizz',
+# PDA/Phonecell browsers
+'alcatel','pdaphone',                          # Alcatel
+'lg\-','pdaphone',                  # LG
+'ericsson','pdaphone',                         # Ericsson
+'mot\-','pdaphone',                                    # Motorola
+'nokia','pdaphone',                                    # Nokia
+'panasonic','pdaphone',                                # Panasonic
+'philips','pdaphone',                          # Philips
+'sagem','pdaphone',                 # Sagem
+'samsung','pdaphone',               # Samsung
+'sie\-','pdaphone',                 # SIE
+'sec\-','pdaphone',                 # Sony/Ericsson
+'sonyericsson','pdaphone',                     # Sony/Ericsson
+'mmef','pdaphone',
+'mspie','pdaphone',
+'vodafone','pdaphone',
+'wapalizer','pdaphone',
+'wapsilon','pdaphone',
+'wap','pdaphone',                                      # Generic WAP phone (must be after 'wap*')
+'webcollage','pdaphone',
+'up\.','pdaphone',                                     # Works for UP.Browser and UP.Link
+# PDA/Phonecell browsers
+'blackberry','pdaphone',
+'docomo','pdaphone',
+'iphone','pdaphone',
+'portalmmm','pdaphone',
+# Others (TV)
+'webtv','webtv',
+# Anonymous Proxy Browsers (can be used as grabbers as well...)
+'cjb\.net','cjbnet',
 # Other kind of browsers
 'apt','apt',
 'analogx_proxy','analogx',
index 8576d18734674e774e2142af73ca136d35c4e408..1294fc870c8fd9c0339b48fce2a519bf9b4bbd22 100644 (file)
 'xmms',
 # RSS Readers
 'abilon',
-'aggrevator', 
+'aggrevator',
+'aiderss',
 'akregator',
 'applesyndication',
 'betanews_reader',
 'n21i',
 'n22i',
 'ts21i',
-# PDA/Phonecell I-Mode browsers
+'wap',                                 # Generic WAP phone (must be after 'wap*')
+'up\.',                                        # Works for UP.Browser and UP.Link
+# PDA/Phonecell browsers
+'blackberry',
+'cnf2',
 'docomo',
-'portalmmm',
 'ipcheck',
-'cnf2',
+'iphone',
+'portalmmm',
 # Others (TV)
 'webtv',
 # Anonymous Proxy Browsers (can be used as grabbers as well...)
 'microsoft\-webdav\-miniredir',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\scache\smanager',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sdav',
-'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sprotocol\sdiscovery',
 'POE\-Component\-Client\-HTTP',
 'mozilla',                             # Must be at end because a lot of browsers contains mozilla in string
 'libwww',                              # Must be at end because some browser have both 'browser id' and 'libwww'
 # RSS Readers
 'abilon','Abilon (RSS Reader)',
 'aggrevator', 'Aggrevator (RSS Reader)',
+'aiderss', 'AideRSS (RSS Reader)',
 'akregator','<a href="http://akregator.sourceforge.net/" title="Browser home page [new window]" target="_blank">Akregator (RSS Reader)</a>',  
 'applesyndication','<a href="http://www.apple.com/macosx/features/safari/" title="Browser home page [new window]" target="_blank">AppleSyndication (RSS Reader)</a>',
 'betanews_reader','Betanews Reader (RSS Reader)',
 'n21i','I-Mode Nec 21i (phone)',
 'n22i','I-Mode Nec 22i (phone)',
 'ts21i','I-Mode Toshiba 21i (phone)',
-# PDA/Phonecell I-Mode browsers
+'wap','Unknown WAP browser (PDA/Phone browser)',                       # Generic WAP phone (must be after 'wap*')
+'up\.','UP.Browser (PDA/Phone browser)',                                       # Works for UP.Browser and UP.Link
+# PDA/Phonecell browsers
+'blackberry','BlackBerry (PDA/Phone browser)',
+'cnf2','Supervision I-Mode ByTel (phone)',
 'docomo','I-Mode phone (PDA/Phone browser)',
 'portalmmm','I-Mode phone (PDA/Phone browser)',
 'ipcheck','Supervision IP Check (phone)',
-'cnf2','Supervision I-Mode ByTel (phone)',
+'iphone','IPhone (PDA/Phone browser)',
 # Others (TV)
 'webtv','WebTV browser',
 # Anonymous Proxy Browsers (can be used as grabbers as well...)
 'microsoft\-webdav\-miniredir', 'Microsoft Data Access Component Internet Publishing Provider',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\scache\smanager', 'Microsoft Data Access Component Internet Publishing Provider Cache Manager',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sdav', 'Microsoft Data Access Component Internet Publishing Provider DAV',
-'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sprotocol\sdiscovery', 'Microsoft Data Access Component Internet Publishing Provider Protocol Discovery',
 'POE\-Component\-Client\-HTTP','HTTP user-agent for POE (portable networking framework for Perl)',
 'mozilla','Mozilla',
 'libwww','LibWWW',
 'xaudio','mediaplayer',
 'xine','mediaplayer',
 'xmms','mediaplayer',
-# PDA/Phonecell I-Mode browsers
-'docomo','pdaphone',
-'portalmmm','pdaphone',
-# Others (TV)
-'webtv','webtv',
-# Anonymous Proxy Browsers (can be used as grabbers as well...)
-'cjb\.net','cjbnet',
 # RSS Readers
 'abilon', 'abilon',
 'aggrevator', 'rss',
+'aiderss', 'rss',
 'akregator', 'rss',
 'applesyndication', 'rss',
 'betanews_reader','rss',
 'syndirella', 'rss',
 'vienna', 'rss',
 'wizz\srss\snews\sreader','wizz',
+# PDA/Phonecell browsers
+#'alcatel','pdaphone',                         # Alcatel
+#'lg\-','pdaphone',                  # LG
+#'ericsson','pdaphone',                                # Ericsson
+#'mot\-','pdaphone',                                   # Motorola
+#'nokia','pdaphone',                                   # Nokia
+#'panasonic','pdaphone',                               # Panasonic
+#'philips','pdaphone',                         # Philips
+#'sagem','pdaphone',                 # Sagem
+#'samsung','pdaphone',               # Samsung
+#'sie\-','pdaphone',                 # SIE
+#'sec\-','pdaphone',                 # Sony/Ericsson
+#'sonyericsson','pdaphone',                    # Sony/Ericsson
+#'mmef','pdaphone',
+#'mspie','pdaphone',
+#'wapalizer','pdaphone',
+#'wapsilon','pdaphone',
+'wap','pdaphone',                                      # Generic WAP phone (must be after 'wap*')
+'up\.','pdaphone',
+# PDA/Phonecell browsers
+'blackberry','pdaphone',
+'docomo','pdaphone',
+'iphone','pdaphone',
+'portalmmm','pdaphone',
+# Others (TV)
+'webtv','webtv',
+# Anonymous Proxy Browsers (can be used as grabbers as well...)
+'cjb\.net','cjbnet',
 # Other kind of browsers
 'apt','apt',
 'analogx_proxy','analogx',
 'microsoft\-webdav\-miniredir','frontpage',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\scache\smanager','frontpage',
 'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sdav','frontpage',
-'microsoft\sdata\saccess\sinternet\spublishing\sprovider\sprotocol\sdiscovery','frontpage',
 'gnome\-vfs', 'gnome',
 'neon','neon',
 'javaws','java',
index 5eaded277925db304a04345157e7a78b6b5cff15..300b3f03c7e527b570a0d4af46346df89a5541ec 100644 (file)
 'palmos',
 'syllable',
 # Miscellanous OS
+'blackberry',
 'cp/m',
 'crayos',
 'dreamcast',
 'risc[_+ ]?os',
 'symbian',
 'webtv',
-'playstation[_+ ]portable',
+'playstation',
 'xbox',
 'wii',
 'vienna',
 'palmos','palmos',
 'syllable','syllable',
 # Miscellanous OS
+'blackberry','blackberry',
 'cp/m','cp/m',
 'crayos','crayos',
 'dreamcast','dreamcast',
 'risc[_+ ]?os','riscos',
 'symbian','symbian',
 'webtv','webtv',
-'playstation[_+ ]portable', 'psp',
+'playstation', 'psp',
 'xbox', 'winxbox',
 'wii', 'wii'
 );
 'palmos','<a href="http://www.palm.com/" title="Palm OS home page [new window]" target="_blank">Palm OS</a>',
 'syllable','<a href="http://www.syllable.org/" title="Syllable home page [new window]" target="_blank">Syllable</a>',
 # Miscellanous OS
+'blackberry','BlackBerry',
 'cp/m','<a href="http://www.digitalresearch.biz/CPM.HTM" title="CP/M home page [new window]" target="_blank">CP/M</a>',
 'crayos','<a href="http://www.cray.com/" title="CrayOS home page [new window]" target="_blank">CrayOS</a>',
 'dreamcast','<a href="http://www.sega.com/" title="Dreamcast home page [new window]" target="_blank">Dreamcast</a>',
 'riscos','<a href="http://www.riscos.com/" title="RISC OS home page [new window]" target="_blank">RISC OS</a>',
 'symbian','<a href="http://www.symbian.com/" title="Symbian OS home page [new window]" target="_blank">Symbian OS</a>',
 'webtv','<a href="http://www.webtv.com/" title="WebTV home page [new window]" target="_blank">WebTV</a>',
-'psp', '<a href="http://www.us.playstation.com/psp" title="Sony PlayStation Portable home page [new window]" target="_blank">Sony PlayStation Portable</a>',
+'psp', '<a href="http://www.playstation.com/" title="Sony PlayStation home page [new window]" target="_blank">Sony PlayStation</a>',
 'wii', '<a href="http://wii.opera.com/" title="Opera for Nintendo Wii home page [new window]" target="_blank">Nintendo Wii</a>'
 );
 
index a30db477c17eed2a5ca50a1abb9f900339668d0c..e2cb4d5aa08e5e58e12a740292abbb420a20db56 100644 (file)
 # Rem: To avoid bad detection, some robot's ids were removed from this list:
 #      - Robots with ID of 3 letters only
 #      - Robots called 'webs' and 'tcl'
-# Rem: Some robots mostly used for downloading have also been removed, i.e. wget
 # Rem: directhit changed into direct_hit (its real id)
 # Rem: calif changed into calif[^r] to avoid confusion between Tiscalifreenet browser
 # Rem: fish changed into [^a]fish to avoid confusion between Madsafish browser
 'wombat',
 'wordpress',
 'worm',
+'woozweb',
 'wwwc',
 'wz101',
 'xget',
 'aipbot',
 'aleadsoftbot',
 'alpha_search_agent',
+'allrati',
 'aport',
 'archive\.org_bot',
 'argus',               # Must be before nutch
 'baiduspider',
 'becomebot',
 'bender',
+'betabot',
 'biglotron',
 'bittorrent_bot',
 'biz360[_+ ]spider',
 'everest\-vulcan',
 'ezresult',
 'enteprise',
+'facebook',
 'fast_enterprise_crawler.*crawleradmin\.t\-info@telekom\.de',
 'fast_enterprise_crawler.*t\-info_bi_cluster_crawleradmin\.t\-info@telekom\.de',
 'matrix_s\.p\.a\._\-_fast_enterprise_crawler', # must come before fast enterprise crawler
 'fast_enterprise_crawler',
 'fast\-search\-engine',
+'favicon',
 'favorg',
 'favorites_sweeper',
 'feedburner',
 'sohu', # "sohu agent"
 'snappy',
 'sphere_scout',
+'spip',
 'sproose_crawler',
 'steeler',
 'steroid__download',
 'ng\/1\.', # put at end to avoid false positive
 'ng\/2\.', # put at end to avoid false positive
 'exabot',  # put at end to avoid false positive
+# Other id that are 99% of robots
+'wget',
+'libwww',
 'java\/[0-9]'   # put at end to avoid false positive
 );
 @RobotsSearchIDOrder_listgen = (
 # Generic robot
 'robot',
+'checker',
 'crawl',
+'discovery',
+'hunter',
+'scanner',
 'spider',
-'bot[+:,\.\;\/\\\-]',
-'[+:,\.\;\/\\\-]bot',
+'sucker',
+'bot[\s_+:,\.\;\/\\\-]',
+'[\s_+:,\.\;\/\\\-]bot',
 'no_user_agent'
 );
 
 'wombat','The Web Wombat',
 'wordpress','<a href="http://wordpress.org/" title="WordPress home page [new window]" target="_blank">WordPress</a>',
 'worm','The World Wide Web Worm',
+'woozweb','Woozweb Monitoring',
 'wwwc','WWWC Ver 0.2.5',
 'wz101','WebZinger',
 'xget','XGET',
 'aipbot','<a href="http://www.aipbot.com/" title="aipbot@aipbot.com Bot home page [new window]" target="_blank">aipbot</a>',  
 'aleadsoftbot','<a href="http://www.aleadsoft.com/bot.htm" title="ALeadSoftbot home page [new window]" target="_blank">ALeadSoftbot</a>',
 'alpha_search_agent','Alpha Search Agent',
+'allrati','Allrati',
 'aport', 'Aport',
 'archive\.org_bot','<a href="http://crawls.archive.org/collections/bncf/crawl.html" title="Bot home page [new window]" target="_blank">archive.org bot</a>',
 'argus','<a href="http://www.simpy.com/bot.html" title="feedback@simpy.com Bot home page [new window]" target="_blank">Argus</a>',
 'baiduspider','<a href="http://www.baidu.com/search/spider.html" title="Bot home page [new window]" target="_blank">BaiDuSpider</a>',
 'becomebot', '<a href="http://www.become.com/site_owners.html" title="Bot home page [new window]" target="_blank">BecomeBot</a>',
 'bender','<a href="http://bender.ucr.edu/" title="Bot home page [new window]" target="_blank">bender</a> <a href="http://ivia.ucr.edu/manuals/NiFC/current/index.shtml" title="Bot home page [new window]" target="_blank">focused_crawler</a>',
+'betabot','BetaBot',
 'biglotron','<a href="http://www.biglotron.com/robot.html" title="Bot home page [new window]" target="_blank">Biglotron</a>',
 'bittorrent_bot','<a href="http://www.bittorrent.com/" title="Bot home page [new window]" target="_blank">BitTorrent Bot</a>',
 'biz360[_+ ]spider','<a href="http://www.biz360.com/" title="blogsmanager@biz360.com Bot home page [new window]" target="_blank">Biz360 spider</a>',
 'everest\-vulcan','<a href="http://everest.vulcan.com/crawlerhelp" title="Bot home page [new window]" target="_blank">Everest-Vulcan</a>',
 'ezresult', 'Ezresult',
 'enteprise','<a href="http://www.fastsearch.com/" title="Bot home page [new window]" target="_blank">Fast Enteprise Crawler</a>',
+'facebook','FaceBook bot',
 'fast\-search\-engine','<a href="http://www.fast-search-engine.com/" title="Bot home page [new window]" target="_blank">Fast-Search-Engine</a> (not fastsearch.com)',
 'fast_enterprise_crawler','<a href="http://www.fast.no/" title="FAST Enterprise Crawler home page [new window]" target="_blank">FAST Enterprise Crawler</a>',
 'fast_enterprise_crawler.*scrawleradmin\.t\-info@telekom\.de','<a href="http://www.telekom.de/" title="FAST Enterprise Crawler * crawleradmin.t-info@telekom.de home page [new window]" target="_blank">FAST Enterprise Crawler * crawleradmin.t-info@telekom.de</a>',
 'matrix_s\.p\.a\._\-_fast_enterprise_crawler','<a href="http://tin.virgilio.it/" title="Matrix S.p.A. - FAST Enterprise Crawler home page [new window]" target="_blank">Matrix S.p.A. - FAST Enterprise Crawler</a>',
 'fast_enterprise_crawler.*t\-info_bi_cluster_crawleradmin\.t\-info@telekom\.de','<a href="http://www.telekom.de/" title="FAST Enterprise Crawler * T-Info_BI_cluster crawleradmin.t-info@telekom.de home page [new window]" target="_blank">FAST Enterprise Crawler * T-Info_BI_cluster crawleradmin.t-info@telekom.de</a>',
+'favicon','FavIconizer',
 'favorg','<a href="http://www.pcmag.com/article2/0,4149,108438,00.asp" title="FavOrg home page [new window]" target="_blank">FavOrg</a>',
 'favorites_sweeper','<a href="http://www.manitools.com/favsweep/" title="Favorites_Sweeper home page [new window]" target="_blank">Favorites Sweeper</a>',
 'feedburner', 'Feedburner',
 'sohu','<a href="http://corp.sohu.com/" title="Bot home page [new window]" target="_blank">sohu agent</a>', 
 'snappy','<a href="http://www.urltrends.com/faq.php" title="Bot home page [new window]" target="_blank">Snappy</a>',
 'sphere_scout','<a href="http://www.sphere.com/" title="Bot home page [new window]" target="_blank">Sphere Scout</a>',
+'spip','<a href="http://www.spip.net" title="SPIP home page [new window]" target="_blank">SPIP</a>',
 'sproose_crawler','<a href="http://www.sproose.com/bot.html" title="Bot home page [new window]" target="_blank">sproose crawler</a>',
 'steroid__download','<a href="http://faqs.org.ru/progr/pascal/delphi_internet2.htm" title="STEROID  Download home page [new window]" target="_blank">STEROID  Download</a>',
 'steeler','<a href="http://www.tkl.iis.u-tokyo.ac.jp/~crawler/ " title="Steeler home page [new window]" target="_blank">Steeler</a>',
 'ng\/1\.','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">NG 1.x (Exalead)</a>', # put at end to avoid false positive
 'ng\/2\.','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">NG 2.x (Exalead)</a>', # put at end to avoid false positive
 'exabot','<a href="http://www.exabot.com/" title="Bot home page [new window]" target="_blank">Exabot</a>', # put at end to avoid false positive
+# Other id that are 99% of robots
+'wget','WGet tools',
+'libwww','Perl tool',
 'java\/[0-9]','<a href="http://www.projecthoneypot.org/harvester_useragents.php" title="Bot home page [new window]" target="_blank">Java (Often spam bot)</a>', # put at end to avoid false positive
-# Generic root ID
+# Generic robot
 'robot', 'Unknown robot (identified by \'robot\')',
+'checker', 'Unknown robot (identified by \'checker\')',
 'crawl', 'Unknown robot (identified by \'crawl\')',
+'discovery', 'Unknown robot (identified by \'discovery\')',
+'hunter', 'Unknown robot (identified by \'hunter\')',
+'scanner', 'Unknown robot (identified by \'scanner\')',
 'spider', 'Unknown robot (identified by \'spider\')',
-'bot[+:,\.\;\/\\\-]','Unknown robot (identified by \'bot*\')',
-'[+:,\.\;\/\\\-]bot','Unknown robot (identified by \'*bot\')',
+'sucker', 'Unknown robot (identified by \'sucker\')',
+'bot[\s_+:,\.\;\/\\\-]','Unknown robot (identified by \'bot*\')',
+'[\s_+:,\.\;\/\\\-]bot','Unknown robot (identified by \'*bot\')',
 'no_user_agent','Unknown robot (identified by empty user agent string)',
 # Unknown robots identified by hit on robots.txt
 'unknown', 'Unknown robot (identified by hit on \'robots.txt\')'