Анализ текста

среда, 13 февраля 2008

00:18

все записи пользователя в сообществе alhames

alhames.ru

Дано:
Имеется произвольный набор текста, размером не превышающим 100 Кб.
Задача:
Необходимо извлечь из текста все имэйлы и создать двумерный массив вида:

<?
//из "[email protected], [email protected], [email protected]..."  в:
$e_mail['login'][0]="petrov"; //логин пользователя
$e_mail['domen'][0]="mail.ru"; //почтовый домен
$e_mail['login'][1]="sidorov";
$e_mail['domen'][1]="yandex.ru";
$e_mail['login'][2]="ivanov";
// ... и т.д.
?>

Вопрос:
Какие методы в данном случае будут наиболее оптимальны?

@темы: Оптимизация, PHP

URL

[*]www.yestoall.com/flashAPI/index.html Линк может оказ... лучше бы никого не видела... ненавижу маршрутки. Всегда т... Вчера Мишка пришел с работы и забабахал клевый и очень вк...

- на высоте 2 Current music: Виктор Пелевин - "... 19 июня 1997 года. ГАИшники диву давались, когда им ... http://www.juxtinteractive.com/htmlsite/index.html

Комментарии

13.02.2008 в 00:25

La personne mystique

что-нибудь типа

<?php

   function get_emails($s)
   {
      preg_match_all("#([\w][-\.\w]+)\@([-\.\w]+\.[a-z]{2,5})#i", $s, $m, PREG_PATTERN_ORDER);
      return array("login" => $m[1], "domain" => $m[2]);
   }

?>

URL

13.02.2008 в 00:30

alhames

alhames.ru

La personne mystique текст большой (50-100 Кб) -не приведет ли предложенная функция к излишней нагрузки сервера?

URL

13.02.2008 в 00:31

FVA

Будем же учиться хорошо мыслить - вот основной принцип морали (с) Паскаль

Хмм.. Вообще, вопрос интересный. Гонять регулярку по такому объему не факт что эффективно, хотя это, конечно, наиболее простой метод. Пара вальтернативных идей у меня есть, на надо тестировать что эффективнее. В принципе, все зависит от ситуации - где-то регулярка вполне допустима. Несколько вопросов:
1. какая предполагается нагрузка на скрипт (количество итераций в еденицу времени, максимальный объем текста за одну итерацию)
2. Версия php и apache

URL

13.02.2008 в 00:37

La personne mystique

alhames, вообще, основные потери мощности с регулярными - при инициализации, поэтому в разумных пределах они тем эффективнее, чем больший объем текста требуется обработать. А еще, стоит учесть, что написанная "регулярка" делает единственный проход по строке, тогда как практически любой парсинг с использованием строковых функций наверняка сделает больше прогонов ^^ Есть еще посимвольный анализ, но он эффективен только на низком уровне, а на PHP хорошо оптимизированные функции perl regular exprеssions, реализованные на Сях, явно должны быть быстрее

URL

13.02.2008 в 00:47

alhames

alhames.ru

FVA требуется подобрать наиболее универсальную функцию, не зависящую от нагрузки, и уж тем более от настроек сервера.
Единственное, что надо учесть - это то, что большинство хостингов еще не поддерживают PHP 5, поэтому желательно ограничется ресурсами 4й версии.

La personne mystique я попробую протестировать скорость исполнения регулярки -завтра напишу.
А если использовать строковые функции -какой алгоритм?

URL

13.02.2008 в 01:07

La personne mystique

текст 1.25 Мб, содержащий 30'000 адресов, среднее значение за 20 прогонов
регулярные выражения - 1.42 сек
строковые функции - 1.67 сек

вот так использовал строковые функции (правда, тут есть ложные срабатывания

<?php

   function get_emails($s)
   {
      $offset = 0;
      $len = strlen($s);
      $data = array();
      while (($pos = strpos($s, '@', $offset)) !== FALSE)
      {
         $l = 1;
         while (($p = $pos - $l) >= 0 && (ctype_alnum($c = $s[$p]) || $c == '-' || $c == '_' || $c == '.'))
            ++$l;
         --$l;
         $r = 1;
         while (($p = $pos + $r) <= $len && (ctype_alnum($c = $s[$p]) || $c == '-' || $c == '_' || $c == '.'))
            ++$r;
         --$r;
         if ($s[$pos + $r] == ".") --$r;
         $data[] = array("username" => substr($s, $pos - $l, $l), "domain" => substr($s, $pos + 1, $r));
         $offset = $pos + $r;
      }
      return $data;
   }

?>

URL

13.02.2008 в 02:17

FVA

Будем же учиться хорошо мыслить - вот основной принцип морали (с) Паскаль

Погонял различные тесты и понял одну интересную штуку - универсального алгоритма не получится - в разных ситуациях разные варианты эффективнее. Например, при работе с обычной html страничкой, с 20-30 адресами, регулярка дает 35-40 итераций в секунду, а строковые функции (реализация практически такая же как и у La personne mystique) - 2900-3100 итераций. При обработке мегабайтного файла наполненного одинаковыми адресами - дает 25-30, а строковые - 5-7. Ну и наконец самое интересное - при обработке файлов любого объема состоящих из разных адресов (адреса сгенерированы в цикле и каждый имеет вид md5(microtime())."@".md5(microtime())."com") - оба варианта дают практически одинаковые результаты, но строковые чуть-чуть впереди.

PS: Замеры по времени подтверждают описанные результаты.

URL

13.02.2008 в 02:38

alhames

alhames.ru

FVA
Например, при работе с обычной html страничкой, с 20-30 адресами, регулярка дает 35-40 итераций в секунду, а строковые функции (реализация практически такая же как и у La personne mystique) - 2900-3100 итераций.
Имеется ввиду полный код html-странички? Мне собственно его обрабатывать и надо..

URL

13.02.2008 в 02:39

FVA

Будем же учиться хорошо мыслить - вот основной принцип морали (с) Паскаль

alhames Ну да - я просто html код случайной страницы скопипастил и все. =)

URL

13.02.2008 в 03:13

alhames

alhames.ru

FVA гм.. А почему такие колосальные различия в скорости не знаешь?
Да, кстать, а как ты измеряешь это кол-во итераций? А то мне это понятие непривычно -я привык в секундах все мерить..

URL

13.02.2008 в 03:44

FVA

Будем же учиться хорошо мыслить - вот основной принцип морали (с) Паскаль

alhames Когда в тексте не очень много адресов, большие куски ненужного текста просто отбрасываются, путем выяснения позиции знака @, а регулярное выражение все-равно проходит по всему тексту. Итерации измеряю просто - делаю max_execution_time = 1 и пускаю функцию в бесконечном цикле.

UPD: на каждой итерации - echo ++$iterations;

URL

13.02.2008 в 12:53

alhames

alhames.ru

"#([\w][-\.\w]+)\@([-\.\w]+\.[a-z]{2,5})#i"
:hmm:

Как же я не люблю эти закорючки.. :hmm:

Ладно, сейчас буду разбираться..

Кстати, хотел спросить, а что если написать скрипт автоматической генерации (и дегенерации

) шаблонов регулярки? Востребованно будет? А то у меня мозги кипять от этих символов..

FVA интересная методика =) Только если функция выполняется больше секунды она не особо продуктивой становится - куда детальней в секундах будет

URL

13.02.2008 в 13:10

FVA

Будем же учиться хорошо мыслить - вот основной принцип морали (с) Паскаль

alhames ничто не мешает дать скрипту 10, 20 и т.д. секунд на выполнение. Кроме того, я не говорю то это метод лучше или хуже - он несколько другой. При замере времени мы получаем результат выполнения функции 1 раз, а при подсчете итераций - результат многократного выполнения функции - то есть очень упрощенной имитации нагрузки на сервер. =)

URL