Погода: -12°C
  • Народ! Есть вопрос:

    Где есть и как называется библиотека для получения/отправки текстов с произвольного форума? Чужого. Хотя бы что искать...

    Хочу попробовать написать бота, ведущего хоть какой-то внятный диалог...:миг:

    Инструментарий в принципе подойдет любой, но предпочтительнее С++, PHP, Java...

    т.е. Библиотека должна уметь получив Урл страницы - "всосать" содержимое сообщений форума (в принципе формат любой, можно даже без "разбора" на составные части типа "кто, тема, сообщение") и предоставить инструмент выдачи на форум сообщений, разумеется после логина...

    Представляю себе пока это где-то так. Подскажите, хотя бы что искать в инете!!!
    А может есть что готовенькое...:миг:

    Заранее спасибо.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • А самому разработать такую библиотеку слабо? В принципе не вижу сложностей))

    Осторожнее с травой!
    Если хапнешь много дряни
    Увезут тебя с собой
    Злые инопланетяне

  • не понял конечную суть. нужно "всосать" какой-то форум, а потом на какую-либо фразу, поданную на ввод приблизительной тематики используя ранее "заряженные" данные об ответах подбирался вывод?

    Non solum oportet, sed etiam necessese est

  • Craxx'у: сложно. В Инет-технологиях пока не силён. Да и зачем изобретать "велосипед"? Наверняка такая уже есть. Может не в таком виде...

    Mad Dollar'у: Примерно. Нужна фигня, которая может в мою прогу всосать тот или иной форум (по указке)... и еще фигня, которая может выдать на такой форум выбранный кусок текста... хорошо, если еще и сама может залогиниться по имени/паролю... А вот как обрабатывать полученный текст и подбирать ответы - это как писать уже понял. Вот и хочу протестить на "смыслосодержательность"...:улыб:

    П.С. по-другому: нужен интерфейс ввода-вывода, а содержательную часть - уже пишу...

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

    Исправлено пользователем tolstopuz (03.11.09 13:24)

  • ОФФ:
    Владимир, Вам надоело сомому общаться на форуме :ха-ха!: ?

  • Пока еще нет. Просто в рамках своего проекта появляется такая возможность потестить алгоритмы хранения и распознавания содержательной части текстов... хочется посмотреть хто из нас будет грамотнее болтать на форумах...:улыб:

    П.С. А по теме? Как организовать такой ввод/вывод из собственной проги. И на чем такие библиотеки уже есть? Пока еще только выбираю язык на котором писать - надо бы определяться ужо...

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

    Исправлено пользователем tolstopuz (03.11.09 15:15)

  • В ответ на: Как организовать такой ввод/вывод из собственной проги.
    напишите демона, через локальный/сетевой сокет пишите туда "вопрос", и через него же читайте "ответ". а сам демон нехай уже реализовывает поиск ответа на вопрос по вашим алгоритмам, насколько я понял дать ответ на вопрос проблемы нет?
    В ответ на: И на чем такие библиотеки уже есть?
    из самого тупого что в голову приходит - индексы текстового поиска в postgreSQL можно "поколупать" - из множества слов вопроса формируется множество "ответов" с разными весами. А прям влоб таких бот-библиотек как-то не видел если честно =)

    Non solum oportet, sed etiam necessese est

  • В ответ на: и еще фигня, которая может выдать на такой форум выбранный кусок текста... хорошо, если еще и сама может залогиниться по имени/паролю...
    Это называется спам-бот:миг:

  • Да всеравно как называется... библиотеку-то какую поискать... хоть бы название какое для ориентировки... чем заменить stdin и stdout в проге?

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Извиняюсь. Посмотрел поиском про спам-боты. Не совсем то, что нужно, но, в принципе, какой-нибудь исходник переделать наверно можно под нужные цели.

    Зато нашел библиотеки по ТСР. Задача на нижнем уровне стала понятнее: формируем нужные пакеты и отправляем на сервер, а потом разбираем чего пришло и отправляем ответ... а библиотек "верхнего" уровня - никак?:улыб:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Дык, это, зачем TCP, можно же (и нужно) юзать HTTP, про WinHttp почитай, например.

    У вас такая красивая машина. Это Ферарри? - Не, это Фольксваген Поло.

  • Ну оно, вроде как в самом низу сидит...:миг:

    А ишо похоже нашел таки подходящую библиотеку - Curl. Теперь ищу где её взять можно...

    Да. Еще "по ходу пьессы" возник вопросик: Это надо будет весь образ странички разобрать по формам - тегам - именам и понять "где-кто" - в смысле какой элемент чем наполнен и куды чего отвечать надобно-ть? :eek:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: чем заменить stdin и stdout в проге?
    unix socket например.

    Non solum oportet, sed etiam necessese est

  • В ответ на: А ишо похоже нашел таки подходящую библиотеку - Curl. Теперь ищу где её взять можно...
    в репозитории =) там же можно взять дев-пакет с заголовками для це/це++

    Non solum oportet, sed etiam necessese est

  • Спасибки. Вчера - не осилил. Ушел спать. А так, в общих чертах, вопрос стал понятен.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • ты для начала основы вэб-программирования изучи

  • Ой пасибки за совет... и как это я раньшее не догадалси?
    :хммм:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • вот как.. ну.. ты поставил непосильную задачу для себя :ха-ха!:

  • Спасибо. Ставить непосильные задачи - не такое уж и плохое качество. Хуже если никаких задач не ставить.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Извиняюсь. Посмотрел поиском про спам-боты. Не совсем то, что нужно, но, в принципе, какой-нибудь исходник
    Гугльни
    web crawler scraping code (+нужный язык)
    Если нужна аналитика, то добавь в поиск
    mining semantic

    Весь инет завален примерами и исходниками.
    Самая востребованная сейчас тема во фрилансе

  • В ответ на: Ставить непосильные задачи - не такое уж и плохое качество.
    гы.. сам себя не похвалишь.. ага? :ха-ха!:

  • Это всё, или будет еще что по теме?

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Ну обычно ради того, чтобы посмотреть кто умнее общается на форуме бот или человек такие проги не создают - тут вы лукавите...

    Цель создания таких программ одна - это спам форумов, просто так как спамные сообщения сделанные от балды не в тему, а также вновь созданные топики на форумах, которые созданы исключительно для рекламы - их сносят модераторы... Вручную же перерывать форумы и искать тематические топики, а потом регистрироваться, логинится и самому печатать естественно такие варианты спамеров не устраивают - вот они и пытаются изобрести такую прогу, потому как она бы дала им возможность рекламиться на форумах бесплатно - а ради интереса спортивного такие вещи не создаются....

    Также чтобы это все работало это нужно, чтобы система была интеллектуальной, что-то типа искуственного интеллекта и т.д., а также чтобы было защито куча вразеологических оборотов и еще больше возможных ответов и то шансы невелики, потому как в некоторых сферах и при текушем уровне развития технологий машина пока не в состоянии еще заменить человека... В итоге вы получите что, то типа бредогенератора, который лишь на один из вопросов топика возможно еще и ответит что-то в попад, но дальше на автопилоте он врятли что-то сможет ответить в попад по слыслу и грамматически, следовательно своей цели вы врятли достигните, потому как такие посты будут всегда сноситься модераторами крупных форумов и скорее всего такие посты сделанные вашей прогой остануться лишь на немодерируемых форумах, или на сгенеренных форумах такими же бредогенераторами (такое тоже уже делают)...

    Также на многих форумах частенько еще и частенько сносят такие посты даже если он в тему но содержит рекламу чего-либо если у юзера всего 1 сообщение... Поэтому цели тут вы врятли достигните - просто получите очередную спам машину...

    п.8

  • Интересная мысль. А зачем спамиться на форумах??? Как-то не понимаю цели этого занятия... ежели всовывать рекламу внутрь сообщения... но это действительно вырежется модератором. Причем можно вырезать "автоматом" - всякие "урлы", джипеги и прочие "сцылки" на рекламу - легко. Они же ведь от текста отличаются на программном уровне.

    На счет того, что "комп еще не может"... гм-м. Вы с "Элизой" - общались? Если нет - пообщайтесь. Весьма занятное дело. И это - не реклама. Попробуйте еще найти эту прогу на сегодняшний парк машин... (писана в году так 68-74 еще прошлого века):миг:
    Вот как раз и интересно насколько "впопад" получится... где же еще проверять как не на "форумах", разве на них 90% не тот же "бред"?:миг:

    На самом деле, уже посмотрел, что есть, и что такое "спам-боты"... это не совсем та база, которую искал... по-хорошему, надо делать что-то типа "плагина" к браузеру... он всё равно страничку принимает, вот пусть и разбирает "как надо"... Если уж к вопросу рекламы, то это скорее всего плагин для интеллектуального вырезания всякой ерунды, не относящейся к запросу пользователя... т.е. "антиспам-плагин".:улыб:

    Щас, все равно, основную часть надо будет переделывать в "Васика" на нормальный язык... особливо с новым пониманием принципов хранения БД... с полгода уйдет "тока так". Вот и искал, начем такое пишут, дабы рефакторится сразу "по делу"... да и проверять кусками...:улыб:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

    Исправлено пользователем tolstopuz (10.11.09 11:39)

  • Вау! Нашел подходячий инструментарий! MUMPS.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Да просто чтобы эта штука в попад отвечала - это наверное нужно совершенно какой-то новый подход, просто допустим даже среди синонимайзеров контента еще на настоящий момент не создано такого, который бы из исходного текста получил бы полностью читабельный текст, где не терялась бы смысловая нагрузка и в тоже время он бы был написан другими словами, а здесь задачка думаю даже посложней будет...

    п.8

  • :ха-ха!:

    Посмотрел на "творчество" онлайн генераторов и синонимизаторов контента... н-да. В своё время ещё на Агате, мы развлекались веселее: был генератор сказок, который заменял отдельные слова и предложения, в том числе включая заданные имена и проч. слова... было складнее... в том числе получались фразы типа "Разбил Василий, кличка - Репка, яичко и посадил дед Василия ...на три года."
    :ха-ха!:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: На счет того, что "комп еще не может"... гм-м. Вы с "Элизой" - общались? Если нет - пообщайтесь. Весьма занятное дело. И это - не реклама. Попробуйте еще найти эту прогу на сегодняшний парк машин... (писана в году так 68-74 еще прошлого века):миг:
    Существующие ИИ-собеседники умеют строить гладкие фразы и даже говорить в тему, однако поддержание содержательной беседы все еще остается за пределами их возможностей.

  • Существующие ИИ-собеседники умеют строить гладкие фразы и даже говорить в тему, однако поддержание содержательной беседы все еще остается за пределами их возможностей.

    Интересно, а чем различаются эти 2 утверждения: "говорить в тему" и "поддержание содержательной беседы"?:улыб:
    И ещё: а так ли нужна "содержательная беседа"?

    Насколько понимаю, проблема не в самой беседе, а в техниках построения "выводов", "обощений" и "заключений" - т.е. в производстве новых знаний на базе уже имеющихся.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Посмотрел на "творчество" онлайн генераторов и синонимизаторов контента... н-да. :ха-ха!:
    Ну, касательно онлайн генераторов - бесплатные генераторы и синонимайзеры можно сказать "отстой полнейший" ... Есть сейчас, которые более менее уже справляются с задачей, т.е. там идет в основном замена глаголов и прилагательных, а также идет добавление новых слов, такие уже более осмысленно генерят, но тем не менее все равно правки текста они требуют если делать читабельный и грамотный текст...

    п.8

  • В ответ на: Интересно, а чем различаются эти 2 утверждения: "говорить в тему" и "поддержание содержательной беседы"?:улыб:
    Если я сейчас объясню разницу, то вы поймете. И может быть даже начнете спорить с определениями, приводя примеры. А бот в ответ будет просто лить словесную воду.

  • Не-а. Не буду. Потому как в "базе данных" таковых не имеется. Впрочем и у Вас тоже.:улыб:

    Сегодня не смог установить бесплатную версию Cache... говорит, что нету какого-то файла... типа связи с апачем...
    1. нафига он мне в режиме single-user, local-host?
    2. У нас в Новосибе есть кто знает Mumps в варианте Cach?

    Короче, помочь кто-нибудь может? Или ставить версию от Кейна?

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Сегодня не смог установить бесплатную версию Cache... говорит, что нету какого-то файла... типа связи с апачем...
    1. нафига он мне в режиме single-user, local-host?
    2. У нас в Новосибе есть кто знает Mumps в варианте Cach?

    Короче, помочь кто-нибудь может? Или ставить версию от Кейна?
    Ну, если есть юзер, то тогда должно быть то, что он юзает.
    Надо же как-то это обозвать. То, что юзает.
    Договорились, что все везде по любому случаю самую наипростейшую конфигурацию того, что юзают обзывать локалхостом
    (а в MSSQLServer ваще есть чудесный alias, т.е. синоним - точка . - для этого дела. У него есть, правда, неприяная для новичков особенность, что его не видно ).

    Ну, я лет 7 назад работал с Cache.

    Если не устанавливается, то ничего с этим поделать неззя,
    ищите сет-ап, который устанавливается,
    это Вам подсказка провидения сверху -
    не занимайтесь ерундой...
    Я бы с этой Cache даже за хорошие деньги не стал бы связываться

    MUMPS- это просто уничижительная характеристика вида языка, используемого в Сache, в котором язык, если я не подзабыл, также и называется - Cache.

    Зачем надо было тут всех путать MUMPS-ом?

    И, как Cache связано с созданием бота?

    Эк Вас ломает и шатает, больно смотреть на это

    PS
    Обратите внимание, что применение Cache не вышло за пределы психиатрических лечебниц

  • :ха-ха!:

    Посмотрел язык и по-поводу "психиатрических лечебниц" мысль тоже появлялась... Нечто.

    Запустится-то оно запустилось. Но вот чего делать дальше - пока еще не понял... Пишет, что не может соединиться с localHost 127.0.0.1[1972]. Поставил на XP Pro, которая у меня поднята на отдельной тачке ваще без сети и протоколов... вот и не могу понять толи ей типа сетку поднять, толи порт разрешить... где искать - непонятно.

    А по поводу "зачем" - подскажите каким еще инструментарием можно также легко и дешево обслуживать иерархические БД объектов с такой же скоростью, паралельностью и компкатностью хранения... я вот ничего лучше - не нашел. Нужен софт или библиотека к языку, которая позволяет эффективно хранить и обрабатывать сильно ветвящиеся и разреженные неориентированные графы объектов, да еще и произвольной глубины... с объемом хранения от 1Г записей... в разумное время...

    Думаю что для MUMPS это вполне "по силам". По крайней мере, то что уже видел - позволяет делать такие выводы.

    Одно не могу понять: как софт, на котором работает более 200 ведущих банков, правительственные органы нескольких стран, ведущие корпорации (Кока-кола например), работает без особых модификаций уже лет так 30, да еще и на любых платформах (переносим легче чем С), не требует специальных знаний в программировании - и мало известен в "широких кругах"??? Как он ваще прошел "мимо меня" в своё время...

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • П.С. Только рекламировать РСУБД - не надо. Не вытянут.

    То, что нашел на просторах инет:
    Сравнительные характеристики по скорострельности:
    1. MUMPS vs Oracle - на больших объемах (>1M записей) и нескольких пользователях - выигрыш около 6раз.
    2. MUMPS vs 1C - выигрыш более 10раз. Косвенная оценка - 2 порядка.
    3. Если учесть, что MySQL проигрывает Oracle на типовых запросах в несколько раз. То вопрос тоже отпадает.

    КПД хранения сильно ветвящихся деревьев - более 50%.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Запустится-то оно запустилось. Но вот чего делать дальше - пока еще не понял... Пишет, что не может соединиться с localHost 127.0.0.1[1972]. Поставил на XP Pro, которая у меня поднята на отдельной тачке ваще без сети и протоколов... вот и не могу понять толи ей типа сетку поднять, толи порт разрешить... где искать - непонятно.
    Гы!
    Гугльните
    Как установить Microsoft Loopback Adapter

    Это такое изобретение
    (я бы даже сказал программный интерфейс, если бы знал, что это такое),
    которая нужна если у Вас нет сетевой платы
    или же она подключена к интернету с автоопределением,
    а интернета нема и тд, и тп

    В ответ на: - подскажите каким еще инструментарием можно также легко и дешево обслуживать иерархические БД объектов с такой же скоростью, паралельностью и компкатностью хранения...
    Легко.
    MS SQL Server 2008 - hierarchyid data type

    В ответ на: Одно не могу понять: как софт, на котором работает более 200 ведущих банков, правительственные органы нескольких стран, ведущие корпорации (Кока-кола например), работает без особых модификаций уже лет так 30, да еще и на любых платформах (переносим легче чем С), не требует специальных знаний в программировании - и мало известен в "широких кругах"??? Как он ваще прошел "мимо меня" в своё время...
    Ну? Работает и работает
    На Шаттлах тоже суперкомпы для своего времени стоят - 4 процессора по то ли по 64К, то ли по 640
    И надо возить с собой несколько десятков томов документации,
    чтобы заглядывать в коды выдаваемых ошибок

    То, что 30 лет работают, должно было Вам что-то подсказать об интеллекте работающих и используемого...

    Ваще я тут выпендриваюсь только по одному поводу - жалко мне Ваших усилий и времени,
    не лезьте Вы в инструментарий психлечебниц

  • В ответ на: То, что нашел на просторах инет:
    Сравнительные характеристики по скорострельности:
    Посм. ещё применение Кобола к индексированным файлам (их, кстати, файловая версия 1С юзает).

    Там выигрыш будет и поболе... для специально придуманных примеров

    Это ж все примеры пишутся и делаются теми,
    кто заранее нацелен на эти выводы и результаты

  • В ответ на: да еще и на любых платформах (переносим легче чем С), не требует специальных знаний в программировании - и мало известен в "широких кругах"??? Как он ваще прошел "мимо меня" в своё время...
    Можно ссылки на этот бред почитать?

  • В ответ на: 1. MUMPS vs Oracle - на больших объемах (>1M записей) и нескольких пользователях - выигрыш около 6раз.
    2. MUMPS vs 1C - выигрыш более 10раз. Косвенная оценка - 2 порядка
    Как можно сравнить категорию (группу) разновидности программных языков MUMPS с тулзами и платформами?

    В ответ на: 3. Если учесть, что MySQL проигрывает Oracle на типовых запросах в несколько раз. То вопрос тоже отпадает
    MySQL - это, строго говоря, ваще не база данных,
    а менеджер таблиц

    Он не предназначен для конкурирования и сравнения с СУБД

    До появления РСУБД использовались иерархические "базы данных", которые были полностью вытеснены РСУБД .
    Вам нужно порыться среди софта 40-летней давности и будет Вам готовое "щастье"

  • В ответ на: А по поводу "зачем" - подскажите каким еще инструментарием можно также легко и дешево обслуживать иерархические БД объектов с такой же скоростью, паралельностью и компкатностью хранения...
    Я что-то серьёзно упустил в развитии темы.

    Давайте сначала - что Вы имеете в виду под термином "бот"? и при чём тут ваще базы данных?

  • А в одном сообщении нельзя было написать? Неудобно читать как-то. Да и отвечать - тоже.

    По сравнениям: меня ваще мало волнуют определения и специальные тесты. Как и зачем они пишутся - тоже знаю. В своё время даже делал свои для сравнения...

    Сравнение с 1С было где-то на sql.ru на реально работающем предприятии и данных в Латвии.

    Опять же "база или нет" mysql - спорить не собираюсь. Пользуется как РСУБД и ладно.

    Все приведенные выводы сделаны на основе того, что опубликовано в инете, поэтому на "абсолютность" - не претендую, да и не ставил целью кого-то в чём-то "убедить". Просто сказал почему пришел сам к такому выводу "для себя". Думаю что если бы было абсолютно выигрышное ПО - им бы все пользовались давным давно. А так - каждой задаче - своё.

    Вот для моей задачи - другого пока не вижу и Вы не подсказали. С какой скоростью будет работать и сколько потребует ресурсов MS SQL пусть и для конкретного типа данных в случае когда надо "перелопачивать" от 1000 млн. записей (пусть и очень маленьких - около 120байт), методами РСУБД и сколько уйдет дополнительного места на хранение того, что легко отпимизируется как по скорости, так и по хранению организацией в рамках иерархии объектного графа?

    Как пример, нашел на Cache словарь Зализняка - ну вот не верю, что на MS SQL его содержимое упакуется в те же 5.5Мб... да еще и с хранимыми процедурами морфоразбора... а ведь это даже не малая часть такого "бота"...:миг:

    Вот и к вопросу о "боте". Бот - может и не совсем правильное название. Как вариант проверки способности компа разбирать текст на форумах и правильно вести диалог...

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Сорри, не посмотрел сразу. Иерархический тип данных, как он описан в MSDN - хорош для не сильно ветвящихся деревьев. Я же сразу писал деревья(точнее граф) - сильно ветвящийся. Ну скажем количество потомков может равняться количеству всех записей - т.е. вполне нормальный диапазон вероятных значений: от 2000 до 2млн. шт... Скока там бит "на представление" каждой(!) записи уйдет?:миг:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Вот для моей задачи - другого пока не вижу и Вы не подсказали. С какой скоростью будет работать и сколько потребует ресурсов MS SQL пусть и для конкретного типа данных в случае когда надо "перелопачивать" от 1000 млн. записей (пусть и очень маленьких - около 120байт), методами РСУБД и сколько уйдет дополнительного места на хранение того, что легко отпимизируется как по скорости, так и по хранению организацией в рамках иерархии объектного графа?
    Вы, что - пишите на форуме, прочитав, записав и соптимизировав в голове миллионы сообщений?
    а, потом, написав, упаковываете мозги и складываете их в тот же склад?

    Зачем это нужно? В крайнем случае просто проиндексируете контент in-situ с url-cсылками,
    он же уже хранится на вебсайте. Более того, можно избежать и этого, просто задействовав имеюшиеся на инете поисковики

    Откуда здесь дерево-то берётся???
    Это, скорее, многоразмерная задача.
    Для них применяются olap кубы.

    Вам сколько раз нужно перелопачивать миллионы записей, неужели более одного раза? и зачем? может сотен последних хватит?

    Мне неохота рыться, но насколько я припоминаю рыночные "преимущества" Cache отнюдь не в деревьях и не в храненни данных, а втом что там смазаны границы между форматом хранения данных и форматом их использования в run-time
    (не надо конвертировать их между хранилищем и оперативной памятью)

    Кстати, Пушкин во всех своих произведениях использовал максимум 21 тыс. слов.
    Откуда Ваши террабайты-то берутся?

  • :улыб:

    Это Ваше видение решения задачи ИИ в части обработки текстов. У меня несколько другое решение видится. Бот, как и писал - нужен "для проверки". Но ведь это не отменяет "общего" применения, не правда ли?:миг:

    Насколько сейчас уже понимаю (почитав и слегка попробовав) рыночные преимущества "Каши" - в единстве подхода к решению задачи (как по хранению, так и "бизнес-логики") и устранению процесса "переколбашивания" объектно-ориентированной исходной природы данных в реляционную модель алгебры множеств с устранением всякой семантики, которую потом приходится "довешивать" отдельными методами. Отсюда и "живучесть" решений.

    Жаль, что "существенный" недостаток системы - язык программирования. Но, опять же, язык - это всего лишь язык и не больше. В этом смысле PHP - гораздо более коряв, да и не язык ваще, если уж вспоминать "определения". Так, набор залипух.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В общении стараемся не нарушать п. 6 и п. 7

    Исправлено пользователем Йорманика (13.11.09 08:44)

  • "Многие вещи нам не понятны не в силу их сложности, но токмо потому, что не входят в круг наших понятий". Где-то так.

    Кроме оскорбительной тематики, другие - просто еще не попали в СУБД?

    Какие еще перлы будут?
    :ха-ха!:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Двигается?

    Я тут веду переговоры по разработке scraper/webcrawler.
    Так в нём ваще не будет базы данных, дерево файлов только.
    Да и то не для работы, а для передачи результатов.

    Хотел бы понять, что я недорабатываю, не использую базы данных

  • В ответ на: Так в нём ваще не будет базы данных, дерево файлов только.
    Любая структурированная совокупность данных является базой данных. Файлы в том числе.

    Исправлено пользователем SirGun (18.11.09 16:39)

  • В ответ на:
    В ответ на: Любая структурированная совокупность данных является базой данных. Файлы в том числе.
    Это Вы, наверное, про MySQL?

    Вы слышали про ACID, связи, транзакционность, data mining, olap кубы, репликации, распределенность и т.д.?

  • В ответ на:
    В ответ на:
    В ответ на: Любая структурированная совокупность данных является базой данных. Файлы в том числе.
    Вы слышали про ACID, связи, транзакционность, data mining, olap кубы, репликации, распределенность и т.д.?
    Нет, я только видел. Все эти слова относятся уже к анализу и управлению базами данных, либо являются одной из разновидностей БД. Но база данных, основанная на файлах, имеет полное право называться Базой Данных. Иерархической Базой Данных. И не спорьте :biggrin:

  • Потихоньку. Перекачал пдф документацию, теперь сижу вчитываюсь... не так всё грустно в датском королевстве...

    Кстати, кто там утверждал про лечебницы? Одно из подразделений IBM, точнее Focal Point, использует для хранения Cache, потому как надо обеспечить одновременный доступ 10_000 пользователей и хранение от 6 до 10 Тб данных... перенос описаний Java объектов занял ... 15 минут.:миг:
    Хотел бы понять, что я недорабатываю, не использую базы данных
    Если в работе только дерево файлов, и у Вас оно требуется только для передачи, то БД, скорее всего, и не нужна. Вопрос БД возникает когда что-то, где-то, как-то надо хранить. Если "что-то" - велико, сложно структруировано и надо не только хранить, но еще и быстро(!) находить только(!) то, что нужно. А уж "дорабатываете" или нет - Вам решать.:улыб:
    Для нормальной работы "автоответчика" надо хранить достаточно большой объем развесистой структуры данных, начиная от словаря лексем и до наборов фраз, тем и т.д. и находить во всем этом то, что нужно (и только) за разумное время... так средний словарь слов русского языка - это около 40-100 тысяч слов, у каждого слова есть несколько словоформ - 0..15, средняя длина слова 8.2 буквы, средняя длина фразы 6-12слов и т.д. Это всё взято на просторах инета. Можете поискать сами... а еще есть такая беда как N-грамма, правила грамматики и прочие связи... грубо оцененный мной объем хранения от 200 Гб...

    Проблема в том, что хранение в реляционных таблицах приводит к дикой потере места и скорости доступа. Проверено. Оптимально - сильноветвящиеся деревья. Вот и искал такую СУБД. Нашел.

    Самое прикольное то, что эта СУБД без особых изменений эксплуатируется с 1979года... как я о ней раньше ничего не знал? До сих пор не могу понять...

    Пока чем больше читаю, тем больше убеждаюсь, что это именно то, мне было нужно. Но язык.... Кстати, объектно-классовая надстройка языка Cache над Mumps - фигня достаточно слабая... и приводит к существенной потере скорости...

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Потихоньку. Перекачал пдф документацию, теперь сижу вчитываюсь... не так всё грустно в датском королевстве...

    Кстати, кто там утверждал про лечебницы? Одно из подразделений IBM, точнее Focal Point, использует для хранения Cache, потому как надо обеспечить одновременный доступ 10_000 пользователей и хранение от 6 до 10 Тб данных... перенос описаний Java объектов занял ... 15 минут. ;)
    Кто говорит, что грустно. Там всё весело,
    траву не надо будет покупать!

    Гы, я чуть со стула не упал от такой наивной веры во всё написанное.

    Это после многолетнего курса реабилитации от загрузки и чтения pdf или после?
    Имея за плечами, т.е. на руках, сертификат Cache' и сертифицированное обучение сертифицированным преподавателем Cache',
    и после анализа скрытых смыслов и наколок,
    я пришёл к выводу,
    что под переносом имеется ввиду fast format, т.е. быстрая переразметка ждиска.

    В ответ на: Для нормальной работы "автоответчика"...
    Вы замахнулись на Нобелевскую премию,
    претендуя опередить исследовательские подразделения всех компаний мира!

    В ответ на: Проблема в том, что хранение в реляционных таблицах приводит к дикой потере места и скорости доступа.
    Это не проблемМа. Это известная дилемма быстродействие/эффективность vs. избыточность/место.

    В ответ на: Самое прикольное то, что эта СУБД без особых изменений эксплуатируется с 1979года... как я о ней раньше ничего не знал? До сих пор не могу понять...
    Учитывая, что я программировал в Cache' в 2003 и ничего не изменилось с 1879 г., можете опереться на мой опыт, что никому в голову не приходит тратить время на описание проблем и несуразиц с Cache'.

    В ответ на: Пока чем больше читаю, тем больше убеждаюсь, что это именно то, мне было нужно. Но язык.... Кстати, объектно-классовая надстройка языка Cache над Mumps - фигня достаточно слабая... и приводит к существенной потере скорости...
    Только в этом проблема?
    Если у Вас произойдёт малейшее corruption of db (даже в одном байте) у Вас пропадут все Ваши террабайты,
    и ничего Вы с этим не сможете сделать.
    Заодно и всю Cache' yalj будет переустанавливать

    Кстати, как там incremental бэкапы делаются, поинтересуйтесь, откроете для себя много интересного!

  • Вот, возвращаясь к семантическому смыслу задачи,
    посм.
    http://wapedia.mobi/en/Metacrap
    (или
    http://www.well.com/~doctorow/metacrap.htm
    в оригинале)

    И то, что сказал основатель интернета:
    http://en.wikipedia.org/wiki/Semantic_Web

    "I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A ‘Semantic Web’, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The ‘intelligent agents’ people have touted for ages will finally materialize.

    – Tim Berners-Lee, 1999"

    А неззя вначале proof-of-concept prototype без всяких заморочек с хранением сделать

  • Вы уже второй раз упоминаете о своих познаниях и опыте в Cahce. Большая просьба (дабы сэкономить время) - не могли бы Вы просто и доходчиво рассказать о тех проблемах, которые Вы считаете серьезными. Вот Вы сказали, что Cache - "жутко ненадежен" и риск "всё потерять" слишком велик. Очень хочется услышать по-подробнее. Да и еще что там "подразумевается" не то, что пишется? Тоже, если не трудно - осветите попродробнее. А то вдруг эта фигня еще и не работает вовсе...

    Кстати, что же всё-таки можете посоветовать вместо Cache? Вы так и не ответили на этот вопрос...

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Может Вам предложить уже готовую библиотеку для лексического анализа? Опасаюсь я за Ваш рассудок, коллега:улыб:Уверен, она Вам сильно облегчит жизнь. Просто я как-то несколько лет назад уже пытался решить подобную задачу. Увлекательно, но забота о хлебе насущном задвинула её в архив.

  • Гы. Было дело дело. Сам опасался лет так 8 назад. Теперь уже - нет. Поздно пить боржоми...:миг:

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • Вопрос ananas'у:

    Поставил Loopback, Apache и запустился Cache. Но при соединении с сервером Cache Studio пишет "Не могу соединиться с сервером. Access denied. //Localhost[1972]" При ручном подключении запрашивает пароль для пользователя admin. И где его взять? Комп под Хрюшей, стоит локально и без сетевых соединений (ваще без сетевой карты). Пользователь admin в системе пароля не имеет...

    При этом, странички с администрированием, документацией и Getting started в Explorer - выводит исправно... чего не так?

    Есть возможность поставить под Убунтой... хотел сначала опробовать виндовый вариант...

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Вопрос ananas'у:

    Поставил Loopback, Apache и запустился Cache. Но при соединении с сервером Cache Studio пишет "Не могу соединиться с сервером. Access denied. //Localhost[1972]" При ручном подключении запрашивает пароль для пользователя admin. И где его взять? Комп под Хрюшей, стоит локально и без сетевых соединений (ваще без сетевой карты)
    . Пользователь admin в системе пароля не имеет...

    При этом, странички с администрированием, документацией и Getting started в Explorer - выводит исправно... чего не так?
    С каким сервером (сервером чего)?
    Как Вы думаете - какой сервер показывает документацию?
    И, при чём тут пользователь системы к пользователю, под которым работаёт сервер?

    Как бы Вам вежливо ответить " чего не так?"?

    Я на такие вопросы (проекты на фрилансерских сайтах) за деньги никогда не берусь,
    даже в областях, в которых сейчас активно работаю и администрирую, а Cache я занимался 6 лет назад

    Тему для себя закрыл.
    И, возвращаться не собираюсь

    Сделать правильно гораздо меньше вариантов,
    чем напортачить. И, потом, никогда не додумаешься, что там кто-то мог "навыдумывать".


    Вы писали ранее, что у Вас на компе не установлены сетевые протоколы.
    Из моего опыта могу сказать, что если Вы устанавливаете studio или framework, зависящие от протоколов, сервисов, серверов, библиотек, то их надо установить вначале или же потом регистрировать с тем, что Вы устанавливаете потом

    По поводу других вопросов - я тоже отвечал ранее.

    Никакие самые распрекрасные Тулзы Вам мозги не заменят и возможности всё сделать через тот самый проход не предотвратят.

    Вы сделайте, для начала, без базы данных... хотя бы с пустой функциональностью

  • В ответ на: При этом, странички с администрированием, документацией и Getting started в Explorer - выводит исправно... чего не так?
    Я не помню, как там в Cache',
    но здравый смысл мне подсказывает, что
    выводить статичные веб странички (или pdf-ы) никакой сервер обычно не нужен

    Как, впрочем, и для Вашего бота...

  • Спасибо за полный и развернутый комментарий. Думаю, что теперь уже смогу справиться самостоятельно. Тему для себя еще раз закрыл.

    "Только так, только личная инициатива и напряженная работа над собой. .. Нужно своей собственной рукой все делать" (с) В.В. Путин:улыб:(а не на "вертикаль власти" надеяться)

  • В ответ на: Проблема в том, что хранение в реляционных таблицах приводит к дикой потере места и скорости доступа. Проверено. Оптимально - сильноветвящиеся деревья. Вот и искал такую СУБД. Нашел.
    Это называется полнотекстовое индексирование и реализовано в совеременных субд. Все придумано до нас.

    Be too clever by three quarters.

Записей на странице:

Перейти в форум

Модератор: