| Предыдущая тема :: Следующая тема |
| Автор |
Сообщение |
Virus
Зарегистрирован: 09.10.2003 Сообщения: 256 Откуда: Москва
|
Добавлено: Ср Окт 20, 2004 9:35 am Заголовок сообщения: База/бибилотека авторов |
|
|
| Подробности напишу вечером... |
|
| Вернуться к началу |
|
 |
crawler
Зарегистрирован: 10.12.2003 Сообщения: 759
|
Добавлено: Ср Окт 20, 2004 11:35 am Заголовок сообщения: |
|
|
"Грузите апельсины бочками."  |
|
| Вернуться к началу |
|
 |
Virus
Зарегистрирован: 09.10.2003 Сообщения: 256 Откуда: Москва
|
Добавлено: Ср Окт 20, 2004 6:51 pm Заголовок сообщения: |
|
|
| crawler писал(а): | "Грузите апельсины бочками."  |
Вечер. Подробности:
Начну с того, что я представляю себя программистом (каким в настоящие время не являюсь) и у которого очень много свободного времени (как и есть на самом деле).
Вот есть такое дело как дублирование одних и тех же авторов, но по-разному написанных в книге.
Предлагается создать текстовый файл который содержал бы список авторов с вариантами сокращений Например:
Гарри Гаррисон / Г. гаррисон/Гарри Г.
Айзек Азимов / Азимов Айзек / А. Азимов
И когда рейдер находи автора, который есть в списке, то сразу его определяет к тому автору, который есть уже в библиотеке. Даже если автор в библиотеке написан как Г. Гаррисон, а в книге Гарри Г., то он добавляет его к Г. Гаррисон. А не создаёт ещё одного Гаррисана…
То имя, которое стоит первое в листе авторов, и будет показываться/изменяться в библиотеке.
Потом можно сделать также и для название Книг. Чтоб не было дубликатов. Конечно, наверняка есть книги с одинаковыми названиями, но разные авторы. Вот с этим будет проблема.
У меня просто два Толкина. И там совершенно одинаковые рассказы:(
Трудности:
1. Возможности и желания автора программы ICE Book Reader
2. Возможно ICE Book Reader станет медленней работать
3. Вроде всё :)
Листы планируется подключать как плагины и по желанию…
И ими можно было бы обмениваться. |
|
| Вернуться к началу |
|
 |
crawler
Зарегистрирован: 10.12.2003 Сообщения: 759
|
Добавлено: Ср Окт 20, 2004 7:30 pm Заголовок сообщения: |
|
|
А что делать с Толстыми и Мураками ??? ;)
Проблема дублирования автора "Имя-Фамилия", "Фамилия-Имя-Отчество" в принципе решаема довольно несложно (разумеется разбор надо будет делать вручную). Надо лишь держать список всех авторов и список тех авторов, которых "считать" одним (алиасинг),и в дереве показывать только "алиас". А вот насколько это сложно вбить в существующий ИБР - знает только автор. |
|
| Вернуться к началу |
|
 |
ICE Graphics Site Admin
Зарегистрирован: 26.01.2003 Сообщения: 2751
|
Добавлено: Ср Окт 20, 2004 7:33 pm Заголовок сообщения: |
|
|
| Virus писал(а): | Вот есть такое дело как дублирование одних и тех же авторов, но по-разному написанных в книге.
Предлагается создать текстовый файл который содержал бы список авторов с вариантами сокращений Например:
Гарри Гаррисон / Г. гаррисон/Гарри Г.
Айзек Азимов / Азимов Айзек / А. Азимов |
Проблема известна, а вот её решение пока нет. От файла мало проку будет, так как невозможно перечислить все возможные человеческие ошибки.
| Virus писал(а): | То имя, которое стоит первое в листе авторов, и будет показываться/изменяться в библиотеке.
Потом можно сделать также и для название Книг. Чтоб не было дубликатов. Конечно, наверняка есть книги с одинаковыми названиями, но разные авторы. Вот с этим будет проблема.
У меня просто два Толкина. И там совершенно одинаковые рассказы |
Пока проблема таких авторов решается так: "Дулликаты названия" и смотришь глазками есть ли похожие авторы. Это просто, так как редко бывает больше трёх книг в группе. А потом тыкаешь в правую кнопку "неправильного" автора и правишь всю группу. Это самый быстрый и эффективный метод, так вероятность того что ошибка будет и в авторе и названии весьма мала.
| Virus писал(а): | | Листы планируется подключать как плагины и по желанию… И ими можно было бы обмениваться. |
С листами дело обстоит так: они будут генерироваться. А вот на счёт их подключения, так это уже совсем другая задача. |
|
| Вернуться к началу |
|
 |
Virus
Зарегистрирован: 09.10.2003 Сообщения: 256 Откуда: Москва
|
Добавлено: Ср Окт 20, 2004 8:46 pm Заголовок сообщения: |
|
|
| ICE Graphics писал(а): | | Проблема известна, а вот её решение пока нет. От файла мало проку будет, так как невозможно перечислить все возможные человеческие ошибки. |
А кто мешает дописать не упомянутого автора? Вы же не можете создать сразу идеальную программу |
|
| Вернуться к началу |
|
 |
ICE Graphics Site Admin
Зарегистрирован: 26.01.2003 Сообщения: 2751
|
Добавлено: Чт Окт 21, 2004 7:16 am Заголовок сообщения: |
|
|
| Virus писал(а): | | ICE Graphics писал(а): | | Проблема известна, а вот её решение пока нет. От файла мало проку будет, так как невозможно перечислить все возможные человеческие ошибки. |
А кто мешает дописать не упомянутого автора? Вы же не можете создать сразу идеальную программу |
А что мешает просто исправить автора, если он определился не верно ? Если провести реальные тесты, то ещё вопрос в каком случае потребуется меньше операций. |
|
| Вернуться к началу |
|
 |
Virus
Зарегистрирован: 09.10.2003 Сообщения: 256 Откуда: Москва
|
Добавлено: Чт Окт 21, 2004 8:39 am Заголовок сообщения: |
|
|
| ICE Graphics писал(а): | | Virus писал(а): |
А кто мешает дописать не упомянутого автора? Вы же не можете создать сразу идеальную программу |
А что мешает просто исправить автора, если он определился не верно ? Если провести реальные тесты, то ещё вопрос в каком случае потребуется меньше операций. |
Жалко что не умею прогромировать:(
Подразумеваеться что "А что мешает просто исправить автора, если он определился не верно ?" будет сведено к миниму. А если такое случилось, достаточно в лист его занести и всё. В програме само станет на своё место после перезапуска... |
|
| Вернуться к началу |
|
 |
ICE Graphics Site Admin
Зарегистрирован: 26.01.2003 Сообщения: 2751
|
Добавлено: Чт Окт 21, 2004 1:01 pm Заголовок сообщения: |
|
|
| Virus писал(а): | | Подразумеваеться что "А что мешает просто исправить автора, если он определился не верно ?" будет сведено к миниму. А если такое случилось, достаточно в лист его занести и всё. В програме само станет на своё место после перезапуска... |
Объясняю на пальцах. Чтобы автора внести в список исправления его ещё надо найти. Это самое трудоёмкое. А если нашёл, то что правишь в книгах, что вносишь в список - по сложности это без разницы. Есть только гипотетический выигрыш от того, что будут добавляться новые книги, а у них попадётся автор написанный в виде, в котором он внесён в список. |
|
| Вернуться к началу |
|
 |
Вадим Захаренко Модератор
Зарегистрирован: 14.08.2003 Сообщения: 2140 Откуда: Беларусь, г.Мозырь
|
Добавлено: Чт Окт 21, 2004 2:37 pm Заголовок сообщения: |
|
|
Вот по этой причине я в свое время и предлагал сделать отдельные поля для имени и фамилии автора. Ведь наиболее часто встречающаяся проблема
Азимов Айзек
Айзек Азимов
Но сейчас я считаю что было найдено лучшее решение этой проблемы
Хранение всех авторов в одном поле + массовое изменение этого (и не только этого поля).
Обычно всех авторов хранят либо в формате
Имя Фамилия
или
Фамилия Имя
Сколько ты добавляешь книг за раз: 10, 20, 100?
Перейди в "Поиск" введи дату импорта сегодняшним числом, отсортируй по автору - и поправь руками все что тебе не понравилось. |
|
| Вернуться к началу |
|
 |
ICE Graphics Site Admin
Зарегистрирован: 26.01.2003 Сообщения: 2751
|
Добавлено: Чт Окт 21, 2004 3:21 pm Заголовок сообщения: |
|
|
| Вадим Захаренко писал(а): | | Сколько ты добавляешь книг за раз: 10, 20, 100? Перейди в "Поиск" введи дату импорта сегодняшним числом, отсортируй по автору - и поправь руками все что тебе не понравилось. |
Обычно 100-1000 за раз |
|
| Вернуться к началу |
|
 |
Virus
Зарегистрирован: 09.10.2003 Сообщения: 256 Откуда: Москва
|
Добавлено: Чт Окт 21, 2004 3:33 pm Заголовок сообщения: |
|
|
А ещё бывает когда пишут только начальную букву. и по разному это всё дело сокращают... и когда у меня 10, 20, 100 книг этого автора, то у меня и будет 5, 10, 50 совершно разных авторов которых нужно после вручную отредактировать.
У меня на пример:
Автор:
ДЖОН РОНАЛЬД Р. ТОЛКИЕН
Автор2:
Джон Рональд Руэл ТОЛКИЕН
А ведь ещё можно столько вариантов написать... И каждый раз будет создоваться новая группа.
Вот тут и вступает "лист авторов" (если он найдёт место быть реализован). зарание просмторел книги, вписал туда все варинаты написание авторов. И после добовляешь оптом книги, и они имеют одного автора.
Вобщем я закончил свою тему. Полседнее слово за ICE Graphics.
PS в любом случае я не откажусь от ИБРПР |
|
| Вернуться к началу |
|
 |
Вадим Захаренко Модератор
Зарегистрирован: 14.08.2003 Сообщения: 2140 Откуда: Беларусь, г.Мозырь
|
Добавлено: Чт Окт 21, 2004 3:43 pm Заголовок сообщения: |
|
|
| ICE Graphics писал(а): | | Вадим Захаренко писал(а): | | Сколько ты добавляешь книг за раз: 10, 20, 100? Перейди в "Поиск" введи дату импорта сегодняшним числом, отсортируй по автору - и поправь руками все что тебе не понравилось. |
Обычно 100-1000 за раз |
Хм... Коллега по несчастью, я тоже
А как такая идея?
перед импортом создать таблицу вида (или хранить её в global.cfg) - по существующим авторам
Айзек - Азимов Айзек
Азимов - Азимов Айзек
Иван - Сидоров Иван
Иван - Петров Иван
Сидоров - Сидоров Иван
петров - Петров Иван
При добавлении книги аналазировать то значение которое заносится в поле "автор" и если находится уже существующая пара - то приводим к "каноническому виду" и пишем в поле если же точное соответствие не находится (например "Айзек Азимов" или "Азимов Айзек" для Азимова) а находится нечеткое соответствие например ("Сидоров Иван" для нового автора "Сидоров ИвОн") - то опционально с (показом найденных вариантов) можно запросить как именно записать этого "нового" автора. |
|
| Вернуться к началу |
|
 |
ICE Graphics Site Admin
Зарегистрирован: 26.01.2003 Сообщения: 2751
|
Добавлено: Чт Окт 21, 2004 6:38 pm Заголовок сообщения: |
|
|
| Virus писал(а): | Вобщем я закончил свою тему. Полседнее слово за ICE Graphics.
PS в любом случае я не откажусь от ИБРПР |
И слово это такое - думать надо. Требуется устаканивание мыслей. |
|
| Вернуться к началу |
|
 |
crawler
Зарегистрирован: 10.12.2003 Сообщения: 759
|
Добавлено: Чт Окт 21, 2004 8:07 pm Заголовок сообщения: |
|
|
Тут есть над чем подумать.... Вот мои соображения:
*) 2 разных автора могут быть полными тезками. (вариант вероятнее всего не будет реализован вообще)
*) Частичные тезки - Толстой А.Н. и Толстой А.К. (не говоря про Л.Н.)
*) один и тот же автор, инициалы и полное имя - Дж. Толкиен и Джон Р.Р. Толкиен
*) один и тот же автор, разная транскрипция - Кит Ломер и Кит Лаумер
*) разные авторы с похожиими именами например (от балды) Джон Говард и Говард Джон.
*) и наконец один автор, смена места: Азимов Айзек и Азимов Айзек
ИМХО автоматом такое не разделишь. Нужно ручками. На мой взгляд решение со словарем (я имею в виду программная структура ассоциативные массивы) - самое эффективное. Ключ - это то что появляется на дереве, а значения - возможные варианты имени. Каждый автор сканируется по значениям словаря, и если не находится - создается новая запись "автор1":"автор1". При желании можно об'единить значения - и тогда один ключ вытирается, получается "автор1":"автор1","автор2". |
|
| Вернуться к началу |
|
 |
|